- +1
為什么“多模態(tài)卷王”階躍星辰積極擁抱開源?
原創(chuàng) 趙健 甲子光年

中國開源大模型,正在引領(lǐng)全球AI風潮。
作者|趙健
在DeepSeek效應下,今天的開源AI市場正在形成一股洪流。
過去短短一個月的時間里,海內(nèi)外至少有三家業(yè)內(nèi)領(lǐng)先的大模型公司宣布了開源計劃,按照時間順序為:
1月15日,MiniMax發(fā)布并首次開源了其最新一代基礎(chǔ)大模型MiniMax-01,并公開技術(shù)報告;
2月1日,OpenAI CEO Sam Altman在發(fā)布o3 mini推理模型的同時,公開承認OpenAI過去“站在了歷史的錯誤一邊,需要找出一個不同的開源策略”;
2月14日,百度宣布將在未來幾個月中陸續(xù)推出文心大模型4.5系列,并于6月30日起正式開源。
2月18日,又有一家國產(chǎn)大模型公司宣布戰(zhàn)略級開源計劃。
“大模型六小虎”之一的階躍星辰聯(lián)合吉利汽車集團開源了兩款多模態(tài)模型:截至目前全球范圍內(nèi)參數(shù)量最大、性能最好的視頻生成開源模型Step-Video-T2V,以及行業(yè)內(nèi)首款產(chǎn)品級開源語音交互大模型Step-Audio。目前,兩款開源模型均可以在「躍問App」上免費不限次體驗。
如果說DeepSeek為開源社區(qū)樹立了文本大模型的新標桿,那么階躍星辰正在開源社區(qū)樹立新的多模態(tài)大模型標桿,形成大模型開源世界的又一股中國力量。
1.最好的開源視頻生成模型
階躍星辰此前發(fā)布的模型都是閉源模型。雖然性能很強大,但模型具體是如何訓練的,外界無從得知。這一次,階躍星辰首次開源了兩款Step系列多模態(tài)模型Step-Video-T2V以及Step-Audio。
根據(jù)階躍星辰公布的技術(shù)報告,Step-Video-T2V具有300億參數(shù),能夠生成長達204幀的視頻,支持中英文雙語提示。該模型采用了深度壓縮變分自編碼器(Video-VAE)、擴散Transformer(DiT)和視頻直接偏好優(yōu)化(Video-DPO)等技術(shù),以提高生成視頻的質(zhì)量。

階躍星辰在技術(shù)報告中定義了構(gòu)建視頻基礎(chǔ)模型的兩個層次。
Level-1為翻譯型視頻基礎(chǔ)模型,是一個跨模態(tài)翻譯系統(tǒng),能夠從文本、視覺或多模態(tài)上下文中生成視頻。當前基于擴散模型的文本到視頻模型,比如Sora、Veo、Kling、Hailuo和階躍星辰的Step-Video,目前都屬于Level-1。
Level-2為預測型視頻基礎(chǔ)模型,能夠像大語言模型那樣根據(jù)根據(jù)文本、視覺或多模態(tài)上下文預測未來事件,并處理更高級的任務(wù),例如多模態(tài)數(shù)據(jù)推理或模擬現(xiàn)實場景。
階躍星辰認為Step-Video-T2V是Level-1階段,截至目前全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成模型,并將繼續(xù)探索Level-2。
在benchmark表現(xiàn)上,階躍星辰專門構(gòu)建了一個用于評估文本到視頻模型質(zhì)量的新基準測試。該基準包含128個來自真實用戶的中文提示,旨在評估生成視頻在11個類別中的質(zhì)量,包括體育、美食、風景、動物、節(jié)日、組合概念、超現(xiàn)實、人物、3D動畫、電影攝影和風格;同時階躍星辰還提出了兩種人工評估指標。
基于該基準,Step-Video-T2V要整體優(yōu)于騰訊的開源模型HunyuanVideo。

Step-Video-T2V是一個“真開源”模型,采用了最為開放寬松的MIT開源協(xié)議,用戶可任意編輯和商業(yè)應用,做到了毫不隱藏、完全開源,具有最大的誠意。
作為對比,Llama3.1 的開源協(xié)議雖允許商用,但要求顯著提示“Built with Llama”,并且對于月活用戶超過7億的情況,需要向Meta申請額外許可。Qwen2.5主要采用了Apache 2.0協(xié)議(3B與72B除外),會比MIT開源協(xié)議的限制更多一點。
階躍星辰開源的另一款模型Step-Audio,是業(yè)內(nèi)首款「產(chǎn)品級」開源語音交互模型,全力降低產(chǎn)業(yè)接入門檻。不同于市面上的開源方案需要經(jīng)過在部署和再開發(fā)等工作量,Step-Audio 是一整套實時對話方案,只要簡單部署上就能直接實時對話,可以端到端體驗。
目前,這兩款開源模型已經(jīng)可以在「躍問App」體驗。其中,視頻生成免費,不限次數(shù),可直接使用。以下是部分生成案例:

提示詞:鏡頭跟在一輛白色老式 SUV 后面,車頂架是黑色的,它在陡峭的山坡上加速行駛。

提示詞:一位身穿淺色紗質(zhì)服飾的女子,頭戴精致的頭飾,面帶微笑。鏡頭以特寫展現(xiàn)她姣好的面容和溫婉的氣質(zhì)。隨后,鏡頭切換到一位男子,他戴著透明面紗,眼神凝視著前方。平視鏡頭特寫展現(xiàn)了面紗的質(zhì)感和男子若有所思的神情。場景再次切換,男子身穿黑色長袍,衣襟和袖口處有暗紋裝飾,神情嚴肅地站在一個類似庭院的環(huán)境中。中景鏡頭展現(xiàn)了人物的全身以及周圍環(huán)境,營造出一種神秘的氛圍。

提示詞:一個精靈,在森林中起舞,身旁是螢火蟲環(huán)繞,月光透過樹葉,慢速展現(xiàn)精靈的輕盈,畫面夢幻唯美。
2.開源會泄露核心技術(shù)嗎?
階躍星辰一口氣把自己最核心的多模態(tài)技術(shù)給開源了。
對于開源的態(tài)度,業(yè)內(nèi)眾說紛紜。一個最直接、最常見的疑問就是,開源會泄露核心機密嗎?開源行為真的是為愛發(fā)電嗎?
首先,開源模型與閉源模型之間并非完全的對立關(guān)系。除了Meta、DeepSeek這些完全采用開源戰(zhàn)略的公司之外,大部分AI公司選擇了開源與閉源并行的戰(zhàn)略,比如谷歌。
“開源模型”本身的定義也有諸多爭議。在一些開源的原教旨主義者眼里,大模型的開源并非像開源軟件那樣直接把底層代碼開源,其實是一種“偽開源”。
實際上,開源模型開源的是“權(quán)重”,權(quán)重就是大模型經(jīng)過復雜的訓練后得到的模型參數(shù),開源模型允許用戶自由下載和使用這些權(quán)重,但是無法修改與復現(xiàn)。因此,開源實際上并沒有透露AI模型背后的核心競爭力。
開源的意義更多在于生態(tài)效應。現(xiàn)在所有的AI研究追根溯源都得益于開源社區(qū),比如當前幾乎所有大模型的基本架構(gòu)都來自于谷歌在2017年發(fā)布并開源Transformer論文。開源者站在開源社區(qū)的研究成果上繼續(xù)研究,并提出新的想法來回饋開源社區(qū)。
從技術(shù)角度來看,開源其實是一種秀肌肉的行為。只有開源模型性能真的有足夠的競爭力,才能吸引到用戶與開發(fā)者使用,這樣的開源才有意義,否則只會變成技術(shù)自嗨。
從商業(yè)角度來看,開源的主要目的是吸引用戶、開發(fā)者、潛在的合作伙伴以及吸引人才,DeepSeek就是一個活生生的案例。當一個開源模型積累足夠的用戶,就有可能圍繞開源社區(qū)進一步構(gòu)建成為AI時代的操作系統(tǒng)。
基于這樣的背景,階躍星辰選擇在今天開源,正是一種技術(shù)自信的體現(xiàn)。
3.多模態(tài)卷王的技術(shù)實力
不同大模型公司往往有一個獨特的標簽,比如長文本、虛擬角色等,而階躍星辰最大的特色無疑是一直在領(lǐng)跑行業(yè)的“多模態(tài)”能力。
階躍星辰也是多模態(tài)領(lǐng)域布局最全的大模型公司之一,旗下模型涵蓋語音識別、語音復刻及生成模型、視頻理解模型、圖像生成模型、視頻生成模型、多模態(tài)理解等各種類別。而且階躍星辰保持了很快的研發(fā)節(jié)奏,自公司成立以來已經(jīng)先后發(fā)布11款多模態(tài)大模型。
在模型性能上,Step系列多模態(tài)模型曾多次在國內(nèi)外權(quán)威大模型評測榜單上位列「中國大模型第一」。
比如,1月20日,LMSYS Org發(fā)布了大模型競技場Chatbot Arena最新榜單,Step-1o Vison在其中位列視覺領(lǐng)域中國大模型第一,超過所有國內(nèi)大模型公司;在最新發(fā)布的國內(nèi)權(quán)威的大型模型評估平臺“司南”(OpenCompass)多模態(tài)模型評測實時榜單中,Step-1o Vison也實現(xiàn)了霸榜。
在AI自媒體賽博禪心發(fā)布的“大模型視力表”測評中,階躍星辰多模態(tài)理解能力明顯超越國際頂尖模型ChatGPT和Claude,在視覺識別能力和準確度上十分突出。

越來越多的企業(yè)與AI應用開發(fā)者正在基于階躍星辰多模態(tài)大模型構(gòu)建產(chǎn)品。數(shù)據(jù)顯示,2024年下半年階躍星辰多模態(tài)API的調(diào)用量增長了超45倍。
頭部茶飲品牌茶百道與階躍星辰已達成深度合作,目前全國數(shù)千家茶百道門店已經(jīng)接入階躍星辰Step-1V多模態(tài)理解大模型,平均每天上百萬杯茶飲在大模型智能巡檢的守護下送到消費者手中。
網(wǎng)紅AI應用「胃之書」基于階躍星辰多模態(tài)能力,幫助用戶以更快捷有趣的方式記錄飲食,開發(fā)者趙純想公開表示曾對國內(nèi)大部分模型做過AB測試,最終發(fā)現(xiàn)階躍星辰付費率最高。
AI心理療愈應用「林間聊愈室」通過階躍星辰多模態(tài)能力讓用戶和聊愈產(chǎn)品實現(xiàn)多模態(tài)視覺互動,極大地豐富了交流體驗和深度。創(chuàng)始人李神龍稱,接入階躍星辰大模型后,產(chǎn)品整體付費率有所提升。
將這些業(yè)內(nèi)頂級的多模態(tài)能力開源之后,階躍星辰有望構(gòu)建一個更加開放的多模態(tài)生態(tài)。
4.與DeepSeek并肩成為兩大中國新銳開源力量
如果說DeepSeek為開源社區(qū)樹立了文本大模型的新標桿,那么階躍星辰正在開源社區(qū)樹立新的多模態(tài)大模型標桿,形成大模型開源世界的又一股中國力量。
兩款多模態(tài)大模型一開源迅速點燃了外網(wǎng),Hugging Face工程師、前谷歌TensorFlow團隊成員TieZhen Wang發(fā)推文評價稱,“階躍星辰就是下一個Deepseek”。

國外網(wǎng)友也紛紛點贊中國大模型公司為開源社區(qū)做出的貢獻。

雖然核心大模型聚焦的領(lǐng)域有所差異,但兩家公司同為大模型創(chuàng)業(yè)公司,倒是有一些共性。
比如,兩家公司都非常年輕,且都有極致且鮮明的技術(shù)理想主義。DeepSeek雖然是從量化基金孵化,但要做的事情是探索通用人工智能,是一種好奇心驅(qū)動的研究。而階躍星辰成立至今,也一直以實現(xiàn)AGI為目標堅持自研基座大模型,已經(jīng)覆蓋了從千億參數(shù)到萬億參數(shù),從語言、多模態(tài)到推理,從理解到生成的全面能力,是國內(nèi)基座模型覆蓋面最廣的大模型公司之一。
兩家公司在研究成果上也有不菲的成績,都多次在國內(nèi)外權(quán)威榜單上霸榜不同領(lǐng)域的中國第一。
不久前,全球影響力最大的科技商業(yè)化智庫《麻省理工科技評論》(MIT Technology Review)刊發(fā)了一篇題為《關(guān)注DeepSeek之外的四家中國人工智能初創(chuàng)公司》的報道,在其中指出階躍星辰展現(xiàn)出不遜于DeepSeek的技術(shù)實力與全球競爭力。
在開源領(lǐng)域,過去海外公司有更加深遠的影響力。而如今,隨著DeepSeek、階躍星辰等中國大模型公司的先后開源,中國AI公司開始在全球AI開源舞臺發(fā)揮越來越重要的作用。
在接下來的AI時代,中國AI公司有望領(lǐng)跑全球科技,為開源社區(qū)貢獻中國力量。
*點擊文末原文鏈接查看Step-Video-T2V技術(shù)報告
(封面圖來自階躍星辰)
END.
原標題:《為什么“多模態(tài)卷王”階躍星辰積極擁抱開源?|甲子光年》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司