下載客戶端

登錄

為什么“多模態(tài)卷王”階躍星辰積極擁抱開源？

2025-02-20 16:06

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 趙健甲子光年

中國開源大模型，正在引領(lǐng)全球AI風潮。

作者｜趙健

在DeepSeek效應下，今天的開源AI市場正在形成一股洪流。

過去短短一個月的時間里，海內(nèi)外至少有三家業(yè)內(nèi)領(lǐng)先的大模型公司宣布了開源計劃，按照時間順序為：

1月15日，MiniMax發(fā)布并首次開源了其最新一代基礎(chǔ)大模型MiniMax-01，并公開技術(shù)報告；

2月1日，OpenAI CEO Sam Altman在發(fā)布o3 mini推理模型的同時，公開承認OpenAI過去“站在了歷史的錯誤一邊，需要找出一個不同的開源策略”；

2月14日，百度宣布將在未來幾個月中陸續(xù)推出文心大模型4.5系列，并于6月30日起正式開源。

2月18日，又有一家國產(chǎn)大模型公司宣布戰(zhàn)略級開源計劃。

“大模型六小虎”之一的階躍星辰聯(lián)合吉利汽車集團開源了兩款多模態(tài)模型：截至目前全球范圍內(nèi)參數(shù)量最大、性能最好的視頻生成開源模型Step-Video-T2V，以及行業(yè)內(nèi)首款產(chǎn)品級開源語音交互大模型Step-Audio。目前，兩款開源模型均可以在「躍問App」上免費不限次體驗。

如果說DeepSeek為開源社區(qū)樹立了文本大模型的新標桿，那么階躍星辰正在開源社區(qū)樹立新的多模態(tài)大模型標桿，形成大模型開源世界的又一股中國力量。

1.最好的開源視頻生成模型

階躍星辰此前發(fā)布的模型都是閉源模型。雖然性能很強大，但模型具體是如何訓練的，外界無從得知。這一次，階躍星辰首次開源了兩款Step系列多模態(tài)模型Step-Video-T2V以及Step-Audio。

根據(jù)階躍星辰公布的技術(shù)報告，Step-Video-T2V具有300億參數(shù)，能夠生成長達204幀的視頻，支持中英文雙語提示。該模型采用了深度壓縮變分自編碼器（Video-VAE）、擴散Transformer（DiT）和視頻直接偏好優(yōu)化（Video-DPO）等技術(shù)，以提高生成視頻的質(zhì)量。

階躍星辰在技術(shù)報告中定義了構(gòu)建視頻基礎(chǔ)模型的兩個層次。

Level-1為翻譯型視頻基礎(chǔ)模型，是一個跨模態(tài)翻譯系統(tǒng)，能夠從文本、視覺或多模態(tài)上下文中生成視頻。當前基于擴散模型的文本到視頻模型，比如Sora、Veo、Kling、Hailuo和階躍星辰的Step-Video，目前都屬于Level-1。

Level-2為預測型視頻基礎(chǔ)模型，能夠像大語言模型那樣根據(jù)根據(jù)文本、視覺或多模態(tài)上下文預測未來事件，并處理更高級的任務(wù)，例如多模態(tài)數(shù)據(jù)推理或模擬現(xiàn)實場景。

階躍星辰認為Step-Video-T2V是Level-1階段，截至目前全球范圍內(nèi)參數(shù)量最大、性能最好的開源視頻生成模型，并將繼續(xù)探索Level-2。

在benchmark表現(xiàn)上，階躍星辰專門構(gòu)建了一個用于評估文本到視頻模型質(zhì)量的新基準測試。該基準包含128個來自真實用戶的中文提示，旨在評估生成視頻在11個類別中的質(zhì)量，包括體育、美食、風景、動物、節(jié)日、組合概念、超現(xiàn)實、人物、3D動畫、電影攝影和風格；同時階躍星辰還提出了兩種人工評估指標。

基于該基準，Step-Video-T2V要整體優(yōu)于騰訊的開源模型HunyuanVideo。

Step-Video-T2V是一個“真開源”模型，采用了最為開放寬松的MIT開源協(xié)議，用戶可任意編輯和商業(yè)應用，做到了毫不隱藏、完全開源，具有最大的誠意。

作為對比，Llama3.1 的開源協(xié)議雖允許商用，但要求顯著提示“Built with Llama”，并且對于月活用戶超過7億的情況，需要向Meta申請額外許可。Qwen2.5主要采用了Apache 2.0協(xié)議（3B與72B除外），會比MIT開源協(xié)議的限制更多一點。

階躍星辰開源的另一款模型Step-Audio，是業(yè)內(nèi)首款「產(chǎn)品級」開源語音交互模型，全力降低產(chǎn)業(yè)接入門檻。不同于市面上的開源方案需要經(jīng)過在部署和再開發(fā)等工作量，Step-Audio 是一整套實時對話方案，只要簡單部署上就能直接實時對話，可以端到端體驗。

目前，這兩款開源模型已經(jīng)可以在「躍問App」體驗。其中，視頻生成免費，不限次數(shù)，可直接使用。以下是部分生成案例：

提示詞：鏡頭跟在一輛白色老式 SUV 后面，車頂架是黑色的，它在陡峭的山坡上加速行駛。

提示詞：一位身穿淺色紗質(zhì)服飾的女子，頭戴精致的頭飾，面帶微笑。鏡頭以特寫展現(xiàn)她姣好的面容和溫婉的氣質(zhì)。隨后，鏡頭切換到一位男子，他戴著透明面紗，眼神凝視著前方。平視鏡頭特寫展現(xiàn)了面紗的質(zhì)感和男子若有所思的神情。場景再次切換，男子身穿黑色長袍，衣襟和袖口處有暗紋裝飾，神情嚴肅地站在一個類似庭院的環(huán)境中。中景鏡頭展現(xiàn)了人物的全身以及周圍環(huán)境，營造出一種神秘的氛圍。

提示詞：一個精靈，在森林中起舞，身旁是螢火蟲環(huán)繞，月光透過樹葉，慢速展現(xiàn)精靈的輕盈，畫面夢幻唯美。

2.開源會泄露核心技術(shù)嗎？

階躍星辰一口氣把自己最核心的多模態(tài)技術(shù)給開源了。

對于開源的態(tài)度，業(yè)內(nèi)眾說紛紜。一個最直接、最常見的疑問就是，開源會泄露核心機密嗎？開源行為真的是為愛發(fā)電嗎？

首先，開源模型與閉源模型之間并非完全的對立關(guān)系。除了Meta、DeepSeek這些完全采用開源戰(zhàn)略的公司之外，大部分AI公司選擇了開源與閉源并行的戰(zhàn)略，比如谷歌。

“開源模型”本身的定義也有諸多爭議。在一些開源的原教旨主義者眼里，大模型的開源并非像開源軟件那樣直接把底層代碼開源，其實是一種“偽開源”。

實際上，開源模型開源的是“權(quán)重”，權(quán)重就是大模型經(jīng)過復雜的訓練后得到的模型參數(shù)，開源模型允許用戶自由下載和使用這些權(quán)重，但是無法修改與復現(xiàn)。因此，開源實際上并沒有透露AI模型背后的核心競爭力。

開源的意義更多在于生態(tài)效應。現(xiàn)在所有的AI研究追根溯源都得益于開源社區(qū)，比如當前幾乎所有大模型的基本架構(gòu)都來自于谷歌在2017年發(fā)布并開源Transformer論文。開源者站在開源社區(qū)的研究成果上繼續(xù)研究，并提出新的想法來回饋開源社區(qū)。

從技術(shù)角度來看，開源其實是一種秀肌肉的行為。只有開源模型性能真的有足夠的競爭力，才能吸引到用戶與開發(fā)者使用，這樣的開源才有意義，否則只會變成技術(shù)自嗨。

從商業(yè)角度來看，開源的主要目的是吸引用戶、開發(fā)者、潛在的合作伙伴以及吸引人才，DeepSeek就是一個活生生的案例。當一個開源模型積累足夠的用戶，就有可能圍繞開源社區(qū)進一步構(gòu)建成為AI時代的操作系統(tǒng)。

基于這樣的背景，階躍星辰選擇在今天開源，正是一種技術(shù)自信的體現(xiàn)。

3.多模態(tài)卷王的技術(shù)實力

不同大模型公司往往有一個獨特的標簽，比如長文本、虛擬角色等，而階躍星辰最大的特色無疑是一直在領(lǐng)跑行業(yè)的“多模態(tài)”能力。

階躍星辰也是多模態(tài)領(lǐng)域布局最全的大模型公司之一，旗下模型涵蓋語音識別、語音復刻及生成模型、視頻理解模型、圖像生成模型、視頻生成模型、多模態(tài)理解等各種類別。而且階躍星辰保持了很快的研發(fā)節(jié)奏，自公司成立以來已經(jīng)先后發(fā)布11款多模態(tài)大模型。

在模型性能上，Step系列多模態(tài)模型曾多次在國內(nèi)外權(quán)威大模型評測榜單上位列「中國大模型第一」。

比如，1月20日，LMSYS Org發(fā)布了大模型競技場Chatbot Arena最新榜單，Step-1o Vison在其中位列視覺領(lǐng)域中國大模型第一，超過所有國內(nèi)大模型公司；在最新發(fā)布的國內(nèi)權(quán)威的大型模型評估平臺“司南”（OpenCompass）多模態(tài)模型評測實時榜單中，Step-1o Vison也實現(xiàn)了霸榜。

在AI自媒體賽博禪心發(fā)布的“大模型視力表”測評中，階躍星辰多模態(tài)理解能力明顯超越國際頂尖模型ChatGPT和Claude，在視覺識別能力和準確度上十分突出。

越來越多的企業(yè)與AI應用開發(fā)者正在基于階躍星辰多模態(tài)大模型構(gòu)建產(chǎn)品。數(shù)據(jù)顯示，2024年下半年階躍星辰多模態(tài)API的調(diào)用量增長了超45倍。

頭部茶飲品牌茶百道與階躍星辰已達成深度合作，目前全國數(shù)千家茶百道門店已經(jīng)接入階躍星辰Step-1V多模態(tài)理解大模型，平均每天上百萬杯茶飲在大模型智能巡檢的守護下送到消費者手中。

網(wǎng)紅AI應用「胃之書」基于階躍星辰多模態(tài)能力，幫助用戶以更快捷有趣的方式記錄飲食，開發(fā)者趙純想公開表示曾對國內(nèi)大部分模型做過AB測試，最終發(fā)現(xiàn)階躍星辰付費率最高。

AI心理療愈應用「林間聊愈室」通過階躍星辰多模態(tài)能力讓用戶和聊愈產(chǎn)品實現(xiàn)多模態(tài)視覺互動，極大地豐富了交流體驗和深度。創(chuàng)始人李神龍稱，接入階躍星辰大模型后，產(chǎn)品整體付費率有所提升。

將這些業(yè)內(nèi)頂級的多模態(tài)能力開源之后，階躍星辰有望構(gòu)建一個更加開放的多模態(tài)生態(tài)。

4.與DeepSeek并肩成為兩大中國新銳開源力量

兩款多模態(tài)大模型一開源迅速點燃了外網(wǎng)，Hugging Face工程師、前谷歌TensorFlow團隊成員TieZhen Wang發(fā)推文評價稱，“階躍星辰就是下一個Deepseek”。

國外網(wǎng)友也紛紛點贊中國大模型公司為開源社區(qū)做出的貢獻。

雖然核心大模型聚焦的領(lǐng)域有所差異，但兩家公司同為大模型創(chuàng)業(yè)公司，倒是有一些共性。

比如，兩家公司都非常年輕，且都有極致且鮮明的技術(shù)理想主義。DeepSeek雖然是從量化基金孵化，但要做的事情是探索通用人工智能，是一種好奇心驅(qū)動的研究。而階躍星辰成立至今，也一直以實現(xiàn)AGI為目標堅持自研基座大模型，已經(jīng)覆蓋了從千億參數(shù)到萬億參數(shù)，從語言、多模態(tài)到推理，從理解到生成的全面能力，是國內(nèi)基座模型覆蓋面最廣的大模型公司之一。

兩家公司在研究成果上也有不菲的成績，都多次在國內(nèi)外權(quán)威榜單上霸榜不同領(lǐng)域的中國第一。

不久前，全球影響力最大的科技商業(yè)化智庫《麻省理工科技評論》（MIT Technology Review）刊發(fā)了一篇題為《關(guān)注DeepSeek之外的四家中國人工智能初創(chuàng)公司》的報道，在其中指出階躍星辰展現(xiàn)出不遜于DeepSeek的技術(shù)實力與全球競爭力。

在開源領(lǐng)域，過去海外公司有更加深遠的影響力。而如今，隨著DeepSeek、階躍星辰等中國大模型公司的先后開源，中國AI公司開始在全球AI開源舞臺發(fā)揮越來越重要的作用。

在接下來的AI時代，中國AI公司有望領(lǐng)跑全球科技，為開源社區(qū)貢獻中國力量。

*點擊文末原文鏈接查看Step-Video-T2V技術(shù)報告

（封面圖來自階躍星辰）

END.

原標題：《為什么“多模態(tài)卷王”階躍星辰積極擁抱開源？｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#階躍星辰 #多模態(tài)#開源