- +1
Mistral Large來了,OpenAI或迎勁敵
Mistral AI昨夜放大招,正式發(fā)布Mistral Large模型,并且推出對標(biāo)ChatGPT的對話產(chǎn)品:Le Chat。

作為Mistral新推出的旗艦?zāi)P?,本次發(fā)布的Mistral Large在常識推理和知識問答上均表現(xiàn)出色,綜合評分超過Gemini Pro及Claude 2,僅次于GPT-4,榮登世界第二的寶座。


說到Mistral相信大家并不陌生。
對,就是那個二話不說上磁力鏈接的Mistral。
去年12月8日,Mistral AI在幾乎沒有任何預(yù)熱的情況下,直接在Twitter上低調(diào)發(fā)布了最新大模型的下載磁力鏈接,引爆整個AI圈。
清新脫俗的畫風(fēng)讓Jim Fan不禁高呼:Magnet link is the new arxiv。


時隔不到3個月,這次Mistral又帶給了我們怎樣的驚喜呢?
驚喜1:精通多國語言,能文能武能Coding
根據(jù)官方文檔描述,Mistral Large模型精通包括英語、法語、西班牙語、德語和意大利語在內(nèi)的多國語言,達(dá)到母語水平。
在HellaSwag、Arc-C、MMLU等benchmark上,Mistral Large的性能表現(xiàn)碾壓Llama 2 70B,后者是目前世界公認(rèn)的最強(qiáng)開源大模型。

與此同時,Mistral Large在數(shù)學(xué)和代碼上的能力也不弱,在MBPP pass@1、Math maj@4、GSM8K maj@8 and GSM8K maj@1 上均有相當(dāng)不錯的表現(xiàn),超過了GPT-3.5。

驚喜2:價格只有GPT-4的1/7,支持32k上下文窗口
32k tokens的上下文窗口可能不太直觀,具體來說約等于2萬個英文單詞的長度。
GPT-4-32k目前的價格是這樣的:一百萬個輸入token花費60美元,一百萬個輸出token對應(yīng)120美元。
相比之下,根據(jù)Mistral Large API的報價,一百萬個輸入token定價8美元,一百萬個輸出token對應(yīng)24美元。
同等上下文窗口的條件下,Mistral Large的定價比GPT-4便宜了5-7.5倍,可謂誠意滿滿。
驚喜3:牽手Azure,微軟生態(tài)漸成
值得玩味的是,在模型發(fā)布的同時,Mistral特意提及了與微軟Azure的合作。Azure的客戶可以直接通過Azure AI Studio和Azure Machine Learning訪問Mistral的模型。

微軟作為OpenAI背后的金主,一直以來也在與其他大模型公司積極合作。

去年7月,微軟就與Meta達(dá)成合作,將Llama 2模型上架到Azure供客戶使用。
不得不佩服Nadella的戰(zhàn)略眼光和生態(tài)手腕。

MoE再下一城
Mistral一直以來是MoE路線的擁躉。去年12月初發(fā)布的Mistral 8×7B就是一個技術(shù)MoE架構(gòu)的大模型。
當(dāng)時Arthur就發(fā)出預(yù)告,將在24年推出性能對標(biāo)GPT-4的MoE模型,沒想到幸福來得這么快。

MoE的全稱是Mixture of Experts,即混合專家模型。
MoE是一種非常有特色的算法架構(gòu),通過引入“專家+路由”的機(jī)制,在增強(qiáng)Transformer模型性能的同時,也有效降低了訓(xùn)練成本。
通過引入稀疏性(Sparsity),讓大模型在推理時,每次只激活部分參數(shù),讓不同的“專家”網(wǎng)絡(luò)來解決不同的問題。
這樣一來,針對不同的輸入,大模型能夠按需選擇性的激活不同的“專家”網(wǎng)絡(luò),使得大模型在算力成本不變的前提下,大幅提升參數(shù)規(guī)模。

在一項叫做GLaM的研究中,研究員訓(xùn)練了一個性能等同于GPT-3的MoE模型,只消耗了1/3的能源。在算力昂貴的今天,MoE為我們打開了一扇窗。
關(guān)于MoE架構(gòu),此前我專門寫過一篇文章《【干貨】大模型前瞻研究:解碼MoE架構(gòu)》,做過詳細(xì)的分析和探討。
今年初,我在Nomura的分享會上,也專門講過MoE架構(gòu),建議大家看看這篇報告,還是輸出了不少干貨的。


本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




