中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

Mistral Large來了,OpenAI或迎勁敵

2024-02-27 12:19
來源:澎湃新聞·澎湃號·湃客
字號

Mistral AI昨夜放大招,正式發(fā)布Mistral Large模型,并且推出對標(biāo)ChatGPT的對話產(chǎn)品:Le Chat。

作為Mistral新推出的旗艦?zāi)P?,本次發(fā)布的Mistral Large在常識推理和知識問答上均表現(xiàn)出色,綜合評分超過Gemini Pro及Claude 2,僅次于GPT-4,榮登世界第二的寶座。

說到Mistral相信大家并不陌生。

對,就是那個二話不說上磁力鏈接的Mistral。

去年12月8日,Mistral AI在幾乎沒有任何預(yù)熱的情況下,直接在Twitter上低調(diào)發(fā)布了最新大模型的下載磁力鏈接,引爆整個AI圈。

清新脫俗的畫風(fēng)讓Jim Fan不禁高呼:Magnet link is the new arxiv。

時隔不到3個月,這次Mistral又帶給了我們怎樣的驚喜呢?

驚喜1:精通多國語言,能文能武能Coding

根據(jù)官方文檔描述,Mistral Large模型精通包括英語、法語、西班牙語、德語和意大利語在內(nèi)的多國語言,達(dá)到母語水平。

在HellaSwag、Arc-C、MMLU等benchmark上,Mistral Large的性能表現(xiàn)碾壓Llama 2 70B,后者是目前世界公認(rèn)的最強(qiáng)開源大模型。

與此同時,Mistral Large在數(shù)學(xué)和代碼上的能力也不弱,在MBPP pass@1、Math maj@4、GSM8K maj@8 and GSM8K maj@1 上均有相當(dāng)不錯的表現(xiàn),超過了GPT-3.5。

驚喜2:價格只有GPT-4的1/7,支持32k上下文窗口

32k tokens的上下文窗口可能不太直觀,具體來說約等于2萬個英文單詞的長度。

GPT-4-32k目前的價格是這樣的:一百萬個輸入token花費60美元,一百萬個輸出token對應(yīng)120美元。

相比之下,根據(jù)Mistral Large API的報價,一百萬個輸入token定價8美元,一百萬個輸出token對應(yīng)24美元。

同等上下文窗口的條件下,Mistral Large的定價比GPT-4便宜了5-7.5倍,可謂誠意滿滿。

驚喜3:牽手Azure,微軟生態(tài)漸成

值得玩味的是,在模型發(fā)布的同時,Mistral特意提及了與微軟Azure的合作。Azure的客戶可以直接通過Azure AI Studio和Azure Machine Learning訪問Mistral的模型。

微軟作為OpenAI背后的金主,一直以來也在與其他大模型公司積極合作。

去年7月,微軟就與Meta達(dá)成合作,將Llama 2模型上架到Azure供客戶使用。

不得不佩服Nadella的戰(zhàn)略眼光和生態(tài)手腕。

MoE再下一城

Mistral一直以來是MoE路線的擁躉。去年12月初發(fā)布的Mistral 8×7B就是一個技術(shù)MoE架構(gòu)的大模型。

當(dāng)時Arthur就發(fā)出預(yù)告,將在24年推出性能對標(biāo)GPT-4的MoE模型,沒想到幸福來得這么快。

MoE的全稱是Mixture of Experts,即混合專家模型。

MoE是一種非常有特色的算法架構(gòu),通過引入“專家+路由”的機(jī)制,在增強(qiáng)Transformer模型性能的同時,也有效降低了訓(xùn)練成本。

通過引入稀疏性(Sparsity),讓大模型在推理時,每次只激活部分參數(shù),讓不同的“專家”網(wǎng)絡(luò)來解決不同的問題。

這樣一來,針對不同的輸入,大模型能夠按需選擇性的激活不同的“專家”網(wǎng)絡(luò),使得大模型在算力成本不變的前提下,大幅提升參數(shù)規(guī)模。

在一項叫做GLaM的研究中,研究員訓(xùn)練了一個性能等同于GPT-3的MoE模型,只消耗了1/3的能源。在算力昂貴的今天,MoE為我們打開了一扇窗。

關(guān)于MoE架構(gòu),此前我專門寫過一篇文章《【干貨】大模型前瞻研究:解碼MoE架構(gòu)》,做過詳細(xì)的分析和探討。

今年初,我在Nomura的分享會上,也專門講過MoE架構(gòu),建議大家看看這篇報告,還是輸出了不少干貨的。

 

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋