中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

下載客戶端

登錄

+1

Mistral Large來了，OpenAI或迎勁敵

2024-02-27 12:19

來源：澎湃新聞·澎湃號·湃客

Mistral AI昨夜放大招，正式發(fā)布Mistral Large模型，并且推出對標(biāo)ChatGPT的對話產(chǎn)品：Le Chat。

作為Mistral新推出的旗艦?zāi)Ｐ?，本次發(fā)布的Mistral Large在常識推理和知識問答上均表現(xiàn)出色，綜合評分超過Gemini Pro及Claude 2，僅次于GPT-4，榮登世界第二的寶座。

說到Mistral相信大家并不陌生。

對，就是那個二話不說上磁力鏈接的Mistral。

去年12月8日，Mistral AI在幾乎沒有任何預(yù)熱的情況下，直接在Twitter上低調(diào)發(fā)布了最新大模型的下載磁力鏈接，引爆整個AI圈。

清新脫俗的畫風(fēng)讓Jim Fan不禁高呼：Magnet link is the new arxiv。

時隔不到3個月，這次Mistral又帶給了我們怎樣的驚喜呢？

驚喜1：精通多國語言，能文能武能Coding

根據(jù)官方文檔描述，Mistral Large模型精通包括英語、法語、西班牙語、德語和意大利語在內(nèi)的多國語言，達(dá)到母語水平。

在HellaSwag、Arc-C、MMLU等benchmark上，Mistral Large的性能表現(xiàn)碾壓Llama 2 70B，后者是目前世界公認(rèn)的最強(qiáng)開源大模型。

與此同時，Mistral Large在數(shù)學(xué)和代碼上的能力也不弱，在MBPP pass@1、Math maj@4、GSM8K maj@8 and GSM8K maj@1 上均有相當(dāng)不錯的表現(xiàn)，超過了GPT-3.5。

驚喜2：價格只有GPT-4的1/7，支持32k上下文窗口

32k tokens的上下文窗口可能不太直觀，具體來說約等于2萬個英文單詞的長度。

GPT-4-32k目前的價格是這樣的：一百萬個輸入token花費60美元，一百萬個輸出token對應(yīng)120美元。

相比之下，根據(jù)Mistral Large API的報價，一百萬個輸入token定價8美元，一百萬個輸出token對應(yīng)24美元。

同等上下文窗口的條件下，Mistral Large的定價比GPT-4便宜了5-7.5倍，可謂誠意滿滿。

驚喜3：牽手Azure，微軟生態(tài)漸成

值得玩味的是，在模型發(fā)布的同時，Mistral特意提及了與微軟Azure的合作。Azure的客戶可以直接通過Azure AI Studio和Azure Machine Learning訪問Mistral的模型。

微軟作為OpenAI背后的金主，一直以來也在與其他大模型公司積極合作。

去年7月，微軟就與Meta達(dá)成合作，將Llama 2模型上架到Azure供客戶使用。

不得不佩服Nadella的戰(zhàn)略眼光和生態(tài)手腕。

MoE再下一城

Mistral一直以來是MoE路線的擁躉。去年12月初發(fā)布的Mistral 8×7B就是一個技術(shù)MoE架構(gòu)的大模型。

當(dāng)時Arthur就發(fā)出預(yù)告，將在24年推出性能對標(biāo)GPT-4的MoE模型，沒想到幸福來得這么快。

MoE的全稱是Mixture of Experts，即混合專家模型。

MoE是一種非常有特色的算法架構(gòu)，通過引入“專家+路由”的機(jī)制，在增強(qiáng)Transformer模型性能的同時，也有效降低了訓(xùn)練成本。

通過引入稀疏性（Sparsity），讓大模型在推理時，每次只激活部分參數(shù)，讓不同的“專家”網(wǎng)絡(luò)來解決不同的問題。

這樣一來，針對不同的輸入，大模型能夠按需選擇性的激活不同的“專家”網(wǎng)絡(luò)，使得大模型在算力成本不變的前提下，大幅提升參數(shù)規(guī)模。

在一項叫做GLaM的研究中，研究員訓(xùn)練了一個性能等同于GPT-3的MoE模型，只消耗了1/3的能源。在算力昂貴的今天，MoE為我們打開了一扇窗。

關(guān)于MoE架構(gòu)，此前我專門寫過一篇文章《【干貨】大模型前瞻研究：解碼MoE架構(gòu)》，做過詳細(xì)的分析和探討。

今年初，我在Nomura的分享會上，也專門講過MoE架構(gòu)，建議大家看看這篇報告，還是輸出了不少干貨的。

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

+1

收藏

#Mistral #Large #AI

查看更多

掃碼下載澎湃新聞客戶端

關(guān)于澎湃

聯(lián)系我們

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋