- +1
首家強(qiáng)化學(xué)習(xí)大規(guī)模落地工業(yè)應(yīng)用,快手是如何做到的?
原創(chuàng) Synced 機(jī)器之心
機(jī)器之心報(bào)道
編輯:澤南
快手的日活躍用戶數(shù)量超過三億,其背后是業(yè)界領(lǐng)先的人工智能技術(shù)。
人工智能技術(shù)正被科技公司廣泛應(yīng)用在產(chǎn)品中,谷歌等公司已在搜索引擎中加入了 BERT 這樣的預(yù)訓(xùn)練模型,而強(qiáng)化學(xué)習(xí)這種需要耗費(fèi)大量算力的方法也已成為快手推薦系統(tǒng)的核心。
近日,我們與快手核心推薦算法團(tuán)隊(duì)技術(shù)負(fù)責(zé)人,卡耐基梅隆大學(xué)博士葉璨聊了聊,他向我們介紹了快手在推薦系統(tǒng)等核心業(yè)務(wù)中引入強(qiáng)化學(xué)習(xí)技術(shù)的歷程,以及大規(guī)模應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)帶來的業(yè)務(wù)收益。
葉璨博士畢業(yè)于卡內(nèi)基梅隆大學(xué)(CMU),此前曾擔(dān)任百度資深架構(gòu)師。他在 2017 年加入快手社區(qū)科學(xué)部,作為算法負(fù)責(zé)人負(fù)責(zé)推薦算法、強(qiáng)化學(xué)習(xí)、增長廣告等技術(shù)方向。期間從 0 到 1 建立核心算法團(tuán)隊(duì),主要工作之一是主導(dǎo)了強(qiáng)化學(xué)習(xí)技術(shù)在快手推薦等核心業(yè)務(wù)的落地及大規(guī)模應(yīng)用。
今天當(dāng)我們?cè)谒⒖焓值臅r(shí)候,我們會(huì)獲得什么樣的體驗(yàn)?

在快手的核心推薦算法團(tuán)隊(duì),AI 科學(xué)家和算法工程師們一直在不斷迭代推薦的核心技術(shù),打造業(yè)界最前沿的推薦算法、技術(shù)能力,希望給用戶帶來最好的內(nèi)容推薦體驗(yàn)。
強(qiáng)化學(xué)習(xí)技術(shù)這一 AI 領(lǐng)域的重要技術(shù)方向,在最近這波 AI 浪潮中,由 AlphaGo 而逐漸被人們所熟知。在推薦和廣告算法領(lǐng)域,強(qiáng)化學(xué)習(xí)也在成為重要的技術(shù)趨勢(shì)。
快手平臺(tái)上每天有數(shù)億用戶進(jìn)行短視頻內(nèi)容的消費(fèi),而這背后有業(yè)界最大規(guī)模之一的推薦系統(tǒng)提供支持。超大規(guī)模的推薦系統(tǒng)也為最前沿的 AI 技術(shù)提供了創(chuàng)新平臺(tái)??焓滞扑]團(tuán)隊(duì)在業(yè)界率先落地了基于強(qiáng)化學(xué)習(xí)技術(shù)的推薦系統(tǒng),基于強(qiáng)化學(xué)習(xí)的推薦模型已在為數(shù)億用戶提供日常的推薦服務(wù)。它可以更精準(zhǔn)、更實(shí)時(shí)地捕捉和滿足用戶的興趣,并帶來更高好的內(nèi)容多樣性。
基于強(qiáng)化學(xué)習(xí)的視頻推薦
在 AlphaGo 中出現(xiàn)的強(qiáng)化學(xué)習(xí)算法,是如何幫助你刷快手的?具體來說,用戶的每次推薦請(qǐng)求,都是由推薦系統(tǒng)從數(shù)千萬的候選視頻中挑選出數(shù)個(gè)視頻返回給用戶的。整個(gè)過程大致分為兩個(gè)階段:
召回:從千萬量級(jí)的視頻庫中篩選出數(shù)百相關(guān)的候選視頻,主要基于策略規(guī)則和簡(jiǎn)單模型。
排序:從數(shù)百候選視頻中挑選出最終展示的若干視頻(一般為數(shù)十)返回給用戶,這一階段我們需要應(yīng)用相對(duì)復(fù)雜、精準(zhǔn)的模型。排序問題可以建模成從 M 個(gè)視頻的候選集中挑選出 N 個(gè)視頻組成的有序列表。

這一方法可能面臨一個(gè)重要的問題:排序模型忽略了相鄰視頻間的影響,無法從視頻序列的角度優(yōu)化整體的推薦效果,這和信息流產(chǎn)品形態(tài)間存在天然的形態(tài)隔閡。
如果用戶喜歡某一類視頻,傳統(tǒng)方法會(huì)獨(dú)立對(duì)每個(gè)候選視頻打分,這就會(huì)傾向于將同類視頻排到前面,造成推薦內(nèi)容的同質(zhì)化,長期如此很可能會(huì)造成用戶對(duì)內(nèi)容的厭倦。對(duì)此,傳統(tǒng)方法還會(huì)加入基于規(guī)則的多樣性打散策略,但這種思路顯然不是最優(yōu)方案。
快手核心推薦團(tuán)隊(duì)創(chuàng)新地采用強(qiáng)化學(xué)習(xí)重新定義了推薦排序技術(shù):提出了基于強(qiáng)化學(xué)習(xí)的序列化排序框架,將輸出 N 個(gè)視頻序列的任務(wù)建模為連續(xù)進(jìn)行 N 次決策的過程,依次從候選集中挑選出 N 個(gè)視頻。強(qiáng)化學(xué)習(xí)排序模型端到端地完成整個(gè)推薦排序過程,從數(shù)百視頻候選集中挑選出由數(shù)十個(gè)視頻組成的有序列表,并返回展示給用戶。


在強(qiáng)化學(xué)習(xí)模型排序的過程中,每次挑選視頻的目標(biāo)都是最大化視頻序列的整體「獎(jiǎng)勵(lì)」,例如優(yōu)化視頻序列的整體觀看時(shí)長?!高@個(gè)過程和下圍棋的人工智能類似,」葉璨介紹道。「在下棋的過程中,棋手不能只考慮當(dāng)前這步棋的收益,而需要有更長遠(yuǎn)、更全局的視角去考量,有時(shí)會(huì)需要犧牲短期利益?!挂曨l內(nèi)容推薦也可以按照這樣的思路來進(jìn)行建模,從視頻序列角度優(yōu)化整體的推薦效果,同時(shí)保證推薦內(nèi)容的多樣性。
另外,強(qiáng)化學(xué)習(xí)排序算法可以保證更好的推薦精準(zhǔn)性與實(shí)時(shí)性:在用戶的每次反饋(點(diǎn)擊、點(diǎn)贊、轉(zhuǎn)發(fā)...)發(fā)生之后,系統(tǒng)都會(huì)通過強(qiáng)化學(xué)習(xí)算法完成排序模型的在線更新。
每個(gè)人都有機(jī)會(huì)與頂尖 AI 對(duì)戰(zhàn)
除了視頻推薦之外,快手的強(qiáng)化學(xué)習(xí)技術(shù)也已應(yīng)用在了旗下的多款小游戲中。如果你玩過快手平臺(tái)的斗地主、五子棋、斗獸棋、象棋等游戲,你的對(duì)手可能會(huì)是系統(tǒng)指派的人工智能。
目前,AI 陪玩可能會(huì)出現(xiàn)在新手期,或是游戲玩家數(shù)量低峰期,當(dāng)然如果你的水平足夠高,也會(huì)在最高難度上遇到「超越人類水平」的 AI,感受一下 AlphaGo 帶來的恐懼。

強(qiáng)化學(xué)習(xí)已經(jīng)重新定義了游戲 AI 的生產(chǎn)方式。在傳統(tǒng)的游戲 AI 中,不論是基于規(guī)則的方法還是監(jiān)督學(xué)習(xí)的方法都嚴(yán)重依賴于人類專家提供的經(jīng)驗(yàn)和數(shù)據(jù),最終實(shí)現(xiàn)的智能水平也相對(duì)有限,且無法實(shí)現(xiàn)動(dòng)態(tài)的 AI 難度分級(jí)。
而這一切對(duì)于強(qiáng)化學(xué)習(xí)游戲 AI 來說并不是難事。在游戲上,快手已應(yīng)用了通用游戲 AI 算法框架,其使用基于自我博弈的強(qiáng)化學(xué)習(xí)技術(shù)(self-play reinforcement learning),不僅可以在特定游戲上扮演不同難度的 AI 玩家,還可以實(shí)現(xiàn)自動(dòng)化生產(chǎn):只需要輸入游戲規(guī)則,不依賴人類經(jīng)驗(yàn)或數(shù)據(jù)而完全由 AI 自我博弈產(chǎn)生數(shù)據(jù),通過強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn) AI 能力的訓(xùn)練和進(jìn)化。

不過相比 AlphaGo,快手游戲 AI 更加面向應(yīng)用,它可以在線為成千上萬的游戲玩家提供服務(wù),不僅考慮了游戲 AI 的高水平,還兼顧了其他產(chǎn)品需求,包括 AI 智能分級(jí)(為不同水平的用戶提供相應(yīng)智能等級(jí)的 AI),擬人化等。
落地核心業(yè)務(wù),做最精準(zhǔn)的流量分發(fā)
作為目前中國最大的流量平臺(tái)之一,快手的流量生態(tài)包含了各種業(yè)務(wù)流量的混合,包括視頻推薦、直播、運(yùn)營、電商、廣告等,內(nèi)容對(duì)用戶的精準(zhǔn)觸達(dá),是快手的核心業(yè)務(wù)問題。
快手在流量分發(fā)業(yè)務(wù)中大規(guī)模地應(yīng)用了強(qiáng)化學(xué)習(xí)技術(shù),比如最大的流量入口 - 個(gè)性化 tab 分發(fā),以及各垂類產(chǎn)品在 feed 流中的精準(zhǔn)分發(fā),包括直播、游戲、音樂、社交等業(yè)務(wù)。
比如用戶每次打開快手 app,強(qiáng)化學(xué)習(xí)算法會(huì)決定你跳轉(zhuǎn)到發(fā)現(xiàn)、關(guān)注、同城中的哪個(gè) tab 頁面。強(qiáng)化學(xué)習(xí)接管的位置,是快手最大的流量分發(fā)入口,涉及主頁三大 tab 頁面的流量分配,影響 app 的使用時(shí)長、DAU(日活躍用戶數(shù)量)等關(guān)鍵指標(biāo)。算法會(huì)參考用戶的行為偏好、習(xí)慣等進(jìn)行流量分發(fā),例如用戶在特定時(shí)間段喜歡進(jìn)入某個(gè) tab 頁進(jìn)行消費(fèi)。同時(shí)算法也會(huì)根據(jù)實(shí)時(shí)的 feed 信息進(jìn)行主動(dòng)引導(dǎo),例如關(guān)注頁有喜歡主播開播,會(huì)將用戶跳轉(zhuǎn)引導(dǎo)至關(guān)注頁。
在垂類業(yè)務(wù)的流量分發(fā)中,快手已在形態(tài)上改變了傳統(tǒng)的推送方式,他們?cè)?feed 流中插入垂類聚合頁,由算法決定聚合頁的展示時(shí)機(jī),其中包括音悅臺(tái)、游戲 TV、PYMK 、直播廣場(chǎng)等垂類產(chǎn)品。
在這里,基于傳統(tǒng)的數(shù)據(jù)挖掘或策略規(guī)則無法做到實(shí)時(shí)準(zhǔn)確,只有通過強(qiáng)化學(xué)習(xí)算法才能夠?qū)崿F(xiàn)精準(zhǔn)分發(fā)?!溉绻麅?nèi)容被推送給了不合適的用戶,或者在不合適的時(shí)機(jī),展示聚合頁入口,不僅難以形成垂類業(yè)務(wù)的消費(fèi)和轉(zhuǎn)化,還會(huì)影響用戶正常的 feed 流體驗(yàn),」葉璨說道。

從零到一的探索
強(qiáng)大技術(shù)的背后,是快手核心推薦算法團(tuán)隊(duì)不懈的努力。早在 2018 年,快手就在推薦系統(tǒng)上開始嘗試強(qiáng)化學(xué)習(xí)技術(shù)?!府?dāng)時(shí)業(yè)界沒有任何成熟落地的方案可以參考,」葉璨表示?!覆糠盅芯繄F(tuán)隊(duì)已經(jīng)有一些論文,關(guān)于強(qiáng)化學(xué)習(xí)在推薦、廣告、搜索領(lǐng)域的應(yīng)用,但大多偏向于概念,距離實(shí)用化還有一段距離。而我們的目標(biāo)一直是應(yīng)用落地,我們希望能夠用強(qiáng)化學(xué)習(xí)技術(shù)解決推薦系統(tǒng)的核心問題?!?/p>
快手成為了強(qiáng)化學(xué)習(xí)推薦技術(shù)的先行者。在推薦系統(tǒng)哪個(gè)階段應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù),應(yīng)該采用哪類強(qiáng)化學(xué)習(xí)算法,強(qiáng)化學(xué)習(xí)推薦模型的在線訓(xùn)練框架應(yīng)該如何設(shè)計(jì)等等,這些問題都是從零開始探索的。
快手選擇在推薦系統(tǒng)的核心——推薦排序階段應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù),它決定了應(yīng)用最終向用戶展示哪些視頻,以及視頻的排列順序。在推薦算法領(lǐng)域,快手的 AI 科學(xué)家和算法工程師們完成了一項(xiàng)最前沿的技術(shù)突破,重新定義了推薦排序技術(shù),使推薦系統(tǒng)具備了優(yōu)化視頻序列整體收益的能力。
2018 年底,快手在新用戶推薦上完成了強(qiáng)化學(xué)習(xí)排序算法的驗(yàn)證和成功上線。2019 年,這一技術(shù)拓展應(yīng)用到了全量用戶,完成了對(duì)推薦全流量的覆蓋。
現(xiàn)在,基于強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)每天為數(shù)以億計(jì)的快手用戶提供著實(shí)時(shí)的個(gè)性化推薦服務(wù)。強(qiáng)化學(xué)習(xí)推薦技術(shù)的研發(fā)和落地,是快手推薦過去兩年最重要的技術(shù)突破。這項(xiàng)技術(shù)也帶來了更好的推薦效果和用戶體驗(yàn),推薦核心指標(biāo)(如用戶觀看時(shí)長)的提升達(dá)到 10% 以上,這也是過去兩年快手推薦單項(xiàng)技術(shù)上線帶來的最大幅度的指標(biāo)提升。
與此同時(shí),快手將目光瞄準(zhǔn)新的應(yīng)用場(chǎng)景 - 精準(zhǔn)流量分發(fā)。在業(yè)界,快手創(chuàng)新地首次采用強(qiáng)化學(xué)習(xí)技術(shù)解決流量的精準(zhǔn)分發(fā)問題,并將精準(zhǔn)流量分發(fā)技術(shù)以中臺(tái)化的形式輸出至快手多個(gè)重要業(yè)務(wù)場(chǎng)景。目前在快手,這一技術(shù)已普及成為流量分發(fā)問題的常態(tài)化解決方案。
快手的算法可以在不影響用戶正常 feed 流體驗(yàn)的同時(shí),最大程度地幫助不同的產(chǎn)品和業(yè)務(wù)在合適時(shí)機(jī)完成對(duì)合適用戶的精準(zhǔn)觸達(dá),從而形成有效的用戶轉(zhuǎn)化。在一些業(yè)務(wù)場(chǎng)景下,相對(duì)于傳統(tǒng)策略,強(qiáng)化學(xué)習(xí)算法對(duì)分發(fā)效率提升達(dá)到了 100% 以上。通過先進(jìn)的算法,快手確保了流量的精準(zhǔn)觸達(dá),幫助不同垂類業(yè)務(wù)實(shí)現(xiàn)了有效的用戶轉(zhuǎn)化、規(guī)模增長,提升了用戶粘性和業(yè)務(wù)壁壘。
強(qiáng)化學(xué)習(xí),已經(jīng)成為快手的殺手锏級(jí)技術(shù)??焓直硎?,很多國外科技巨頭也尚未做到強(qiáng)化學(xué)習(xí)技術(shù)的大規(guī)模落地和應(yīng)用。
「強(qiáng)化學(xué)習(xí)已經(jīng)成為推薦、廣告算法領(lǐng)域最重要的技術(shù)趨勢(shì),各大公司相關(guān)算法團(tuán)隊(duì)紛紛嘗試,但據(jù)我們了解,基本還處于研究和驗(yàn)證階段,」葉璨說道?!覆簧侔l(fā)表的 paper 離實(shí)際業(yè)務(wù)場(chǎng)景相差較遠(yuǎn),能經(jīng)過線上 AB 實(shí)驗(yàn)驗(yàn)證的工作很少,更不用說在全流量上完成落地和覆蓋。」
基于強(qiáng)化學(xué)習(xí)的推薦技術(shù)已經(jīng)成為快手推薦系統(tǒng)的基礎(chǔ)設(shè)施與核心能力,從技術(shù)成熟度和應(yīng)用規(guī)模而言,快手推薦無疑是業(yè)界領(lǐng)先的。隨著互聯(lián)網(wǎng) C 端競(jìng)爭(zhēng)的不斷深入,科技公司在行為上也更加趨同,這些先進(jìn)技術(shù),已為快手帶來了額外的優(yōu)勢(shì)。
目前快手核心推薦算法團(tuán)隊(duì),多數(shù)來自于清北、CMU 等國內(nèi)外頂尖高校的博士、碩士,以及來自 BAT 等知名公司的工程師。團(tuán)隊(duì)成員曾在 NeurIPS、ICML、IJCAI、KDD 等 AI 頂會(huì)上多次發(fā)表論文。目前,團(tuán)隊(duì)的技術(shù)支撐了快手的推薦、流量分發(fā)、增長廣告、游戲等核心業(yè)務(wù)。
「我們希望從實(shí)際問題出發(fā),以解決核心業(yè)務(wù)問題作為唯一衡量標(biāo)準(zhǔn),」葉璨表示?!窤I 算法是解決問題的手段,不是目的,我們會(huì)根據(jù)實(shí)際面臨的業(yè)務(wù)系統(tǒng),設(shè)計(jì)合理的技術(shù)方案。我們將繼續(xù)致力于解決核心業(yè)務(wù)問題,為快手的業(yè)務(wù)增長做出貢獻(xiàn)。」
本文為機(jī)器之心報(bào)道,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。
?------------------------------------------------
加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
原標(biāo)題:《首家強(qiáng)化學(xué)習(xí)大規(guī)模落地工業(yè)應(yīng)用,快手是如何做到的?》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




