促銷、賭場、貸款短信不斷，如何借助機(jī)器學(xué)習(xí)對垃圾信息說不

于紫月/科技日報(bào)

2018-08-13 09:41

七夕將至，你是否收到過電商店鋪推送的打折促銷短信？平時是否經(jīng)常收到理財(cái)、貸款、購房等信息？如果你是蘋果用戶，那你是否有過半夜收到iMessage推送賭場、假貨、股票以及色情信息的經(jīng)歷？

商家給安卓用戶推送廣告信息需要通過移動、聯(lián)通等運(yùn)營商，運(yùn)營商會攔截掉一些非法信息，而針對蘋果用戶，商家甚至不法分子則可利用iMessage渠道通過互聯(lián)網(wǎng)直接向用戶推送垃圾信息，目前蘋果公司尚未采取有效的篩選、攔截等手段。

近日，蘋果官方終于發(fā)聲，表示正在探索更先進(jìn)的機(jī)器學(xué)習(xí)模型識別，過濾垃圾信息。機(jī)器學(xué)習(xí)模型如何過濾垃圾信息？又面臨哪些技術(shù)難點(diǎn)呢？科技日報(bào)記者采訪了相關(guān)專家。

作為人工智能的核心技術(shù)，機(jī)器學(xué)習(xí)是計(jì)算機(jī)模擬人類思考方式的一種學(xué)習(xí)行為，它讓計(jì)算機(jī)變得“聰明伶俐”?！盎跈C(jī)器學(xué)習(xí)的垃圾信息過濾技術(shù)實(shí)際上是一個二元分類過程，機(jī)器學(xué)習(xí)模型需回答‘是’或‘不是’，以便將垃圾文本從大量信息中分離出來?！北本┱Z言大學(xué)大數(shù)據(jù)與語言教育研究所所長荀恩東教授在接受科技日報(bào)記者采訪時說，“首先應(yīng)準(zhǔn)備人工標(biāo)注的數(shù)據(jù)，進(jìn)而構(gòu)建機(jī)器學(xué)習(xí)參數(shù)化模型，最后對其訓(xùn)練、測試，直至模型應(yīng)用，解決實(shí)際問題?！?/p>

“目前市場上識別垃圾郵件、短信的機(jī)器學(xué)習(xí)模型絕大部分采用的是針對文本顯式特征的分析和提取。”荀恩東解釋，所謂“顯式”特征，是指垃圾信息的關(guān)鍵詞、表達(dá)形式、特殊符號、異體字、敏感詞語表達(dá)方式等“外在”特征。將這些多元、離散的特征元素匯總，便可構(gòu)成顯式特征列表，進(jìn)而構(gòu)建模型對垃圾信息進(jìn)行甄別。

“這種分類方式效率較高、成本較低、所依賴數(shù)據(jù)較少，但也存在適應(yīng)性差，識別精度不高等不足之處。”荀恩東指出，如果垃圾信息發(fā)送方掌握了用戶攔截系統(tǒng)的顯式特征列表，便可對垃圾信息的敏感詞匯作出相應(yīng)調(diào)整，變換表達(dá)形式，從而有效規(guī)避攔截系統(tǒng)。因此分類器需要實(shí)時動態(tài)更新顯式特征列表，即便如此，該列表元素?cái)?shù)量也十分有限，導(dǎo)致分類器過濾效果不佳，精確度不高。

基于顯式特征的分類方式“先天不足”，蘋果公司有可能將目光投向隱式特征分類，即深度學(xué)習(xí)模型。荀恩東表示，深度學(xué)習(xí)模型可對海量數(shù)據(jù)的信息進(jìn)行深度挖掘，從信息的語義和內(nèi)容上對垃圾信息進(jìn)行甄別。也就是說，同樣一條推銷短信，深度學(xué)習(xí)模型基于龐大的數(shù)據(jù)庫，可分析出它的多種表達(dá)方式，從而做出更加準(zhǔn)確的判斷，僅靠改變文字形式無法逃脫深度學(xué)習(xí)模型的“火眼金睛”。深度學(xué)習(xí)模型省去了前期建立大量顯示特征列表的工作，只需標(biāo)注垃圾、非垃圾信息即可，不僅效率提高，識別精度也得到很大提升。

基于深度學(xué)習(xí)的垃圾信息過濾技術(shù)目前也面臨諸多技術(shù)難點(diǎn)。復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院張軍平教授表示，雖然有大數(shù)據(jù)支撐，深度學(xué)習(xí)模型在很多方面還是無法像人一樣有效分析和理解信息中的內(nèi)容。例如，個別漢字的順序顛倒不一定能影響閱讀，然而深度學(xué)習(xí)模型并沒有人腦這樣“聰明”。另外，組合爆炸問題也是難點(diǎn)之一。垃圾信息涉及領(lǐng)域廣泛，形式變化多端，大數(shù)據(jù)深度學(xué)習(xí)模型可能對已有的垃圾信息有效分類，但面對新出現(xiàn)的垃圾信息可能就會“蒙圈”。

“這需要借助類似長短時記憶網(wǎng)絡(luò)或更新的一些技術(shù)，對深度學(xué)習(xí)模型進(jìn)行定期更新?！?張軍平認(rèn)為，還可以考慮自然語言處理中的一些句與句的關(guān)系，進(jìn)一步完善深度學(xué)習(xí)算法，從而改善其預(yù)測、分類能力。

（原題為《借助機(jī)器學(xué)習(xí)，對垃圾信息說“不”》）

責(zé)任編輯：張蓓

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#垃圾短信治理 #過濾垃圾信息 #機(jī)器學(xué)習(xí)模型