- +1
我們在全網(wǎng)采集了700多億字,發(fā)現(xiàn)了這些不規(guī)范字詞問題
“當(dāng)前網(wǎng)絡(luò)不規(guī)范用字現(xiàn)象不容樂觀,互動論壇、微博等互聯(lián)網(wǎng)公共社交平臺上常見錯誤、繁體字、異體字頻現(xiàn),政府、媒體網(wǎng)站及新媒體宣傳賬號發(fā)布內(nèi)容中也存在誤用和疏忽,對規(guī)范用字環(huán)境的形成造成不良影響?!?/p>
6月8日,由澎湃新聞牽頭發(fā)起,上海人工智能研究院、上海市信息安全測評認(rèn)證中心、上海新華傳媒連鎖有限公司和上海蜜度信息技術(shù)有限公司聯(lián)合共建的“數(shù)字內(nèi)容生態(tài)實驗室”發(fā)布《網(wǎng)絡(luò)不規(guī)范用字用詞現(xiàn)象研究報告》。針對上述現(xiàn)象,報告從錯誤類型、平臺渠道等角度深挖不規(guī)范字詞背后的規(guī)律,總結(jié)造成網(wǎng)絡(luò)不規(guī)范字詞現(xiàn)象的原因,建議成立由網(wǎng)絡(luò)監(jiān)管部門牽頭、多方合作的網(wǎng)絡(luò)語言生態(tài)聯(lián)合體,以技術(shù)監(jiān)管平臺建設(shè)、規(guī)范用字用詞評估、政策建議發(fā)布,形成促進互聯(lián)網(wǎng)語言規(guī)范化的合力,推動規(guī)范、積極、向上的互聯(lián)網(wǎng)語言生態(tài)建設(shè)。
現(xiàn)狀和成因分析
數(shù)字內(nèi)容生態(tài)實驗室通過人工智能、大數(shù)據(jù)等技術(shù)手段對2022年12月到2023年3月期間互動論壇、數(shù)字報、客戶端、微博、網(wǎng)站、微信、短視頻平臺七類信源內(nèi)容進行隨機抽取,形成具有4946.3萬條、706.6億字內(nèi)容的樣本,排查異體字、異形詞、繁體字和常見錯誤出現(xiàn)情況,以錯誤類型、錯誤案例進行細分統(tǒng)計,對當(dāng)前網(wǎng)絡(luò)環(huán)境中不規(guī)范字詞使用情況進行全面梳理,形成具有135.9萬次不規(guī)范字詞使用的數(shù)據(jù)庫。

TOP20不規(guī)范字詞

高頻不規(guī)范字詞統(tǒng)計
根據(jù)數(shù)據(jù)庫信息,常見錯誤是互聯(lián)網(wǎng)上主要出現(xiàn)的不規(guī)范用字(詞)形式,在TOP20高頻不規(guī)范詞中占9項。常見錯誤中帳(賬)號、蓮(連)花清瘟等屬于誤用形近別字,顫(戰(zhàn))栗、架式(勢)等屬于誤用讀音相近的字。另外,互聯(lián)網(wǎng)上還存在通過為表達其他含意,故意使用不規(guī)范字的情況,如“米(美)國”。異形詞、繁體字各有5項出現(xiàn)。異形詞因音、義均相同,曾經(jīng)都被廣泛使用,公眾依然延續(xù)舊有的使用習(xí)慣,具有易錯性。TOP20中繁體字中岀(出)、沒(沒)等與正確用字的字形非常相近,在快速輸入或手機等小屏幕輸入場景中易混淆;妳(你)、愛(愛)等被部分網(wǎng)友故意用于表達個性,因此出現(xiàn)頻率較高。
報告從多角度分析不規(guī)范使用行為背后的原因,指出互聯(lián)網(wǎng)時代的人機交互方式、創(chuàng)作者能力參差不齊、網(wǎng)絡(luò)個性化表達、專業(yè)內(nèi)容平臺示范作用待進一步發(fā)揮等因素都是導(dǎo)致互聯(lián)網(wǎng)漢字不規(guī)范使用的原因。
建議規(guī)范使用引導(dǎo)措施
針對上述網(wǎng)絡(luò)不規(guī)范字詞現(xiàn)象,數(shù)字內(nèi)容生態(tài)實驗室向政府、媒體、內(nèi)容平臺、公眾等多元主體提出互聯(lián)網(wǎng)漢字規(guī)范使用建議互聯(lián)網(wǎng)漢字規(guī)范使用引導(dǎo)措施:
1、重視技術(shù)作用,推廣用字用詞規(guī)范。結(jié)合人工智能語言模型等前沿技術(shù)優(yōu)化輸入法功能,實現(xiàn)結(jié)合上下文語境推薦選詞,提高選詞準(zhǔn)確性。在內(nèi)容發(fā)布平臺引入智能不規(guī)范字詞監(jiān)測工具,優(yōu)化文本內(nèi)容檢查功能,如微信公眾平臺的疑似錯別字自動檢測,以及澎湃清穹內(nèi)容風(fēng)控智能平臺、鈾媒等專業(yè)的內(nèi)容校對及管理工具,協(xié)助內(nèi)容發(fā)布者正確規(guī)范用字用詞。
上海蜜度智能校對事業(yè)部總經(jīng)理張曉娟表示,目前,國內(nèi)智能校對系統(tǒng)能夠針對漢語特點,將字義、字形和字音三類信息以多模態(tài)方式編碼進大規(guī)模深度神經(jīng)網(wǎng)絡(luò)中,捕捉句子的細粒度語義信息和長程語義依賴關(guān)系,實現(xiàn)文字差錯的自動識別,同時具備主動演進策略,能夠持續(xù)學(xué)習(xí)新的語言現(xiàn)象以改進校對效果,為語言文字規(guī)范性的監(jiān)督管理工作提供了有力支撐。
2. 發(fā)揮政府、媒體正向影響力,做好主流引導(dǎo)示范。用好網(wǎng)絡(luò)傳播渠道,以身作則保障發(fā)布內(nèi)容中字詞使用的規(guī)范性;強化內(nèi)容管理與監(jiān)督;引導(dǎo)公眾在積極參與中樹立正確規(guī)范的用字用詞意識。
3. 內(nèi)容平臺發(fā)起倡議,形成規(guī)范用字氛圍。開展專項行動提高公眾對于不規(guī)范字詞現(xiàn)象的認(rèn)識,重視內(nèi)容監(jiān)管,打擊不規(guī)范字詞表象下違反公序良俗的行為,營造清朗的網(wǎng)絡(luò)空間。
4. 開展專項監(jiān)測,支撐語言規(guī)范推廣。在人工智能技術(shù)參與下,對互聯(lián)網(wǎng)內(nèi)容進行大范圍采集,分析常見不規(guī)范用法呈現(xiàn)的規(guī)律及背后的原因。組建負責(zé)互聯(lián)網(wǎng)內(nèi)容監(jiān)管的技術(shù)平臺,發(fā)揮技術(shù)在語言文字規(guī)范治理中的作用,形成規(guī)范語言文字使用的合力。
此外,針對互聯(lián)網(wǎng)不規(guī)范字詞使用現(xiàn)狀,報告結(jié)合互聯(lián)網(wǎng)平臺信息傳播特征,建議由互聯(lián)網(wǎng)信息監(jiān)管部門牽頭,聯(lián)合主流媒體、內(nèi)容平臺、專業(yè)技術(shù)機構(gòu),成立網(wǎng)絡(luò)語言生態(tài)聯(lián)合體。開發(fā)互聯(lián)網(wǎng)內(nèi)容規(guī)范監(jiān)管技術(shù)平臺,對互聯(lián)網(wǎng)內(nèi)容進行持續(xù)采集監(jiān)測;研究確立科學(xué)的監(jiān)測指標(biāo)體系,進行數(shù)據(jù)挖掘、階段性對比分析;定期發(fā)布監(jiān)測研究成果,總結(jié)不規(guī)范字詞成因及公眾在互聯(lián)網(wǎng)平臺的語言習(xí)慣,聚焦糾錯堵點,尋找有力抓手,提出具有針對性、可行性的規(guī)范用字對策建議。
中國傳媒大學(xué)國家語言資源監(jiān)測與研究有聲媒體中心教授鄒煜表示,《網(wǎng)絡(luò)不規(guī)范用字用詞現(xiàn)象研究報告》的數(shù)據(jù)有代表性,據(jù)此發(fā)現(xiàn)的網(wǎng)絡(luò)不規(guī)范用字現(xiàn)狀及其特征有很強的代表性,對成因的分析也很到位,規(guī)范引導(dǎo)措施有較強的針對性和可操作性。






- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




