- +1
YOLOv5的妙用:學(xué)習(xí)手語(yǔ),幫助聽力障礙群體
選自Medium
作者:David Lee
機(jī)器之心編譯
編輯:魔王、杜偉
計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語(yǔ),進(jìn)而幫助聽力障礙群體嗎?數(shù)據(jù)科學(xué)家 David Lee 用一個(gè)項(xiàng)目給出了答案。
如果聽不到了,你會(huì)怎么辦?如果只能用手語(yǔ)交流呢?

對(duì)普通人而言輕輕松松的事情對(duì)于聽障群體可能是很困難的,他們甚至還會(huì)因此遭到歧視。在很多場(chǎng)景下,他們無(wú)法獲取合格的翻譯服務(wù),從而導(dǎo)致失業(yè)、社會(huì)隔絕和公共衛(wèi)生問題。
為了讓更多人聽到聽障群體的聲音,數(shù)據(jù)科學(xué)家 David Lee 嘗試?yán)脭?shù)據(jù)科學(xué)項(xiàng)目來(lái)解決這一問題:
計(jì)算機(jī)視覺可以學(xué)習(xí)美式手語(yǔ),進(jìn)而幫助聽力障礙群體嗎?
如果通過機(jī)器學(xué)習(xí)應(yīng)用可以精確地翻譯美式手語(yǔ),即使從最基礎(chǔ)的字母表開始,我們也能向著為聽力障礙群體提供更多的便利和教育資源前進(jìn)一步。
數(shù)據(jù)和項(xiàng)目介紹
出于多種原因,David Lee 決定創(chuàng)建一個(gè)原始圖像數(shù)據(jù)集。首先,基于移動(dòng)設(shè)備或攝像頭設(shè)置想要的環(huán)境,需要的分辨率一般是 720p 或 1080p?,F(xiàn)有的幾個(gè)數(shù)據(jù)集分辨率較低,而且很多不包括字母「J」和「Z」,因?yàn)檫@兩個(gè)字母需要一些動(dòng)作才能完成。

項(xiàng)目地址:https://github.com/insigh1/GA_Data_Science_Capstone
數(shù)據(jù)變形和過采樣
David Lee 為該項(xiàng)目收集了 720 張圖片,其中還有幾張是他自己的手部圖像。由于這個(gè)數(shù)據(jù)集規(guī)模較小,于是 David 使用 labelImg 軟件手動(dòng)進(jìn)行邊界框標(biāo)記,設(shè)置變換函數(shù)的概率以基于同一張圖像創(chuàng)建多個(gè)實(shí)例,每個(gè)實(shí)例上的邊界框有所不同。
下圖展示了數(shù)據(jù)增強(qiáng)示例:

建模
David 選擇使用 YOLOv5 進(jìn)行建模。將數(shù)據(jù)集中 90% 的圖像用作訓(xùn)練數(shù)據(jù),10% 的圖像用作驗(yàn)證集。使用遷移學(xué)習(xí)和 YOLOv5m 預(yù)訓(xùn)練權(quán)重訓(xùn)練 300 個(gè) epoch。


模型最終獲得了 85.27% 的 mAP@.5:.95 分?jǐn)?shù)。
圖像推斷測(cè)試
David 額外收集了他兒子的手部圖像數(shù)據(jù)作為測(cè)試集。事實(shí)上,還沒有兒童手部圖像用于訓(xùn)練該模型。理想情況下,再多幾張圖像有助于展示模型的性能,但這只是個(gè)開始。

四個(gè)沒有得到準(zhǔn)確預(yù)測(cè):
D 被預(yù)測(cè)為 F;
E 被預(yù)測(cè)為 T;
P 被預(yù)測(cè)為 Q;
R 被預(yù)測(cè)為 U。
視頻推斷測(cè)試

更多數(shù)據(jù)有助于創(chuàng)建可在多種新環(huán)境中使用的模型。
如以上視頻所示,即使字母有一部分出框了,模型仍能給出不錯(cuò)的預(yù)測(cè)結(jié)果。最令人驚訝的是,字母 J 和 Z 也得到了準(zhǔn)確識(shí)別。
其他測(cè)試
David 還執(zhí)行了其他一些測(cè)試,例如:
左手手語(yǔ)測(cè)試

兒童手語(yǔ)測(cè)試

多實(shí)例

模型局限性
David 發(fā)現(xiàn),該模型還有一些地方有待改進(jìn)。
距離

新環(huán)境

背景推斷

結(jié)論
這個(gè)項(xiàng)目表明:計(jì)算機(jī)視覺可用于幫助聽力障礙群體獲取更多便利和教育資源!
該模型在僅使用小型數(shù)據(jù)集的情況下仍能取得不錯(cuò)的性能。即使對(duì)于不同環(huán)境中的不同手部,模型也能實(shí)現(xiàn)良好的檢測(cè)結(jié)果。而且一些局限性是可以通過更多訓(xùn)練數(shù)據(jù)得到解決的。經(jīng)過調(diào)整和數(shù)據(jù)集的擴(kuò)大,該模型或許可以擴(kuò)展到美式手語(yǔ)字母表以外的場(chǎng)景。

Yolov5 GitHub 項(xiàng)目:https://github.com/ultralytics/yolov5
Yolov5 requirements:https://github.com/ultralytics/yolov5/blob/master/requirements.txt
Cudnn 安裝指南:https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html
OpenCV 安裝指南:https://www.codegrepper.com/code-examples/python/how+to+install+opencv+in+python+3.8
Roboflow 增強(qiáng)流程:https://docs.roboflow.com/image-transformations/image-augmentation
常用圖像數(shù)據(jù)增強(qiáng)技術(shù)綜述論文:https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0#Sec3
Pillow 庫(kù):https://pillow.readthedocs.io/en/latest/handbook/index.html
labelImg:https://github.com/tzutalin/labelImg
Albumentations 庫(kù):https://github.com/albumentations-team/albumentations
原文鏈接:https://daviddaeshinlee.medium.com/using-computer-vision-in-helping-the-deaf-and-hard-of-hearing-communities-with-yolov5-7d764c2eb614
原標(biāo)題:《YOLOv5的妙用:學(xué)習(xí)手語(yǔ),幫助聽力障礙群體》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




