- +1
40年風(fēng)云與浮沉,計(jì)算機(jī)視覺打開智能新世界
文/陳根
作為智能世界的雙眼,計(jì)算機(jī)視覺是人工智能技術(shù)里的一大分支。計(jì)算機(jī)視覺通過模擬人類視覺系統(tǒng),賦予計(jì)算機(jī)“看”和“認(rèn)知”的能力,是計(jì)算機(jī)認(rèn)識世界的基礎(chǔ)。
確切地說,計(jì)算機(jī)視覺技術(shù)就是利用了攝像機(jī)以及電腦替代人眼使得計(jì)算機(jī)擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別決策等功能,是創(chuàng)建了能夠在 2D的平面圖像或者 3D的三維立體圖像的數(shù)據(jù)中,以獲取所需要的“信息”的一個(gè)完整的人工智能系統(tǒng)。
計(jì)算機(jī)視覺利用成像系統(tǒng)代替視覺器官作為輸入手段,利用視覺控制系統(tǒng)代替大腦皮層和大腦的剩余部分完成對視覺圖像的處理和解釋,讓計(jì)算機(jī)自動(dòng)完成對外部世界的視覺信息的探測,做出相應(yīng)判斷并采取行動(dòng),實(shí)現(xiàn)更復(fù)雜的指揮決策和自主行動(dòng)。

作為人工智能最前沿的領(lǐng)域之一,視覺類技術(shù)是人工智能企業(yè)的布局重點(diǎn),具有最大的技術(shù)分布。計(jì)算機(jī)視覺40多年的發(fā)展中,人們提出了大量的理論和方法。總體來看,可分為三個(gè)主要?dú)v程。即馬爾計(jì)算視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。
1982 年,馬爾(David Marr)在其《Vision》一書中提出的視覺計(jì)算理論和方法,標(biāo)志著計(jì)算機(jī)視覺成為了一門獨(dú)立的學(xué)科。
馬爾計(jì)算視覺理論包含二個(gè)主要觀點(diǎn):首先,馬爾認(rèn)為人類視覺的主要功能是復(fù)原三維場景的可見幾何表面,即三維重建問題;其次,馬爾認(rèn)為這種從二維圖像到三維幾何結(jié)構(gòu)的復(fù)原過程是可以通過計(jì)算完成的,并提出了一套完整的計(jì)算理論和方法。因此,馬爾視覺計(jì)算理論在一些文獻(xiàn)中也被稱為三維重建理論。
馬爾計(jì)算視覺認(rèn)為,從二維圖像復(fù)原物體的三維結(jié)構(gòu),涉及三個(gè)不同的層次。首先是計(jì)算理論層次,也就是說,需要使用何種類型的約束來完成這一過程。馬爾認(rèn)為合理的約束是場景固有的性質(zhì)在成像過程中對圖像形成的約束。其次是表達(dá)和算法層次,也就是說如何來具體計(jì)算。最后是實(shí)現(xiàn)層次,馬爾對表達(dá)和算法層次進(jìn)行了詳細(xì)討論。
馬爾認(rèn)為,從二維圖像恢復(fù)三維物體,經(jīng)歷了三個(gè)主要步驟,即圖像初始略圖(sketch)物體到2.5維描述,再到物體3維描述。其中,初始略圖是指高斯拉普拉斯濾波圖像中的過零點(diǎn)(zero-crossing)、短線段、端點(diǎn)等基元特征。
物體2.5維描述是指在觀測者坐標(biāo)系下對物體形狀的一些粗略描述,如物體的法向量等。物體3維描述是指在物體自身坐標(biāo)系下對物體的描述,如球體以球心為坐標(biāo)原點(diǎn)的表述。
馬爾計(jì)算視覺理論在計(jì)算機(jī)視覺領(lǐng)域的影響是深遠(yuǎn)的,他所提出的層次化三維重建框架,至今是計(jì)算機(jī)視覺中的主流方法。
80 年代開始,計(jì)算機(jī)視覺掀起了全球性的研究熱潮,方法理論迭代更新,主要得益于二方面的因素:一方面,瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高,特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域,如遠(yuǎn)程視頻會(huì)議(teleconference)、考古、虛擬現(xiàn)實(shí)、視頻監(jiān)控等。
另一方面,人們發(fā)現(xiàn),多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。在這一階段,OCR和智能攝像頭等問世,并進(jìn)一步引發(fā)了計(jì)算機(jī)視覺相關(guān)技術(shù)更為廣泛的傳播與應(yīng)用。
80年代中期,計(jì)算機(jī)視覺已經(jīng)獲得了迅速發(fā)展,主動(dòng)視覺理論框架、基于感知特征群的物體識別理論框架等新概念、新方法、新理論不斷涌現(xiàn)。
90年代,計(jì)算機(jī)視覺開始在工業(yè)環(huán)境中得到廣泛的應(yīng)用,同時(shí)基于多視幾何的視覺理論也得到迅速發(fā)展。90 年代初,視覺公司成立,并開發(fā)出第一代圖像處理產(chǎn)品。而后,計(jì)算機(jī)視覺相關(guān)技術(shù)就被不斷地投入到生產(chǎn)制造過程中,使得計(jì)算機(jī)視覺領(lǐng)域迅速擴(kuò)張,上百家企業(yè)開始大量銷售計(jì)算機(jī)視覺系統(tǒng),完整的計(jì)算機(jī)視覺產(chǎn)業(yè)逐漸形成。在這一階段,傳感器及控制結(jié)構(gòu)等的迅速發(fā)展,進(jìn)一步加速了計(jì)算機(jī)視覺行業(yè)的進(jìn)步,并使得行業(yè)的生產(chǎn)成本逐步降低。
進(jìn)入21世紀(jì),計(jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)的相互影響日益加深,基于圖像的繪制成為研究熱點(diǎn)。高效求解復(fù)雜全局優(yōu)化問題的算法得到發(fā)展。更高速的 3D 視覺掃描系統(tǒng)和熱影象系統(tǒng)等逐步問世,計(jì)算機(jī)視覺的軟硬件產(chǎn)品蔓延至生產(chǎn)制造的各個(gè)階段,應(yīng)用領(lǐng)域也不斷擴(kuò)大。
當(dāng)下,計(jì)算機(jī)視覺作為人工智能的底層產(chǎn)業(yè)及電子、汽車等行業(yè)的上游行業(yè),仍處于高速發(fā)展的階段,具有良好的發(fā)展前景。
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司