隨著人臉識(shí)別、語(yǔ)音識(shí)別和自動(dòng)駕駛?cè)找娉蔀殛P(guān)注焦點(diǎn),人工智能(AI)與社會(huì)、人類生活融合程度正在快速演進(jìn)。
其實(shí)早在1956年,人工智能這個(gè)“術(shù)語(yǔ)”就被正式提出。但在有限且昂貴的計(jì)算能力、已有計(jì)算方法存在缺陷、缺乏數(shù)據(jù)量這些無(wú)法克服的基礎(chǔ)性障礙面前,“模擬人類大腦”顯得非常遙遠(yuǎn)。此后,一直到20世紀(jì)80年代初,隨著一類名為“專家系統(tǒng)”的AI程序開(kāi)始為全世界的公司所采用,人工智能才興起了第二次熱潮。各國(guó)開(kāi)始投入大量資金,例如日本經(jīng)濟(jì)產(chǎn)業(yè)省雄心勃勃旨在打造“第五代計(jì)算機(jī)”的研究計(jì)劃,目標(biāo)是制造出能夠與人對(duì)話、翻譯語(yǔ)言、解釋圖像,并且能像人一樣推理的機(jī)器。80年代后期,產(chǎn)業(yè)界對(duì)人工智能系統(tǒng)投入巨大但只產(chǎn)生有限的應(yīng)用產(chǎn)生質(zhì)疑,人工智能的泡沫逐漸破裂,投入大幅消減,人工智能再一次步入寒冬。
那么,人工智能到底將靠什么走向大眾?筆者認(rèn)為,視覺(jué)AI技術(shù)將是發(fā)展方向。
對(duì)人類而言,70%到80%的信息獲取來(lái)自視覺(jué)。對(duì)人工智能來(lái)說(shuō),視覺(jué)AI也被視為目前最具應(yīng)用價(jià)值的AI技術(shù)。它能夠讓機(jī)器具備“從識(shí)人知物到辨識(shí)萬(wàn)物”的能力,從而看懂、理解這個(gè)世界,幫助我們?cè)谏a(chǎn)和工作中,提升處理信息的效率。
簡(jiǎn)單來(lái)說(shuō),視覺(jué)AI就是研究如何讓機(jī)器會(huì)“看”,即用攝影機(jī)和電腦代替人眼對(duì)圖像進(jìn)行特征提取和分析,并由此訓(xùn)練模型對(duì)新的圖像數(shù)據(jù)進(jìn)行檢測(cè)、識(shí)別等任務(wù),建立能夠從圖像或者多模態(tài)數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。
源于深度學(xué)習(xí)的突破,視覺(jué)AI的識(shí)別能力突飛猛進(jìn),2012年的兩個(gè)轟動(dòng)事件,更被視為視覺(jué)AI的發(fā)展拐點(diǎn)。當(dāng)時(shí),由多倫多大學(xué)Geoffrey Hinton領(lǐng)導(dǎo)的團(tuán)隊(duì),在一項(xiàng)名為ImageNet的圖像識(shí)別競(jìng)賽中,利用深度學(xué)習(xí)和GPU的強(qiáng)大計(jì)算能力,將錯(cuò)誤率降低了10%,震驚學(xué)術(shù)界,因?yàn)橹斑@項(xiàng)錯(cuò)誤率每年只會(huì)降低1%—2%。
同年,“谷歌大腦之父”吳恩達(dá)帶領(lǐng)團(tuán)隊(duì),利用10億參數(shù)的神經(jīng)網(wǎng)絡(luò),在沒(méi)有任何先驗(yàn)知識(shí)的情況下,僅僅通過(guò)觀看無(wú)標(biāo)注的YouTube的視頻,創(chuàng)造了一套貓臉識(shí)別系統(tǒng)——從海量照片里自動(dòng)識(shí)別出貓臉。
視覺(jué)AI迅速成為人工智能領(lǐng)域最重量級(jí)的研究領(lǐng)域,源自于其在安防、醫(yī)療、無(wú)人駕駛等多個(gè)領(lǐng)域的應(yīng)用前景。
例如,在安防領(lǐng)域,視覺(jué)AI技術(shù)可進(jìn)行人群分析、逃犯追捕,可通過(guò)城市中成千上萬(wàn)條路的攝像頭對(duì)目標(biāo)人群進(jìn)行鎖定與篩查,并做到實(shí)時(shí)告警,助力安防效率的提升;在手機(jī)領(lǐng)域,AI可提供刷臉解鎖、刷臉支付等更加安全和便捷的體驗(yàn),還可自動(dòng)為面部美顏省去后期修圖的時(shí)間;在自動(dòng)駕駛領(lǐng)域,AI技術(shù)可以通過(guò)攝像頭獲取的圖像,對(duì)車體的周圍環(huán)境進(jìn)行識(shí)別和分析,輔助做出精準(zhǔn)的路徑規(guī)劃。
在眾多的視覺(jué)AI應(yīng)用場(chǎng)景中,AI醫(yī)學(xué)圖像分析是近年來(lái)熱度極高的一個(gè)細(xì)分領(lǐng)域。這主要得益于醫(yī)院信息數(shù)字化建設(shè)的不斷提速,以醫(yī)學(xué)影像為核心的大數(shù)據(jù)不斷豐富,為AI在醫(yī)療領(lǐng)域的發(fā)展提供了充足的養(yǎng)料。與此同時(shí),優(yōu)質(zhì)醫(yī)療資源的稀缺和分配不均也不斷催生著社會(huì)對(duì)人工智能的需求。
當(dāng)下AI+醫(yī)療的紅火,對(duì)推動(dòng)這個(gè)行業(yè)的發(fā)展起到了不可磨滅的作用,還有豐富的應(yīng)用場(chǎng)景和海量的機(jī)會(huì)等待挖掘,例如個(gè)性化醫(yī)療、可穿戴智能醫(yī)療設(shè)備的實(shí)時(shí)監(jiān)測(cè)與分析等。
放眼未來(lái),更多的應(yīng)用前景都將貼上視覺(jué)AI的標(biāo)簽。比如,人臉識(shí)別技術(shù)有望在更多的物聯(lián)網(wǎng)終端設(shè)備上應(yīng)用,讓安全便捷的身份認(rèn)證無(wú)處不在,提升生活體驗(yàn);在AI+工業(yè)領(lǐng)域,工業(yè)機(jī)器人、物流機(jī)器人將更多替代傳統(tǒng)勞動(dòng)力;在AI+文化領(lǐng)域,基于AI的增強(qiáng)現(xiàn)實(shí)技術(shù),可以將古代文物、古代場(chǎng)景生動(dòng)復(fù)原得以假亂真;在AI+教育領(lǐng)域,利用視覺(jué)技術(shù)實(shí)現(xiàn)學(xué)生的注意力管理、跟蹤學(xué)生的知識(shí)點(diǎn)掌握,實(shí)現(xiàn)真正的因材施教。
當(dāng)然,AI掀起的新一輪產(chǎn)業(yè)浪潮不過(guò)短短幾年,技術(shù)上需要持續(xù)不斷的突破創(chuàng)新,行業(yè)需要不斷的深耕和挖掘,大眾也需要對(duì)其給予足夠的耐心。