2020-11-16 09:35:14 責(zé)任編輯: 瑞智光電 0
作為人工智能的兩個(gè)分支,計(jì)算機(jī)視覺與機(jī)器視覺系統(tǒng)在近年都取得了長(zhǎng)足的進(jìn)步。前者自2010年至今,伴隨著深度學(xué)習(xí)再度流行并用于目標(biāo)識(shí)別,在人臉識(shí)別等方面類似超過了人類;而后者在工業(yè)運(yùn)用方面,也有許多突破性的運(yùn)用。
然而,在消費(fèi)級(jí)市場(chǎng)方面,計(jì)算機(jī)視覺與機(jī)器視覺系統(tǒng)的進(jìn)展并不大。許多人關(guān)于計(jì)算機(jī)視覺與機(jī)器視覺系統(tǒng)在消費(fèi)級(jí)市場(chǎng)能有多大實(shí)質(zhì)性地運(yùn)用,存在深深地?fù)?dān)憂。
計(jì)算機(jī)視覺與機(jī)器視覺系統(tǒng)
首先,我們有必要理清晰機(jī)器視覺系統(tǒng)與計(jì)算機(jī)視覺之間的關(guān)系。從學(xué)科分類上,二者都被覺得是人工智能下屬科目,只是計(jì)算機(jī)視覺偏軟件,利用算法對(duì)圖像進(jìn)行識(shí)別分析,而機(jī)器視覺系統(tǒng)軟硬件都有,主要包括(收集設(shè)備,燈源,鏡頭,控制,機(jī)構(gòu),算法等),指的是系統(tǒng),更偏實(shí)際運(yùn)用。簡(jiǎn)單的講,我們能夠覺得計(jì)算機(jī)視覺是研究“讓機(jī)器設(shè)備如何看”的科學(xué),而機(jī)器視覺系統(tǒng)是研究“看了之后如何用”的科學(xué)。
計(jì)算機(jī)視覺與機(jī)器視覺系統(tǒng)的問題是,前者太學(xué)術(shù),后者太工業(yè),因而一直至今在消費(fèi)級(jí)市場(chǎng)缺乏好的商品。機(jī)器視覺系統(tǒng)的很多關(guān)鍵技術(shù)和基本原理多年前就較為成熟了,近年來的進(jìn)展要緊集中在工程化,比如GPU和視覺計(jì)算加速器的浮現(xiàn)解決了計(jì)算量問題。但與此同時(shí),要想把視覺技術(shù)完成真實(shí)商品落地,中間還有許多其它問題。
機(jī)器視覺系統(tǒng)技術(shù)在消費(fèi)級(jí)市場(chǎng)最早的嘗試是微軟的Kinect。2010年,微軟聯(lián)合深度攝像頭技術(shù)方案帶來方PrimeSense正式對(duì)外推出Kinect,利用骨骼捕捉技術(shù),Kinect能夠捕捉游戲玩家的骨骼動(dòng)作,從而讓游戲玩家能夠不接觸屏幕即可玩游戲。在Kinect之后,華碩、Intel、谷歌和蘋果也相繼在深度攝像頭的運(yùn)用場(chǎng)景上跟進(jìn),一切都看上去往好的方向進(jìn)展。
但深度攝像頭作為獨(dú)立商品,市場(chǎng)化難度系數(shù)頗大。例如Intel在13年在開發(fā)設(shè)計(jì)者會(huì)議上宣布,將推出自身的微型深度感知模塊,華碩、戴爾、惠普、聯(lián)想等多家PC生產(chǎn)廠家都將從2014年下半年開始在商品線中部署這款深度感知模塊。而兩年多過去了,曾經(jīng)預(yù)言的一體式深度攝像頭的商品遲遲未見。
那么,處在計(jì)算機(jī)視覺和機(jī)器視覺系統(tǒng)交叉部分的深度攝像頭,應(yīng)該如何打開消費(fèi)級(jí)市場(chǎng)?
深度攝像的瓶頸
深度攝像頭也稱RGBD攝像頭。我們常用的攝像頭是RGB攝像頭,單一個(gè)攝像頭便能感知彩色可見光信息內(nèi)容(Red、Green、Blue),而RGBD攝像頭是在我們常見的RGB攝像頭基礎(chǔ)上,提升了深度信息內(nèi)容。
深度攝像頭獵取圖像方式分為主動(dòng)式獵取和被動(dòng)式獵取。二者的要緊區(qū)不集中在觀測(cè)傳感器是不是主動(dòng)向環(huán)境發(fā)出探測(cè)光。如大疆精靈4上的雙目視覺就是被動(dòng)式獵取深度圖像,其技術(shù)特點(diǎn)是攝像頭不主動(dòng)向環(huán)境中發(fā)射能量,而利用兩個(gè)之上攝像頭計(jì)算特征點(diǎn)的坐標(biāo)差得出感知環(huán)境中目前有能力得到信息內(nèi)容,這一方式與人類雙眼得到時(shí)差的方式最為相近,但最大的弊端在于限于目前的技術(shù),目前的識(shí)別精密度還不高,過于依靠光線,而且無法處理特征不明顯的場(chǎng)景,因而強(qiáng)光暗光都會(huì)造成深度計(jì)算的失效。
主動(dòng)式獵取所采納的方式則是從蝙蝠等生物上查找靈感,利用主動(dòng)發(fā)射探測(cè)光利用計(jì)算獵取深度圖像。這當(dāng)中又分為三類:“RF-modulatedlightsourceswithphasedetector”、“Rangegatedimagers”、“DirectTime-of-Flightimagers”,如Kinect一代所采納的PrimeSense就屬于第二類,伴隨著蘋果購買PrimeSense,微軟也在Kinect二代中改為微軟自有技術(shù),通常覺得二代采納的是直截了當(dāng)TOF的技術(shù)。
以Kinect的深度攝像頭為例子,它包括了一個(gè)紅外投射器、一個(gè)RGB攝影頭和一個(gè)紅外感應(yīng)器,由于深度攝像頭自帶燈源,而且是不可見的紅外光,對(duì)我們的生活無任何妨礙。大概深度攝像頭獵取景深信息內(nèi)容就類似完美了,但也有他的弊端。由因而主動(dòng)方式,兩個(gè)同波段紅外光會(huì)浮現(xiàn)干涉,造成兩臺(tái)一樣的深度攝像頭沒有方法一起使用,而且受發(fā)射輸出功率的妨礙,檢驗(yàn)距離也會(huì)受到非常大妨礙。
市面上常見的深度攝像頭,Kinect距離最遠(yuǎn),但也必須最達(dá)到到12W的用電供給,拖一根配電線很是累贅。同時(shí),深度攝像頭還難以運(yùn)用于戶外,由于太陽中也有紅外成分,會(huì)對(duì)主動(dòng)紅外光部分造成干擾。紅外光關(guān)于玻璃情景,也無計(jì)可施,浮現(xiàn)無法探測(cè)距離的情況。
Kinect獵取的深度圖像
困難中的嘗試
Kinect一代售罄一空之后,對(duì)Kinect二代的關(guān)聯(lián)更加嚴(yán)厲,這更加抑制了銷售量;LeapMotion兩年前由于銷售情況不如預(yù)期,不得不解雇了10%的職員,切入虛擬現(xiàn)實(shí);蘋果購買了Primesense之后也不明白在盤算什么小九九,有分析稱蘋果打算放到iPhone上,這般我們拍照時(shí)就能拍出三維效果的了;另一邊Intel則將目標(biāo)對(duì)準(zhǔn)了機(jī)器設(shè)備人無人機(jī),比如小米的機(jī)器設(shè)備人SegwayRobot和昊翔的無人機(jī)TyphooonH。機(jī)器設(shè)備人和無人機(jī)正是這兩年的大熱商品,看上去Intel很有可能會(huì)成為贏家,但由于SegwayRobot和TyphooonH都還未正式發(fā)售,因而效果如何還有待檢驗(yàn)。也便是講,在消費(fèi)級(jí)市場(chǎng)還沒有一個(gè)特不成功的案例。
IntelCEO科再奇展示運(yùn)用了RealSense模塊的的TyphooonH
而在國(guó)產(chǎn),Intel的RealSense出來之后,給了國(guó)產(chǎn)一些創(chuàng)從業(yè)者的信心,因而催生了一批有關(guān)的創(chuàng)業(yè)企業(yè),但目前成規(guī)模的運(yùn)用也寥寥無幾。
奧比中光是其中最早完成量產(chǎn)的,其深度攝像頭與Kinect一樣,要緊運(yùn)用在一些電視游戲上;與奧比中光有直截了當(dāng)競(jìng)爭(zhēng)的是華捷艾米,只只是在商品量產(chǎn)上,華捷艾米的進(jìn)度慢了一步;圖漾的商品則正在預(yù)備量產(chǎn)時(shí)期中,瞄準(zhǔn)的方向基礎(chǔ)上些行業(yè)領(lǐng)域運(yùn)用,大概對(duì)消費(fèi)運(yùn)用還在觀望時(shí)期;格靈深瞳正在做運(yùn)用在全自動(dòng)駕駛汽車子上的深度攝像頭;速感看好機(jī)器設(shè)備人;
機(jī)器設(shè)備人是目前受歡迎的運(yùn)用行業(yè),目前機(jī)器設(shè)備人的路徑規(guī)劃大多使用雷達(dá),雷達(dá)盡管只能建立平面的深度圖像,但市場(chǎng)上類似有公開商品,而且雷達(dá)的導(dǎo)航所用到的SLAM方案類似較為成熟,而視覺導(dǎo)航的SLAM方案則還很少見,iRobot是較早開始在其掃地機(jī)器設(shè)備人上使用SLAM方案,只是也不到1年時(shí)刻,因而想要在機(jī)器設(shè)備人上使用視覺避障與導(dǎo)航,看上去還必須一段時(shí)刻。
要解決的問題有哪些?
那么,深度攝像頭消費(fèi)級(jí)運(yùn)用的春天何時(shí)才會(huì)到來?利用與有關(guān)從業(yè)人員的交流,我們感受到深度攝像頭只是一個(gè)產(chǎn)業(yè)鏈中的一環(huán),當(dāng)他們?cè)谧錾疃葦z像頭的時(shí)候,有關(guān)的產(chǎn)業(yè)鏈上的工作中還有很多,比如芯片,比如后續(xù)的圖像識(shí)別、視頻分析這些。
“CV在消費(fèi)行業(yè)落地的其中一個(gè)障礙依然支持高性能運(yùn)算的低功耗低價(jià)位芯片選擇太少,有限的幾個(gè)也很難用。因而目前只能在工業(yè)行業(yè),機(jī)器視覺系統(tǒng)本身是工業(yè)術(shù)語。在大消費(fèi)行業(yè)我們傾向于叫embeddedvision(嵌入式視覺)。這一類商品基礎(chǔ)上光、機(jī)、電、軟件、算法一體,跨多個(gè)專業(yè)行業(yè),對(duì)系統(tǒng)一體式的難度系數(shù)規(guī)定更高?!备耢`深瞳技術(shù)人員如是說。
“要緊是芯片的處理能力、紅外投影模組的分辨率提高。我自身更關(guān)注大批量生產(chǎn)制造的穩(wěn)定性,由于這些零零配件裝在一起,必須校正、標(biāo)定等,這是一個(gè)挺大的挑戰(zhàn),特不是對(duì)創(chuàng)業(yè)企業(yè)?!眜Arm機(jī)械設(shè)備臂創(chuàng)始人鄧世韜是這樣說的。
“單從機(jī)器設(shè)備人行業(yè)來說,機(jī)器視覺系統(tǒng)有非常大一塊兒必須解決的問題是,目前在產(chǎn)業(yè)上游的關(guān)鍵傳感器和下游的機(jī)器設(shè)備人落地運(yùn)用中間存在一定的斷檔。也便是我們看到的國(guó)產(chǎn)有廠家專門搞攝像頭,雷達(dá)這般的元器件,專門有廠家做機(jī)器設(shè)備人整機(jī),然而幾乎沒有一個(gè)成熟的視覺技術(shù)方案能夠把不同的傳感器串聯(lián)起來,做成一個(gè)能夠商用的統(tǒng)一的方案。
機(jī)器設(shè)備人是個(gè)復(fù)雜的系統(tǒng),機(jī)器視覺系統(tǒng)也是機(jī)器設(shè)備人上一個(gè)復(fù)雜的部件,利用目前有的技術(shù),類似證明單純的依靠單一的傳感器是無法在目前有機(jī)器設(shè)備人上較好的完成各類作用的。
也便是講,在機(jī)器設(shè)備人上,必須有雷達(dá)、超聲波、攝像頭、三維傳感器配合在一起,才很有可能完成各類復(fù)雜的作用和任務(wù)。而目前的機(jī)器設(shè)備人產(chǎn)業(yè)的現(xiàn)狀是,大伙兒各自低頭研發(fā)自身的關(guān)鍵元件,使得下游的機(jī)器設(shè)備人廠家變成了機(jī)械設(shè)備式的一體式商,從訊飛拿語音,從視頻門戶拿內(nèi)容,從東莞拿移動(dòng)底盤公模這些,視覺上邊,也出現(xiàn)出零星的進(jìn)展態(tài)勢(shì)。
我們覺得,機(jī)器設(shè)備人在下一步的進(jìn)展中,必定會(huì)浮現(xiàn)一兩套整體的標(biāo)準(zhǔn)一體式方案,類似PC時(shí)代的windows操作系統(tǒng)和手機(jī)時(shí)代的IOS操作系統(tǒng)一樣?!彼俑锌萍紕?chuàng)始人陳震如是說。
“視覺計(jì)算處理器:由于視覺計(jì)算數(shù)據(jù)量和算法復(fù)雜度很高,通用的CPU、GPU和DSP處理器芯片都不夠強(qiáng)大,而專用ASIC又不夠靈活,最好必須有一個(gè)像GPU為Graphics進(jìn)行加速一樣,浮現(xiàn)一種能為Vision帶來強(qiáng)大計(jì)算能力的VPU芯片。
三維攝像頭作為一種計(jì)算視覺用的光學(xué)商品,從演示到工程樣機(jī)、再從工程樣機(jī)到量產(chǎn)必須跨過的工程技術(shù)鴻溝比通常的拍攝類光學(xué)商品要大很多。比如光學(xué)器件的一致性挑選和光學(xué)參數(shù)的標(biāo)定校正,便是一個(gè)單獨(dú)的研究方向。
商品的多樣性:作為一種光學(xué)商品,天然存在商品外形尺寸多樣性的問題,比如就最基礎(chǔ)的檢驗(yàn)距離指標(biāo)來講,就很難做到遠(yuǎn)近兼顧,必須在最大距離和最近盲區(qū)之間作出組合折衷。不同的運(yùn)用場(chǎng)景必須不同外形尺寸的商品進(jìn)行適配和優(yōu)化,因而對(duì)商品和技術(shù)方案的可伸縮性規(guī)定就很高,必須有多種不同外形尺寸的商品去滿足不同的運(yùn)用要求。
人工智能:基于三維視覺數(shù)據(jù)通?;A(chǔ)上為了完成更高級(jí)的識(shí)別和分析能力,也便是對(duì)三維視覺數(shù)據(jù)使用的能力規(guī)定也很高,必須更聰慧的大腦來使用更全面的視覺數(shù)據(jù)?!眻D漾創(chuàng)始人費(fèi)浙平如是說。
“機(jī)器視覺系統(tǒng)在消費(fèi)市場(chǎng)落地,技術(shù)上是人工智能技術(shù)和機(jī)器設(shè)備人硬件合理融合的問題,有兩條路:
1、自上而下。以人工智能技術(shù)運(yùn)用為主,規(guī)定機(jī)器設(shè)備人硬件盡很有可能符合人工智能技術(shù)工程化的標(biāo)準(zhǔn)。這意味著,商品得提升傳感器,以保障智能算法數(shù)據(jù)供給,得提升成本,有良好的計(jì)算資源讓復(fù)雜的智能算法“跑”起來。還意味著商品具有不穩(wěn)定性,人工智能技術(shù)以概率為主,商品作用依靠人工智能技術(shù)的比例越大,商品作用越不穩(wěn)定。機(jī)器視覺系統(tǒng)運(yùn)用里邊,人臉檢驗(yàn)是很穩(wěn)定的,但遇到黑人也難打包票。
2、自下而上。以機(jī)器設(shè)備人硬件為主,在作用上運(yùn)用人工智能技術(shù)輔助。這意味著,商品較為可靠,但同時(shí)也失去了一些自動(dòng)化的特性。當(dāng)商品必須某些自動(dòng)化的作用時(shí),要花費(fèi)大量人力針對(duì)某個(gè)“智能算法”做移植,將本來在不穩(wěn)定環(huán)境中運(yùn)行的算法運(yùn)用在可控、高效而且低成本的嵌入式環(huán)境中,這點(diǎn)讓很多專注理論算法的技術(shù)員頭疼。
機(jī)器視覺系統(tǒng)技術(shù)落實(shí)在商品上,有時(shí)候是自下而上做商品的過程中,給了“智能算法”太多的束縛,大伙兒總是優(yōu)先考慮成本和穩(wěn)定性,而不是技術(shù)運(yùn)用本身。我們從人工智能行業(yè)出來做機(jī)器設(shè)備人,希望兩者做個(gè)折衷,以自上而下的愿景給智能技術(shù)找一個(gè)市場(chǎng)立足點(diǎn)。市場(chǎng)對(duì)智能商品要求的不明晰,也是機(jī)器視覺系統(tǒng)難落地市場(chǎng)的一個(gè)大的要素?!盇ICRobo智能機(jī)器設(shè)備人系統(tǒng)架構(gòu)師佘元博如是說。
能夠看出,芯片的運(yùn)算能力和成本是大伙兒覺得機(jī)器視覺系統(tǒng)在消費(fèi)級(jí)市場(chǎng)落地的主要妨礙要素,其次是一體式方案和人工智能技術(shù)。但由于消費(fèi)電子關(guān)于量和價(jià)錢和技術(shù)成熟度均有著較高規(guī)定,很有可能要到這些配合的產(chǎn)業(yè)鏈環(huán)節(jié)都成熟之后,消費(fèi)運(yùn)用的春天才會(huì)到來。