工業(yè)自動化離不開感知技術(shù)和運動控制技術(shù),就像人離不開眼睛和大腦,可想而知,視覺感知技術(shù)一定是工業(yè)自動化領(lǐng)域最重要的技術(shù)之一。而深度學(xué)習(xí)可謂是視覺感知技術(shù)中的“黑馬”,它的應(yīng)用使機(jī)器視覺在很多場景下超越現(xiàn)有解決方案,并能夠勝任更具挑戰(zhàn)性的任務(wù),因此近年來在工業(yè)視覺領(lǐng)域掀起應(yīng)用熱潮。
工業(yè)自動化趨勢下的一匹“黑馬”
機(jī)器視覺作為一種基于2D或3D相機(jī)傳感器的工業(yè)自動化技術(shù),在工業(yè)視覺領(lǐng)域具有廣泛而成熟的應(yīng)用,如字符識別、質(zhì)量檢測、產(chǎn)品測量等。而在眾多的應(yīng)用場景中,機(jī)器視覺系統(tǒng)要完成任務(wù)必須對工業(yè)相機(jī)等硬件設(shè)備生成的待檢測產(chǎn)品的圖像進(jìn)行分類。在深度學(xué)習(xí)還未在工業(yè)領(lǐng)域廣泛應(yīng)用前,這一環(huán)節(jié)通常是由工程師編寫相應(yīng)算法提取圖像特征來實現(xiàn),也就是常說的傳統(tǒng)計算機(jī)視覺技術(shù)。
在使用傳統(tǒng)視覺技術(shù)進(jìn)行圖像分類時,需要用到特征提取步驟,特征即圖像中描述性或信息性的小圖像塊。要完成這一步,工程師需要運用多種算法,如邊緣檢測算法、角點檢測算法、閾值分割算法等等。從圖像中提取出足夠多的特征后,根據(jù)這些特征形成每個目標(biāo)類別的定義,即“詞袋”。再與其它圖像中所提取的特征相對比,如果在一張圖像中找到了另一張圖像詞袋中的絕大多數(shù)特征,則該圖像包含同樣的目標(biāo)。
這類算法時至今日的應(yīng)用性依然很廣泛,但其硬傷在于必須選擇需要查找圖像中的哪些特征。而當(dāng)圖像中存在很多個類別時,就會變得復(fù)雜難以分類,只有使用不同的特征才可以更好地描述不同類別的對象。但如果使用很多特征,就必須對大量的參數(shù)進(jìn)行微調(diào)。這一繁復(fù)的工作需要消耗大量工時。因此,傳統(tǒng)機(jī)器視覺技術(shù)只適用于模型匹配、測量、字符識別等一些簡單的應(yīng)用場景。
隨著工業(yè)自動化水平的要求不斷提高,傳統(tǒng)機(jī)器視覺已無法適用當(dāng)下隨機(jī)性強、特征復(fù)雜的工業(yè)檢測任務(wù)。面對一些具有復(fù)雜特征的產(chǎn)品圖像檢測,如缺陷種類多、類別多樣、大小不一等,傳統(tǒng)機(jī)器視覺技術(shù)愛莫能助,但深度學(xué)習(xí)技術(shù)卻可以一展身手。
“深度學(xué)習(xí)以系統(tǒng)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),不再通過算法來搜索特定特征,而是訓(xùn)練深度學(xué)習(xí)系統(tǒng)內(nèi)的神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)各零部件的形態(tài)特征,建立包含零部件特征的深度學(xué)習(xí)模型,能夠快速定位識別不同組件,具有可重復(fù)性和可擴(kuò)展性?!睂W⒂跈C(jī)器視覺技術(shù)研發(fā)的浙江深眸科技有限公司的技術(shù)專家說道。
相較于傳統(tǒng)機(jī)器視覺解決方案,深度學(xué)習(xí)的又一大優(yōu)點在于可以縮短項目技術(shù)的研發(fā)時間。通常情況下,大多數(shù)機(jī)器視覺應(yīng)用程序需要兩個月時間來進(jìn)行軟件開發(fā)和可行性測試,而采用集合了多種深度學(xué)習(xí)算法的機(jī)器視覺軟件開發(fā)平臺則只需要十分鐘,如深眸科技自主研發(fā)的輕轍視覺引擎,以深度學(xué)習(xí)算法為核心,企業(yè)只需投入一位開發(fā)人員即可在短時間內(nèi)完成項目部署。
運用深度學(xué)習(xí)算法,企業(yè)能夠大幅壓縮項目開發(fā)的時間成本和人工成本,加之適用于眾多使用場景,短短數(shù)年,深度學(xué)習(xí)已經(jīng)在眾多領(lǐng)域擊敗傳統(tǒng)算法,成為工業(yè)領(lǐng)域主流應(yīng)用的圖像分類處理方法。
深度學(xué)習(xí)如何解決復(fù)雜特征問題?
深度學(xué)習(xí)給計算機(jī)視覺和人工智能領(lǐng)域帶來了革命性突破,在圖像分析上,許多曾經(jīng)對于傳統(tǒng)計算機(jī)視覺來說的棘手難題,現(xiàn)在深度學(xué)習(xí)可以解決的比人類識別效果還要優(yōu)秀。
究其原因,很大程度上是因為深度學(xué)習(xí)引入了“端到端學(xué)習(xí)”這一概念。簡而言之,就是讓機(jī)器在每個特定類別的對象中學(xué)習(xí)尋找最具描述性、最突出的特征,繼而讓神經(jīng)網(wǎng)絡(luò)自己去發(fā)現(xiàn)各種類型圖像中的潛在模式。基于此,工程師不再需要手動決定采用哪種傳統(tǒng)算法來描述特征,只需要“喂”給深度學(xué)習(xí)算法足夠多的圖像。
深眸科技的技術(shù)專家這樣解釋“如果你想教會一個深度神經(jīng)網(wǎng)絡(luò)識別一只貓,你不必告訴它去尋找貓的眼睛、毛發(fā)、四肢等特征,只需要把成千上萬張貓的圖像展示給它,它自己就能解決。如果它總是把狐貍當(dāng)成貓,也不需要重新編寫代碼,繼續(xù)進(jìn)行訓(xùn)練就行了。”
舉個例子,深眸科技在為一家大型家電生產(chǎn)商提供配件防錯漏檢測解決方案中。在檢測過程中,由于家電配件種類多,組合隨機(jī)性較大,且不同零件在結(jié)構(gòu)、顏色、材質(zhì)上有較大差異,還有可能存在遮擋、背景同色等干擾。這種情況,傳統(tǒng)計算機(jī)視覺算法難以應(yīng)對自如,但深度學(xué)習(xí)算法經(jīng)過大量訓(xùn)練已經(jīng)形成包含各配件特征的深度學(xué)習(xí)模型,可以輕松應(yīng)對上述復(fù)雜情況,且識別準(zhǔn)確率高達(dá)99.9%。
隨著我國制造業(yè)的不斷發(fā)展壯大,各大生產(chǎn)企業(yè)急需更智能、準(zhǔn)確和可重復(fù)的視覺檢測系統(tǒng)。需求的驅(qū)動以及準(zhǔn)確度高、應(yīng)用場景廣泛等優(yōu)勢加持,可以預(yù)見,在醫(yī)療、食品、半導(dǎo)體等行業(yè),深度學(xué)習(xí)算法都將有光明的應(yīng)用前景。需要注意的是,深度學(xué)習(xí)雖有眾多優(yōu)勢,但這并不意味著傳統(tǒng)計算機(jī)視覺算法的沒落,在不同應(yīng)用領(lǐng)域,傳統(tǒng)算法和深度學(xué)習(xí)各有優(yōu)勢,強強聯(lián)手才能更好的賦能工業(yè)檢測。