a&s專業(yè)的自動(dòng)化&安全生態(tài)服務(wù)平臺

公眾號

安全自動(dòng)化

安防知識網(wǎng)

手機(jī)站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

商湯科技：人工智能3D視覺技術(shù)的未來趨勢

作者：王子彬李啟銘 2020-01-21 10:39 閱讀 2198 來源：商湯科技評論區(qū)

3D視覺技術(shù)，就是賦予機(jī)器感知三維世界的信息和能力，并給我們帶來顛覆性的價(jià)值。

　　在上世紀(jì)70年代，工業(yè)界開始運(yùn)用3D視覺技術(shù)測量和掃描物件，提高生產(chǎn)效率。最近10多年，家用游戲機(jī)廠商將3D體感外設(shè)帶入大眾視野，帶來了新奇的體感游戲。近三年，越來越多的智能手機(jī)開始配備3D傳感器，并在AI的加持下，開拓出了更多更具想象空間的應(yīng)用場景。未來10年，AI+3D將無處不在，給我們的生活和工作帶來深遠(yuǎn)影響。

　　賦予機(jī)器感知三維世界的“眼睛”

　　人類擁有與生俱來的3D環(huán)境感知和理解能力，這是因?yàn)槲覀冇脙芍谎劬聿蹲綀D像，通過大腦處理形成立體視覺，從而辨認(rèn)物體的形狀方位、他人的動(dòng)作，輕松自然地跟這個(gè)三維世界交互。

　　能否讓機(jī)器也能感知三維世界呢?或許很多人會(huì)想到給機(jī)器添加一顆攝像頭。但普通RGB攝像頭拍攝的現(xiàn)實(shí)世界的影像，僅能采集場景中的色彩信息，無法采集物體和攝像頭之間的距離和方位。也就是說，無論場景中的三維結(jié)構(gòu)有多么豐富，對機(jī)器來說都是一個(gè)平面，一個(gè)二維世界。

　　3D視覺技術(shù)，就是賦予機(jī)器感知三維世界的信息和能力，并給我們帶來顛覆性的價(jià)值。試想一下，將汽車立體模型通過增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)投射出來，客戶可360度觀看，還能“開車門”，由此直觀地提出意見，而不是一張張翻看照片；或者派無人機(jī)探索森林或洞穴，一邊前行一邊繪制周邊場景的三維地形，而不是我們拿著一張平面地圖親自探險(xiǎn)……

　　事實(shí)上，3D視覺技術(shù)目前已經(jīng)在工業(yè)界取得成功，但在消費(fèi)領(lǐng)域，受限于3D感知硬件的成本和體積、計(jì)算能力等困擾，很多場景并未激活。除了掃地機(jī)器人等個(gè)別終端外，我們的智能手機(jī)等移動(dòng)設(shè)備，還處在二維世界里。但近幾年，3D視覺技術(shù)終于開始走向個(gè)人終端，機(jī)器認(rèn)知世界的新大門正在打開。

　　3D感知硬件小型化，ToF漸成主流

　　實(shí)現(xiàn)3D視覺能力，3D感知硬件的加持至關(guān)重要。目前主流的3D感知硬件技術(shù)包括雙目視覺、結(jié)構(gòu)光、ToF(飛行時(shí)間)以及激光雷達(dá)。

　　雙目視覺系統(tǒng)是通過雙攝像頭同時(shí)進(jìn)行成像，然后通過對比兩個(gè)圖像中每個(gè)像素點(diǎn)的相對位置差，來計(jì)算出該像素點(diǎn)在三維環(huán)境中的位置，類似于人雙眼的工作原理。

　　結(jié)構(gòu)光和ToF則能在RGB的基礎(chǔ)上直接提供深度信息，屬于RGB-D方案，在精度上比雙目視覺更勝一籌。其中，結(jié)構(gòu)光是通過投射大量光斑到物體上，然后根據(jù)光斑的形變量來判斷其所處深度；ToF則是向物體發(fā)射連續(xù)的光脈沖信號，并接收返回的信號，通過計(jì)算信號發(fā)射和返回的時(shí)間來計(jì)算深度信息。相比之下，結(jié)構(gòu)光在較短距離內(nèi)擁有更高精度，而ToF支持的工作距離更長，適用于更加多元化的場景，且傳感器模塊少，體積小。

　　激光雷達(dá)的原理與ToF類似，但其感知距離更遠(yuǎn)，范圍更大，精度也更高。很多自動(dòng)駕駛汽車通過激光雷達(dá)來感知周圍環(huán)境，不過缺點(diǎn)是成本過于高昂，只適用于特定場景。

　　在最近的三年，我們觀察到的一個(gè)顯著趨勢是ToF和結(jié)構(gòu)光的小型化，使得它成功地應(yīng)用到了手機(jī)當(dāng)中。而ToF以其體積更小、適用場景更廣等優(yōu)勢，逐漸受到更多廠商青睞，很多最新的旗艦手機(jī)都將ToF作為一大賣點(diǎn)。據(jù)統(tǒng)計(jì)，2019年有約5000萬臺配備ToF的手機(jī)出貨，業(yè)內(nèi)預(yù)計(jì)2020年、2021年將分別達(dá)到1.5億和5億臺，逐漸呈現(xiàn)出爆發(fā)態(tài)勢，2020年全球智能手機(jī)3D感知硬件市場的規(guī)模也將到達(dá)99.25億美元。

　　ToF在智能手機(jī)上的加速應(yīng)用，有助于3D視覺技術(shù)的廣泛普及化，成為接下來10年中非常重要的科技趨勢。深入地觸達(dá)消費(fèi)市場，也激活了更多的應(yīng)用創(chuàng)新可能。

　　AI技術(shù)，突破3D視覺技術(shù)的難點(diǎn)

　　3D感知硬件能夠提供距離、深度等數(shù)據(jù)信息，但我們要的并不是單純的數(shù)據(jù)，而是基于這些數(shù)據(jù)，通過不同的表達(dá)和理解方式，實(shí)現(xiàn)不同的應(yīng)用。比如對三維場景進(jìn)行數(shù)字化建模，或者繪制三維地圖，從而讓機(jī)器能夠?qū)崟r(shí)感知自己在所處空間中的位置，以便在運(yùn)動(dòng)時(shí)及時(shí)避開障礙物等。這需要根據(jù)深度信息生成深度圖像，并與RGB圖像，甚至是紅外圖像進(jìn)行融合并完成大量計(jì)算。

　　但是，通過硬件感知的信息生成的深度圖像，往往存在因硬件性能限制而產(chǎn)生的瑕疵，例如在細(xì)小或復(fù)雜交錯(cuò)的物體之間，出現(xiàn)深度信息估計(jì)錯(cuò)誤等問題。此外，精準(zhǔn)度、魯棒性、實(shí)時(shí)性、效率等都是決定實(shí)際應(yīng)用效果的關(guān)鍵。這都需要依靠額外的算法進(jìn)行實(shí)時(shí)處理予以彌補(bǔ)和增強(qiáng)。

　　在工業(yè)場景中，由于應(yīng)用相對單一，且3D感知硬件大多處于固定或平穩(wěn)狀態(tài)，很多難題可以通過編寫特定算法加以解決。但在移動(dòng)終端上，不規(guī)則的抖動(dòng)、晃動(dòng)等情況帶來的難以預(yù)估的挑戰(zhàn)，傳統(tǒng)算法難以突破。

　　2012年，AI在計(jì)算機(jī)視覺領(lǐng)域取得突破，給3D視覺技術(shù)發(fā)展也帶來了全新思路。AI可通過對大量實(shí)際數(shù)據(jù)進(jìn)行學(xué)習(xí)，自行總結(jié)其中的規(guī)律和特征。這種方法可以在短時(shí)間內(nèi)，完成傳統(tǒng)算法需要多年才能突破的問題，有效彌補(bǔ)硬件能力的不足。

　　更為重要的是，AI不僅能感知場景中的三維結(jié)構(gòu)，還能識別出場景中的三維物體是什么，在做什么。例如檢測人、物體，識別人的姿態(tài)，跟蹤物體的運(yùn)行軌跡……這就進(jìn)一步敞開了機(jī)器認(rèn)知世界的新大門。

　　在我們看來，3D硬件的小型化，是3D視覺技術(shù)應(yīng)用場景拓展和創(chuàng)新的硬件基礎(chǔ)，而AI技術(shù)則是真正的動(dòng)力引擎。兩者密不可分，可以說，AI+3D視覺技術(shù)拐點(diǎn)已至。

　　AI+3D，緊密協(xié)作實(shí)現(xiàn)完美空間感知

　　目前，商湯科技已經(jīng)將AI技術(shù)廣泛地應(yīng)用于3D感知的各個(gè)領(lǐng)域，開發(fā)了基于ToF等3D感知硬件的技術(shù)與產(chǎn)品，包括人臉與人體3D重建、物體重建、3D全身關(guān)鍵點(diǎn)跟蹤、3D Avatar驅(qū)動(dòng)工具、AR測量、AR場景互動(dòng)、AR導(dǎo)航、3D人臉認(rèn)證、3D攝影等等，均體現(xiàn)了AI+3D的顯著優(yōu)勢。

　　首先，AI+3D可以進(jìn)一步優(yōu)化感知效果，提升用戶體驗(yàn)。以動(dòng)作捕捉為例，結(jié)合對深度信息的高效處理，能夠整體提升肢體關(guān)鍵點(diǎn)的穩(wěn)定性、準(zhǔn)確性以及運(yùn)動(dòng)的穩(wěn)定性和自然度，精準(zhǔn)呈現(xiàn)人在三維空間中的動(dòng)作姿態(tài)變化；

　　第二，AI+3D可以更加高效地應(yīng)用和處理深度信息，理解環(huán)境中人物間的相互關(guān)系。例如為AR帶來逼真的虛實(shí)融合和互動(dòng)效果，在智能手機(jī)上完成高精度3D模型建模，或是為自動(dòng)駕駛提供車外的人、車、物的識別和距離感知。

　　第三，AI+3D可以更加精準(zhǔn)地分割圖像中的主體和背景。特別是在主體和背景顏色比較相近的情況下，得益于對深度信息的快速處理，在分割效果上比2D感知技術(shù)有很大的提升，可提供不同人物之間的語義信息，亦可結(jié)合3D相機(jī)系統(tǒng)帶來更逼近單反的攝影效果；

　　第四，深度信息與紅外圖像的結(jié)合，可以讓3D感知適用于更多的場景，使之不受環(huán)境光線明暗的影響。

　　基于上述優(yōu)勢，我們認(rèn)為，AI+3D會(huì)從人機(jī)交互、互動(dòng)娛樂、內(nèi)容創(chuàng)作、身份驗(yàn)證、拍照、電商等層面激發(fā)大量的創(chuàng)新應(yīng)用場景，甚至改變很多傳統(tǒng)行業(yè)的運(yùn)作模式。

　　AI+3D，激活更多創(chuàng)新的應(yīng)用場景

　　隨著越來越多的智能手機(jī)配備3D感知硬件，AI算法的作用也越加凸顯，只有兩者的緊密協(xié)作，才能夠?qū)⑼昝赖挠跋耋w驗(yàn)帶給最終用戶，缺一不可。為此，商湯科技一直積極與合作伙伴攜手共進(jìn)，將AI+3D相關(guān)產(chǎn)品和技術(shù)充分應(yīng)用于手機(jī)等智能終端當(dāng)中。

　　比如，通過AI+3D進(jìn)行“物品重建”。用戶只需拿手機(jī)沿著物體360度環(huán)繞掃描，就能將其掃描成數(shù)字模型，并用于3D打印、3D/AR相冊預(yù)覽、短視頻直播內(nèi)容生成，或植入到游戲、電商商品展示等場景。特別是后者，它可讓顧客通過翻轉(zhuǎn)方式查看物品外觀，告別翻看照片的麻煩。

　　除物品重建，還可以“人臉重建”。用戶不僅可以體驗(yàn)比2D美顏更加精美的3D美顏功能，還可足不出戶輕松地進(jìn)行虛擬試妝，甚至通過“3D微整形”來模擬整形效果。

　　AI+3D讓手機(jī)就能成為體感設(shè)備。玩家可低成本地暢玩體感游戲，而內(nèi)容創(chuàng)作者則借助商湯的Avatar技術(shù)打造自己的虛擬形象，例如虛擬主播、虛擬講解員或者虛擬教師，通過表情、動(dòng)作進(jìn)行驅(qū)動(dòng)，這會(huì)為互動(dòng)娛樂、文旅乃至教育打造新的發(fā)展模式。

　　AI+3D也將在很大程度上推動(dòng)移動(dòng)AR朝向3D AR方向發(fā)展。基于RGBD SLAM可重建真實(shí)環(huán)境的3D結(jié)構(gòu)，準(zhǔn)確將虛擬元素植入到真實(shí)環(huán)境中，呈現(xiàn)真實(shí)的遮擋、碰撞、反彈等效果。

　　有了3D AR，手機(jī)還能搖身一變成為更強(qiáng)大的AR測量尺，實(shí)現(xiàn)遠(yuǎn)超基于2D方案的測量精度，場景覆蓋率到初始化耗時(shí)，還可以自動(dòng)檢測并測量立體幾何物體。

　　AI+3D也將讓3D人臉識別成為更便捷、更安全的解鎖或支付方式。

　　媲美單反的大景深效果一直是手機(jī)人像拍照所追求的方向，3D視覺技術(shù)可以讓人物等主體與背景的過渡效果更加自然、更加精準(zhǔn)。而在電商行業(yè)，AI+3D可以讓AR試妝、AR試衣、AR家居更加逼真，滿足多角度充分預(yù)覽，促成購買行為。

　　放眼汽車行業(yè)，AI+3D技術(shù)能夠?qū)崿F(xiàn)更加精準(zhǔn)的車外人、車、物識別和距離感知，有力推動(dòng)自動(dòng)駕駛的發(fā)展。商湯科技也正以“攝像頭為主、多傳感器融合”的解決方案，研發(fā)L4級自動(dòng)駕駛解決方案。而在泛工業(yè)領(lǐng)域，AI+3D可以為機(jī)械臂賦予3D感知能力，準(zhǔn)確判斷物體所處的位置、尺寸、形狀等，從而進(jìn)行精準(zhǔn)的抓取，或是進(jìn)行自動(dòng)化的品質(zhì)檢測。

　　《Prediction Machines》一書中曾提到：“當(dāng)某種基礎(chǔ)產(chǎn)品價(jià)格大幅下降的時(shí)候，才是整個(gè)世界發(fā)生變化的基礎(chǔ)”。3D視覺技術(shù)呈現(xiàn)出的也是這樣一個(gè)趨勢。放眼未來，3D視覺技術(shù)還有更多創(chuàng)新空間。首先硬件成本的下降使其更加普及，支持的工作距離更遠(yuǎn)，而AI技術(shù)隨著表達(dá)能力將不斷增強(qiáng)，算法模型的小型化等趨勢，可讓深度信息處理更高效，3D效果更逼真、更穩(wěn)定，性能更快，同時(shí)硬件資源占用率更低。一方面不斷優(yōu)化現(xiàn)有應(yīng)用的體驗(yàn)，另一方面進(jìn)一步開拓更多應(yīng)用可能。

　　新的10年， AI+3D將成為變革行業(yè)發(fā)展的全新引擎。

（本文作者王子彬，商湯科技移動(dòng)智能事業(yè)群副總裁、智能終端業(yè)務(wù)CTO

　　李啟銘，商湯科技智能終端業(yè)務(wù)3D產(chǎn)品負(fù)責(zé)人）

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達(dá)個(gè)人看法，并不表明a&s觀點(diǎn)。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動(dòng)化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會(huì)資源以及豐富的媒體經(jīng)驗(yàn)，提供媒體、活動(dòng)、展會(huì)等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

商湯科技：人工智能3D視覺技術(shù)的未來趨勢