7月15日,2022曠視技術(shù)開(kāi)放日(MegTech 2022)在北京舉行。在本次活動(dòng)上,曠視聯(lián)合創(chuàng)始人、CEO印奇進(jìn)行了主題分享,闡述了曠視以AIoT為核心的企業(yè)戰(zhàn)略以及涵蓋從基礎(chǔ)研究、算法生產(chǎn)到軟硬一體化產(chǎn)品的AI落地全鏈路的“2+1”AIoT核心技術(shù)科研體系,即以“基礎(chǔ)算法科研”和“規(guī)模算法量產(chǎn)”為兩大核心的AI技術(shù)體系,和以“計(jì)算攝影學(xué)”為核心的“算法定義硬件”IoT技術(shù)體系。同時(shí),曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨也在現(xiàn)場(chǎng)分享了曠視關(guān)于AI基礎(chǔ)研究的最新趨勢(shì)洞察和研究成果。
“大”和“統(tǒng)一”成為視覺(jué)AI基礎(chǔ)研究新趨勢(shì)
自2012年AlexNet被提出以來(lái),基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)成為AI視覺(jué)發(fā)展的核心原動(dòng)力之一。神經(jīng)網(wǎng)絡(luò)根據(jù)用途、構(gòu)建方式的不同,大致可以分為CNN、Transformer、基于自動(dòng)化神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的模型以及輕量化模型等,這些模型極大地推動(dòng)了AI發(fā)展的歷史進(jìn)程。
曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨認(rèn)為:基礎(chǔ)模型科研是AI創(chuàng)新突破的基石, “大”和“統(tǒng)一”已經(jīng)成為當(dāng)今視覺(jué)AI系統(tǒng)研究的新趨勢(shì)。
“大”并不意味好,要借助AI“大”模型持續(xù)拓展人工智能認(rèn)知邊界
曠視認(rèn)為,“大”是以創(chuàng)新的算法充分發(fā)揮大數(shù)據(jù)、大算力的威力,拓展AI認(rèn)知的邊界。即利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達(dá)能力,使得AI模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場(chǎng)景。
張祥雨認(rèn)為,“大”是提高AI系統(tǒng)性能的重要捷徑之一。但是,但大并不意味好,片面地追求大參數(shù)量、大計(jì)算量和大數(shù)據(jù)量,并不一定能夠?qū)崿F(xiàn)更強(qiáng)大的模型,反而會(huì)產(chǎn)生更大的計(jì)算開(kāi)銷,令整體收益非常有限。
基于這一行業(yè)洞察,曠視將其關(guān)于“大”的研究進(jìn)行了更加精細(xì)的劃分。首先在大模型方面,曠視的研究不僅著眼于如何實(shí)現(xiàn)“大”,而是將會(huì)聚焦于如何充分發(fā)揮大模型背后的威力;其次在大算法方面,如果利用創(chuàng)新的算法將大模型的作用最大化,也將會(huì)是曠視未來(lái)重點(diǎn)關(guān)注的;最后在大應(yīng)用方面,將重點(diǎn)解決大模型生成后如何進(jìn)行合力的應(yīng)用,提升AI模型性能。
用“統(tǒng)一”AI系統(tǒng)的設(shè)計(jì)思路,促進(jìn)AI的通用化、規(guī)?;瘧?yīng)用
AI視覺(jué)的研究領(lǐng)域眾多,包括CNNs、VL Models、 Transformers等基礎(chǔ)模型研發(fā),物體檢測(cè)、分割等視覺(jué)基礎(chǔ)應(yīng)用,優(yōu)化、自監(jiān)督、半監(jiān)督等AI算法演化等,每個(gè)研究路徑,都會(huì)衍生出一系列算法。
近幾年,不同研究路徑所衍生出的算法逐漸在底層走向統(tǒng)一,曠視借助特定的優(yōu)化算法,通過(guò)在訓(xùn)練過(guò)程中增加先驗(yàn)的方式,使得CNNs、VL Models、 Transformers都取得相似的性能,為曠視“統(tǒng)一”AI系統(tǒng)設(shè)計(jì)奠定了堅(jiān)實(shí)的基礎(chǔ)。
此外,圍繞“統(tǒng)一”這一趨勢(shì),曠視在“基礎(chǔ)模型架構(gòu)”、“算法”和“認(rèn)知”,進(jìn)行了全面布局。曠視基礎(chǔ)科研的“統(tǒng)一”,集中體現(xiàn)在統(tǒng)一各種基礎(chǔ)模型架構(gòu),從紛繁的AI算法中提煉其本質(zhì)特性,使其能支持各種任務(wù)、數(shù)據(jù)和平臺(tái),并最終構(gòu)建統(tǒng)一的、高性能的視覺(jué)AI系統(tǒng)。
基礎(chǔ)模型科研需要堅(jiān)持長(zhǎng)期主義
圍繞“大”和“統(tǒng)一”的研究趨勢(shì),曠視基礎(chǔ)模型科研聚焦于通用圖像大模型、視頻理解大模型、計(jì)算攝影大模型和自動(dòng)駕駛感知大模型四個(gè)方向,并取得了多項(xiàng)突出的科研成果。比如,在通用大模型方面,曠視提出了一種基于大Kernel的CNN和MLP設(shè)計(jì)范式。在自動(dòng)駕駛感知大模型方面,曠視新提出的BEVDepth在權(quán)威的Benchmark NuSenses上,目前是Camera賽道上的第一名。此外,去年提出的一個(gè)非常簡(jiǎn)單、通用,且高效的目標(biāo)檢測(cè)框架YOLOX的GitHub Star已經(jīng)超過(guò)6000個(gè)。
張祥雨強(qiáng)調(diào),基礎(chǔ)模型科研需要堅(jiān)持長(zhǎng)期主義,曠視將始終以原創(chuàng)、實(shí)用和本質(zhì)作為基礎(chǔ)科研的指導(dǎo)原則,致力于解決人工智能最本質(zhì)的難題。