當(dāng)前位置:首頁(yè)  人物風(fēng)采

封面人物|沈春華:做簡(jiǎn)單高效的人工智能算法,讓機(jī)器“看”得更清楚

發(fā)布時(shí)間:2022-07-23來(lái)源:浙江大學(xué)融媒體中心作者:吳雅蘭2319

當(dāng)你開(kāi)著車(chē)行駛在馬路上,看到一位老人正要過(guò)馬路,你點(diǎn)了點(diǎn)剎車(chē)穩(wěn)穩(wěn)停在了斑馬線前;繼續(xù)上路,有塊路面正在維修,你輕輕轉(zhuǎn)了把方向,繞過(guò)施工警示牌……也許對(duì)于這些操作,你已經(jīng)駕輕就熟。

但如果這是一輛自動(dòng)駕駛的汽車(chē)呢?如何讓汽車(chē)能“看見(jiàn)”面前的這些信息迅速做出反應(yīng)?這就是機(jī)器視覺(jué)研究的一個(gè)重要應(yīng)用方向。

前不久回國(guó)全職加盟浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的沈春華教授,正是這一領(lǐng)域的世界頂級(jí)學(xué)者。深耕機(jī)器視覺(jué)研究多年的他,此前曾是澳大利亞阿德萊德大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的終身教授,同時(shí)任職澳大利亞機(jī)器學(xué)習(xí)研究院、澳大利亞機(jī)器人視覺(jué)卓越研究中心,不僅帶領(lǐng)團(tuán)隊(duì)做出過(guò)FCOS、RefineNet等知名的視覺(jué)算法,還貢獻(xiàn)了不少開(kāi)源工具。

“希望在浙大,我們能讓機(jī)器‘看’得更清楚。”沈春華說(shuō)。

 

讓視覺(jué)識(shí)別更加靈敏

給機(jī)器一張圖片或者一段視頻,如何把目標(biāo)信息找出來(lái)?現(xiàn)在常用的是基于錨定框(anchor box)的目標(biāo)檢測(cè)算法,預(yù)先設(shè)計(jì)好不同的模板,讓算法在經(jīng)過(guò)“訓(xùn)練”之后利用最匹配的模板檢測(cè)并識(shí)別出目標(biāo)。

“業(yè)界之前普遍認(rèn)為,去掉錨定框會(huì)大大降低識(shí)別效果。缺點(diǎn)是算法設(shè)計(jì)比較復(fù)雜,錨定框數(shù)量非常多,比如小汽車(chē)是矮矮胖胖的矩形框,路燈桿是細(xì)細(xì)長(zhǎng)長(zhǎng)的矩形框,每種常見(jiàn)事物都得考慮進(jìn)去?!鄙虼喝A說(shuō),這些問(wèn)題影響了視覺(jué)識(shí)別的效率。于是他帶領(lǐng)團(tuán)隊(duì)開(kāi)始研究新的算法。

2019年,沈春華和他的博士生發(fā)表論文,提出了FCOSFully Convolutional One-Stage Object Detection)目標(biāo)檢測(cè)算法。這是一個(gè)基于FCN算法的無(wú)錨點(diǎn)的目標(biāo)檢測(cè)模型,顯著地簡(jiǎn)化了目標(biāo)檢測(cè)算法的復(fù)雜性,提高識(shí)別效率。實(shí)踐證明,這個(gè)新算法提供了可與基于錨定框的方法媲美的目標(biāo)檢測(cè)效果,目前論文單篇引用量超過(guò)2100,成果廣泛應(yīng)用到了自動(dòng)駕駛等諸多CV領(lǐng)域中。

“這相當(dāng)于用逐像素的方法來(lái)識(shí)別物體。比如對(duì)于一輛小汽車(chē),只要能定位出擋風(fēng)玻璃的幾個(gè)關(guān)鍵點(diǎn),就能提取出有效特征,最終定位出這輛車(chē)。就像我們只要識(shí)別出鼻子,就能大概知道整個(gè)臉的輪廓了。”

這個(gè)比喻,頗有點(diǎn)牽牛要牽牛鼻子的意味。研究工作也是如此,認(rèn)準(zhǔn)方向,抓住矛盾,然后使出全力。在多年的研究中,沈春華聚焦目標(biāo)檢測(cè)、圖像分割等方向,在NeurIPSCVPR、ICCV等頂會(huì)上發(fā)表論文150余篇,除了提出RefineNet、FCOS算法、實(shí)例分割新方法SOLO外,還貢獻(xiàn)了AdelaiDet、AdelaiDepth等開(kāi)源工具,好評(píng)如潮。

 

算法也講究“大道至簡(jiǎn)”

蘋(píng)果手機(jī)的Siri系統(tǒng)軟件,相信大家已經(jīng)不陌生了,手機(jī)通過(guò)強(qiáng)大的語(yǔ)音識(shí)別功能,可以輕松實(shí)現(xiàn)與人對(duì)話交流。

可是你能想象,20年前的功能手機(jī),就可以初步實(shí)現(xiàn)語(yǔ)音識(shí)別了嗎?本世紀(jì)初,摩托羅拉手機(jī)就率先推出了“念號(hào)碼打電話”的功能,用戶對(duì)手機(jī)說(shuō)出一串電話號(hào)碼或者通訊錄里的姓名,手機(jī)就能撥打出去。

而當(dāng)時(shí)的開(kāi)發(fā)團(tuán)隊(duì)中就有沈春華。“剛好我當(dāng)時(shí)南大的導(dǎo)師和摩托羅拉有項(xiàng)目合作,我就去了摩托羅拉中國(guó)研究中心實(shí)習(xí),參與了這個(gè)項(xiàng)目,也由此開(kāi)始接觸人工智能相關(guān)研究,”沈春華說(shuō),那時(shí)他常常去圖書(shū)館找紙質(zhì)的美國(guó)電子工程學(xué)會(huì)的最新期刊來(lái)看,自學(xué)了一些基礎(chǔ)算法,“人工智能那時(shí)候才剛剛興起,做的人不多,但我還是對(duì)它著了迷?!?/p>

赴澳大利亞留學(xué)后,沈春華將研究鎖定在了計(jì)算機(jī)視覺(jué)領(lǐng)域。從二維的語(yǔ)音到三維的圖像,這又是全新的挑戰(zhàn),他從頭開(kāi)始學(xué)起,不知疲倦。

博士畢業(yè)后,在澳大利亞國(guó)家通訊信息研究院工作時(shí),團(tuán)隊(duì)帶頭人是計(jì)算機(jī)視覺(jué)研究先驅(qū)之一的理查德·哈特利 (Richard Hartley)。“他們?cè)谏鲜兰o(jì)80年代開(kāi)始做計(jì)算機(jī)視覺(jué)時(shí),還沒(méi)有數(shù)碼相機(jī),他們就是靠著一支筆、一把尺去做圖像數(shù)字化,研究條件跟今天天壤之別。”

沿著前輩的足跡,沈春華從跟蹤學(xué)習(xí)到創(chuàng)新探索,終于在未知的世界里大步踏出自己的路?!安灰^(guò)度設(shè)計(jì)”,這是沈春華一直堅(jiān)持的,在他看來(lái),簡(jiǎn)單有效的算法才是好算法,“不能為了復(fù)雜而復(fù)雜,算法的最終目的還是解決問(wèn)題。”

憑著“大道至簡(jiǎn)”的設(shè)計(jì)思路,過(guò)去幾年,沈春華團(tuán)隊(duì)跟產(chǎn)業(yè)界合作的一些算法被裝在手機(jī)里、電腦里,供上億用戶使用。 


創(chuàng)造更大的社會(huì)價(jià)值

在澳大利亞學(xué)習(xí)工作近20年,沈春華似乎觸摸到了天花板,他想創(chuàng)造更多社會(huì)價(jià)值的想法與浙江大學(xué)不謀而合。

“目前人工智能的發(fā)展,中國(guó)已經(jīng)超過(guò)了大部分西方國(guó)家,僅次于美國(guó)。浙大計(jì)算機(jī)學(xué)科很強(qiáng),我入職的計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室是圖形學(xué)、圖像領(lǐng)域唯一的國(guó)家重點(diǎn)實(shí)驗(yàn)室。站在這樣的高平臺(tái)上,身處人才濟(jì)濟(jì)的團(tuán)隊(duì)中,相信我能和同事們做出一番事業(yè)!”

加盟浙大的半年來(lái),沈春華在學(xué)校、學(xué)院以及國(guó)家重點(diǎn)實(shí)驗(yàn)室的大力支持下建立了自己的研究團(tuán)隊(duì),擁有了寬敞的實(shí)驗(yàn)用地。“團(tuán)隊(duì)之間都是非常開(kāi)放的,我很感激這里自由的科研氛圍。”

沈春華門(mén)下不僅有浙大的本科生、碩士生和博士生,其他一些國(guó)內(nèi)著名高校的學(xué)生也慕名而來(lái)。他會(huì)花很多時(shí)間跟學(xué)生交流,有時(shí)候甚至?xí)?zhēng)得面紅耳赤。在他看來(lái),天賦與勤奮這兩者都是不可或缺的,而能提出創(chuàng)新想法很重要,哪怕花了兩個(gè)月時(shí)間證明是錯(cuò)了也是值得的。

目前,沈春華正帶領(lǐng)團(tuán)隊(duì)在計(jì)算機(jī)視覺(jué)領(lǐng)域繼續(xù)深耕,期待通過(guò)加強(qiáng)與工業(yè)界的合作,給社會(huì)帶來(lái)更多價(jià)值。同時(shí)他還希望能與醫(yī)學(xué)、生物等學(xué)科開(kāi)展交叉研究,讓人工智能的研究工作在更廣闊的土地上開(kāi)花結(jié)果。

 (文字記者:吳雅蘭 攝影:盧紹慶)