在“未來5-10年計算機視覺發(fā)展趨勢”的專題中,各位專家從計算機視覺發(fā)展歷程、現(xiàn)有研究局限性、未來研究方向以及視覺研究范式等多方面展開了深入的探討。
主題組織者:林宙辰,劉日升,闞美娜
討論時間:2019年9月27日
發(fā)言嘉賓:查紅彬,陳熙霖,盧湖川,劉燁斌,章國鋒
參與討論嘉賓[發(fā)言順序]:謝曉華,林宙辰,林倞,山世光,胡占義,紀榮嶸,王亦洲,王井東,王濤,楊睿剛,鄭偉詩,賈云得,魯繼文,王亮
我們將研討內容按專題實錄整理,盡最大可能以原汁原味的形式還原觀點爭鳴現(xiàn)場,希望有助于激發(fā)頭腦風暴,產生一系列啟發(fā)性的觀點和思想,推動計算機視覺領域持續(xù)發(fā)展。
一、開場:山世光、林宙辰
山世光:上次計算機視覺專委會常委會上,在譚院士的倡議下這次RACV嘗試一下相對比較小規(guī)模的、以討論未來與問題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人,都不是講自己的或已經做的工作,而是圍繞著每一個主題講一講自己的觀點和看法。大家在發(fā)言的時候可以無所顧忌,可以爭論。我們會有記錄和錄音,但最后的文字會經過大家的確認之后才發(fā)布。
林宙辰: RACV是希望大家有一些深入的研討,互相挑戰(zhàn),以達到深入討論的目的。第一個主題是未來5-10年CV的發(fā)展趨勢。希望我們這次研討會尤其是CV發(fā)展趨勢這個主題能夠類似達特茅斯會議,產生一些新的思想。
二、嘉賓主題發(fā)言
1. 查紅彬
未來五年或十年CV的發(fā)展趨勢是很難預測的,有時候想的太多,反而容易跑偏。所以,今天我主要從自己認識的角度說說后面我們該做些什么樣的事情。
首先,說說什么叫計算機視覺?我這里給了一個比較嚴格的定義,即使用計算機技術來模擬、仿真與實現(xiàn)生物的視覺功能。但這個定義并沒有將事情完全講清楚,這里把計算機和視覺兩個概念揉到了一起,但到底什么叫計算機、什么叫視覺并沒有說。什么叫計算機大家是能夠公認的。但什么叫視覺,其實在計算機視覺領域里還沒有一個大家都認可的定義。
我們不妨先看看現(xiàn)在計算機視覺領域里有哪些研究內容。先來看看今年ICCV各個分會的關鍵詞,其中最大的幾個領域是deep learning;recognition;segmentation, grouping and shape等。這些領域是視覺嗎?說是圖像處理、分析與理解也能說的通。關鍵問題在于,我們講來講去到底是不是真的在做視覺?這點有必要再想想。
舉個例子--人臉識別:人臉識別現(xiàn)在能識別大量的人臉圖像與視頻,幾十萬、幾百萬人都能夠識別。它是用大數(shù)據(jù)驅動的方式來達到目的的,而且是離線學習的。但識別算法在實際應用中對光照、遮擋等的魯棒性比較差。我們回過頭看看人的人臉識別有些什么樣的功能呢?我們人識別人臉的功能很強,但只能識別很少數(shù)量的人臉,如親戚、朋友、同事等,超過一定范圍之后人是很難識別出來陌生人的人臉的,我們能看到有差別但分不清誰是誰。
第二個,人是在生活情景當中進行主動性的樣本學習。我們之所以能夠認識親屬,是因為我們在日常生活當中與他們生活在一起,建立了各種各樣的關系。我們主動地用樣本來學,利用了不同層次的特征。所以,盡管我們識別人臉的數(shù)量少,但是我們對抗干擾的能力很強。所以我覺得這是人的人臉識別和現(xiàn)在機器的人臉識別之間的差別。也就是,人的視覺中的人臉識別有它明顯的特點,它能很好地應對現(xiàn)實環(huán)境中的視覺處理任務。
那么現(xiàn)實環(huán)境中的視覺處理應該考慮哪些因素呢?我們有計算機、機器人這些智能機器,同時還有其它兩個關鍵的部分。第一個部分是要通過視覺這個接口來同外部世界建立聯(lián)系,同環(huán)境進行互動;第二個是我們講視覺的時候,生物的感知機理給我們提供了很多依據(jù)。這其中,我們要應對的是現(xiàn)實環(huán)境的開放性,以及三維世界的復雜性,我們要面對場景當中很多動態(tài)的變化以及層次性結構的多樣性。
另一方面,生物的感知機理有什么呢?它是一個學習過程,但這個學習是柔性的,并不是我們現(xiàn)在這樣的離線學習并固定的方式。我們現(xiàn)在的機器學習用起來就只是測試。但我們人的學習中測試和學習過程并不是嚴格可分的,它有結構上的柔性,也需要層次化的處理。此外,它有主動性,能夠根據(jù)它的目的和任務主動地進行學習。同時,我們日常生活當中所需要的是一種時序數(shù)據(jù)的處理,是一種增量型的處理過程。從這樣的角度來看,我們將來的計算機視覺研究需要考慮把真實環(huán)境的特點與生物的感知機理融合進來。這樣就會更接近“視覺”這個詞本來的意義。
那這其中有哪些事情我們可以去考慮呢?
首先是學習的問題,F(xiàn)在,深度學習用的很多,但它只是我們人的模式識別當中的一部分功能,對于視覺研究來說,還有很大的挖掘空間。也就是說,我們考慮計算機視覺中的機器學習的時候,不僅僅是深度,還要把網(wǎng)絡的寬度、結構可重構性與結構柔性結合起來。我們要把不同的結構層次研究明白,同時把不同模塊之間的連接關系考慮到網(wǎng)絡里來。我們人的大腦就是這樣的,大腦從視覺的低層特征抽取往上,它具有很多不同的功能性結構在里面,而且這個功能性結構是可塑的。
其次,除了通常講的識別功能之外,我們要把記憶、注意等一些認知機制通過學習的方式實現(xiàn)出來。目前已經有一些這方面的工作了。將來這些機制在計算機視覺里面可能會作為學習的一個核心目標,融到我們現(xiàn)在的整個體系當中。
另外,還應考慮通過環(huán)境的交互這種方式來選擇需要的樣本進行自主學習等。所以,這種學習方式上的結構柔性應該是我們追求的一個目標。
另外一點,我們現(xiàn)在的計算機視覺還比較缺乏對動態(tài)場景的處理。我們現(xiàn)在很多工作是在靜態(tài)場景里面,像人臉識別也是在靜態(tài)場景里面來做。盡管有時候我們用視頻來做,但并沒有深入考慮整個場景的動態(tài)特性,F(xiàn)在動態(tài)目標的跟蹤、檢測、分析、行為的識別與理解等這些工作都有在做,但還沒有上升到一個系統(tǒng)化的水平。我們也應該把更多的注意力放到像移動傳感器的定位、三維動態(tài)場景的重建與理解等一些事情上面來。所以,我認為動態(tài)視覺是未來的另一個重要研究方向。
還有一個是主動視覺。主動視覺是把感知與運動、控制結合起來,形成一個閉環(huán)。計算機視覺里很早就有一個研究課題,叫視覺伺服,是想把控制和感知很好地結合起來。我們的感知一部分是為任務目的服務,另外一部分是為感知本身服務,即從一種主動控制的角度來考慮感知功能的實現(xiàn),以提高感知系統(tǒng)的自適應能力,遷移學習、無間斷學習或終身學習等都可以應用進來。此外,還應當考慮常識、意識、動機以及它們之間的關系。也就是說,我們要把視覺上升到有意識的、可控制的一個過程。
如果我們把前面提到的時序與動態(tài)處理等結合起來之后,應該更多考慮在線學習。我們不應該全部依賴目前這種離線學習、僅使用標注數(shù)據(jù),而是應該在動態(tài)的環(huán)境當中,根據(jù)運動與動態(tài)數(shù)據(jù)流本身的特性來做預測與學習。這樣可以把前面提到的記憶與注意力等一些機制結合起來,最終實現(xiàn)一種無監(jiān)督的在線學習系統(tǒng)。這樣一來就能把現(xiàn)實環(huán)境中的一些特點與變化考慮進來,形成一套新的理論。而這個理論,跟現(xiàn)在的深度學習、圖像處理分析與理解等相比,會更接近我們講的視覺這個概念。
2. 陳熙霖
預測可見未來是一件風險極大的事,對于這個命題作文我只能說個人的觀點。我更愿意從歷史的角度來看這件事情。
首先,我們回顧一下計算機視覺的發(fā)展歷程。我把過去幾十年的過程分為以下幾個階段。第一個階段我稱之為啟蒙階段,標志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個本科生做的手眼系統(tǒng)。這個階段對計算機視覺的估計過于樂觀,認為這事太容易了,很快就可以解決,正如S. Papert的報告中寫到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現(xiàn)這個問題遠比想象的困難。
從七十年代初期開始進入第二個階段,我稱之為重構主義,這是以D. Marr的視覺框架為代表的。這個框架在Marr的總結性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對象恢復到三維表達。其基本過程是:圖像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(2.5D skecth)à以觀察對象為中心的3D表達。這個過程看起來很漂亮,但卻存在兩方面的問題——首先是這樣的過程是否是必須的,其次是如果都試圖恢復三維,這樣不論對感知測量還是計算是否現(xiàn)實。我個人認為三維在計算機視覺中的作用也是有限的。這個階段的工作也導致了上世紀90年代初對計算機視覺研究的反思和爭論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。
第三個階段我稱之為分類主義,反正只要能識別就好,不管白貓黑貓抓住老鼠就好。人臉識別、各種多類物體識別等都在這個階段大行其道,研究者們采用各種各樣的方法,從研究各類不變算子(如SIFT、HOG等)到分類方法(如SVM、AdaBoost等)。這個階段推進了識別問題的解決,但似乎總差最后一公里。
最近的一個階段我稱之為拼力氣比規(guī)模階段,其核心是聯(lián)結主義的復興,這得益于數(shù)據(jù)和計算資源的廉價化。這類方法在各種分類問題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西,過去我們都在講找一個美妙的辦法。如同我們希望瞄準目標,以最小的代價擊中目標,F(xiàn)在這類方法更像是炮決,今天我們似乎進入了這樣的炮決時代。
那么未來會是怎么樣的?從前面的發(fā)展歷史來看,計算機視覺經過幾十年的發(fā)展進入了野蠻人的時代。什么叫進入野蠻人的時代了?今天大家說人工智能熱,可幾乎所有拿來驗證人工智能的例子都是和計算機視覺相關的。而今天很多所謂的計算機視覺研究就是拿深度學習訓練一個模型,所以說這是個野蠻人的時代。那么野蠻人時代有什么問題?
我們看上一個和野蠻人時代相關的歷史——羅馬帝國。羅馬帝國是被野蠻人消滅的,羅馬(更具體的是指西羅馬)從建國到被滅亡,中間大概有500年。而且西羅馬被滅了以后,還有一個叫神圣羅馬帝國,按照尤瓦爾·赫拉利《人類簡史》上的說法后者既不神圣也不是帝國。當年羅馬帝國也是所有的東西都講究漂亮美麗——斗獸場、引水渠以及打到哪修到哪的條條大路(通羅馬)。計算機視覺早年的研究者也是天天追求漂亮,要數(shù)學上美、物理上美等等,就和當年羅馬帝國一樣,F(xiàn)在也真的和羅馬帝國一樣了,我們遇到了蠻族人。
這個蠻族人是誰?就是深度學習,和過去羅馬人關心文明,蠻族人關心財富一樣,在計算機視覺的研究上,我們也面臨著如何選擇的問題。當然,歷史也會驚人地相似,蠻族人占領羅馬以后也不是什么都沒干。后來他們建立神圣羅馬帝國,到后來導致文藝復興。今天計算機視覺的研究在我們看來也需要一個文藝復興。
什么是我們的文藝復興?我們當下的計算機視覺就處在這么一個需要思考的時期。而不是一味地倒向深度學習,F(xiàn)在有些研究走向比蠻力的階段,就跟打仗比坦克、大炮的數(shù)量一樣,靠拼GPU的規(guī)模和計算能力。下一步,我們需要往哪里走?這是現(xiàn)在這個野蠻人時代需要思考的。
預測未來五到十年這是一個風險極大的問題。所以我只能通過前面講的歷史和我的一點思考談談對未來的一些可能。
首先,一個值得關注的未來趨勢是從識別到理解,套用古人的說法就是從知其然到知其所以然。過去十多年計算機視覺在識別方面取得了顯著的進展,但是現(xiàn)在的識別遠遠不是我們所期望的識別。例如你教它識別一個杯子,它不會想到杯子和水有任何關系,不會想到杯子有任何的其他功能,因而完全是填鴨式的。今天的識別遠遠不是可解釋的。談到可解釋,我認為在計算機視覺領域的可解釋應該是對結論的解釋,而不是解釋網(wǎng)絡行為,前者應該更有價值。那么要解釋這一切靠什么?應該是靠某種形式的邏輯關系,這種關系可以通過語言表達,語言應該起到橋接作用。這里的語言和自然語言有關系也有區(qū)別,可以是獨立于我們自然語言的,是機器自己對世界理解的語言。換句話說,我們把世界的物體重新編碼起來,然后把物體和物體,物體和環(huán)境的聯(lián)系建立起來就好。有了這樣的從基本屬性到對象直至環(huán)境的關系,就有可能實現(xiàn)從知其然到知其所以然。所以我覺得未來最重要的趨勢就是從無需知識支撐的識別到需要知識支撐的理解,或者說從單純的Bottom-up的識別到需要知識啟發(fā)的具有反饋、推理的更廣義的計算機視覺,這也是我自己這幾年特別關注的研究方向。
其次,值得關注的一個趨勢就是對空間感的有限需求。關于為什么動物需要視覺,主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識別能力;其次是保證不會因為對空間的錯誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺最重要的就是解決這兩件事情。那么為什么講對空間感的有限需求?我們的三維空間感,只是在相對比較近的時候,才需要很精確。在距離稍遠一點的情況下,大多數(shù)時候其實不關心精確的空間位置,而可能關心一些如遮擋、順序等關系。另外,如果你試圖把一切對象都用三維來表示的話,不管是從計算的代價還是從可實現(xiàn)性來講都很難。試想恢復一個一米遠處的對象,可以做得很精確,而對于一百米或者更遠的對象,如果希望保持相同的量化精度,對深度值的量化就會成問題。這就是說的有限需求的含義,但是我覺得這件事情一定很重要,特別是在較近的時候。
第三個值得關注的趨勢就是不同模態(tài)的結合,即所謂聰明合一,人的聰明離不開耳聰目明。這里的模態(tài)不僅僅限于視聽覺,還可以包括不同的二維、三維的視覺傳感信息等。生物的感知從來不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個問題是不同模態(tài)間的對齊與因果問題。如果同時存在從多個模態(tài)獲取的信息,時空對齊是非常重要的挑戰(zhàn)。與時空對齊相關的另一個問題是因果關系,雖然我們希望獲得因果,但絕大多數(shù)時候得到的僅僅是關聯(lián),兩個現(xiàn)象之間可以是第三個因素導致的,如同云層間放電導致電閃和雷鳴,這兩件事是關聯(lián)的,但絕不是電閃導致雷鳴。在絕大多數(shù)情況下我更傾向于去探索關聯(lián)而不是因果,特別是在數(shù)據(jù)驅動的模型下,離開機理試圖發(fā)現(xiàn)因果是困難的。但在未來的計算機視覺研究中不同模態(tài)的結合和關聯(lián)是一個重要的趨勢。
第四個需要關注的趨勢是主動視覺,所謂主動就是在視覺系統(tǒng)中納入了反饋的機制,從而具有選擇的可能。視覺如果僅僅以獨立的形式存在,則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數(shù)規(guī)模的增加,生物視覺由于有了主動選擇的機制,因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當計算機視覺的研究不僅僅是為了驗證某個單一的功能時,上述生物視覺的平衡一樣需要在計算機視覺系統(tǒng)中考慮,實現(xiàn)從感知、響應到行為的閉環(huán)。從被動感知走到主動的感知,這是從算法到系統(tǒng)的一個重要趨勢。將視覺的“看”與“響應”和“行為”構成廣義的計算機視覺系統(tǒng),通過有主動的“行為”進行探索,實現(xiàn)“魂”和“體”的合一。這對視覺應用系統(tǒng)是至關重要的——例如一個經過預訓練的服務機器人,可以通過在新環(huán)境中的主動探索,實現(xiàn)整體智能的提升。所以我認為這是未來視覺應用系統(tǒng)的重要趨勢。
我沒有講具體的算法哪些是重要的。我想說一件事情,就是關于深度學習,我覺得未來深度學習就會像今天計算機里看到的寄存器、觸發(fā)器、存儲器乃至CPU一樣,成為基本構件。關于趨勢,延續(xù)前面的劃分,計算機視覺將進入一個知識為中心的階段。隨著深度學習的廣泛應用,計算機視覺系統(tǒng)將不僅處理單一任務。在復雜視覺任務的處理中,主動視覺將起到重要的作用。通過主動的響應和探索,構建并完善視覺系統(tǒng)對觀察世界的關聯(lián)(因果)關系并借此理解空間對象的時空關系、物理屬性等。這算是我對今天討論問題的個人預測。
3. 盧湖川
剛才前面兩位老師已經提綱挈領的提了一些觀點,我可能有一些和他們是相似的。
從理論方面來講,我覺得目前深度學習的理論好像有點走不太動了。具體來說,從Backbone的發(fā)展來看,網(wǎng)絡結構的設計,基本上沒有更多新的內容。另一方面,某些領域還是比較熱門的,發(fā)展比較快。比如說自然語言處理(NLP)和視覺的結合,這幾年取得了很多進展,特別是聊天機器人等相關的實際需求,驅動著VQA等技術都有較大的進展。尤其是基于圖的方法和視覺結合在一起可能會越來越熱。
以知識圖譜為例,如果知道一些先驗知識,知道一些知識圖譜的話,可能會更好的去理解圖像或者視頻。例如,給定一幅圖像,里面有一只貓和一個魚缸,貓用爪子抱住了魚缸,還盯著魚缸里面的魚,如果我們知道知識圖譜里貓和魚的關系, 我們就能很好的描述出貓想吃魚缸里的魚,從而更好的幫助視覺理解圖像或視頻里目標和目標之間的關系。所以說,我覺得基于圖或圖譜的方法和視覺結合在一起未來幾年會有更大的發(fā)展。
第二方面,我覺得三維視覺會繼續(xù)快速發(fā)展。從前兩年開始冒頭,到現(xiàn)在已經較為火爆,不僅僅局限于三維場景重構等領域,最近基于三維視覺的檢測與分割等都有一些優(yōu)秀的工作涌現(xiàn)。隨著基于各種各樣的嵌入式設備和手機端的需求,像華為手機已經有三個背面的攝像頭,甚至多個攝像頭(它的三個攝像頭的定義,一個是超廣角的,一個是廣角的,另外一個是高精度的攝像頭,不同的分辨率,可以更多的去模仿人的視覺方式)。由于人觀測世界本身是三維的,所以移動端的這種大量的應用會牽引著三維視覺在這方面越來越走向更深入的發(fā)展。
第三方面,最初我們提到深度學習時,通常都會說手工設計的特征(handcrafted feature)有各種各樣的不好,而深度學習是一個端到端的網(wǎng)絡。實際上,深度學習的網(wǎng)絡結構也是手工設計的(handcrafted)。目前,網(wǎng)絡結構搜索NAS興起之后,我覺得在這方面可能會有更多的一些改善,能夠把一些常規(guī)的操作,包括一些常規(guī)的模塊都融入進去,來不斷優(yōu)化網(wǎng)絡結構而不是手工設計(handcrafted design)。我覺得未來幾年在這方面,甚至包括網(wǎng)絡結構的壓縮和裁剪方面都會有更多的進步。
第四方面,深度學習興起之后,我們看到誕生了一大堆的數(shù)據(jù)集,并且都是有ground truth標注的數(shù)據(jù),在其驅動下,深度網(wǎng)絡達到了一個比較好的性能,目前絕大多數(shù)的數(shù)據(jù)集在性能方面基本上也趨于飽和了,但是距離實際問題仍然有較大的距離。另一方面,人對世界的認知基本都是小樣本學習的結果,和目前的大數(shù)據(jù)驅動的模式不太一樣。所以能否將當前大數(shù)據(jù)驅動的方式和人參與的方式結合起來?現(xiàn)在也有很多這樣的論文來研究人主動參與的或者是human in the loop的學習方式,可以把人對ground truth的主動標記結合起來,引導快速的學習,甚至把性能提高到一個更高的高度。
第五方面,視頻理解在前幾年開始有初步的發(fā)展,特別是到這幾年有更多的需求和深入的趨勢。因為現(xiàn)在基于圖像的所有任務做到一定程度之后可能都做不動了,或者說沒有更多的花樣了,那么對視頻的各種理解越來越多,包括視頻摘要、視頻場景分類、廣告識別、臺標識別等等,很多這方面的應用,我覺得未來幾年會有更長足的發(fā)展。
我覺得在主題(topic)方面,未來會有更多的發(fā)展領域。隨著剛才陳老師說到野蠻人的時代來了,大家參與視覺研究的熱情很高,不光是學術界,產業(yè)界對這種需求也是非常巨大的。因此我覺得目前深度學習領域,視覺會在各個行業(yè)縱深發(fā)展。
舉個例子,這兩天有一個公司提出這樣的一個需求,即鞋印踩上去之后,希望能識別是哪個犯罪嫌疑人來踩的,這個就是足跡識別。進一步,他們想通過這個足跡來判斷這個鞋的鞋面是什么樣的,是什么牌子的。然后通過這些線索進而去庫里搜索比對,搜索完了之后,再去視頻里面去找犯罪嫌疑人,即穿這種鞋的人到底是誰。這個過程中,一步一步的從源頭開始到后面,形成了一系列的視覺問題,行業(yè)的這種縱深發(fā)展需求是無限巨大的。
視覺里面還有很多之前沒有想到的事情在不斷進步,兩天前我參加了工業(yè)機器人展,看到有一個撿包裹的機器人。我們都知道快遞小哥要送了一大堆包裹,各種各樣的包裹都有,能否在包裹車拉來一車包裹后,讓機器人去分類呢?我在展會上看到就有這么個機器人,它會自動的去識別是什么樣的包裹,而且知道它的三維的曲面是怎么樣,因為包裹放的角度都完全不同,它會調整機械臂,適應包裹的三維曲面的法線方向,去吸附它。我感覺在不同行業(yè)實際需求下,像分割、三維建模等視覺技術都會快速在各個行業(yè)里得到深入的發(fā)展。
另外,我覺得在醫(yī)療圖像方面也會有很大的進展。醫(yī)療圖像現(xiàn)在更多的是各個疾病的檢測。昨天跟一個醫(yī)療單位在一起交流,他們提供了一個很大的平臺,它的最終目標是通過病人的不同模態(tài)的信息,來最后綜合判斷病人到底是什么樣的病。不僅僅是關注醫(yī)學影像信息的,還有一些其他的一些檢查結果,其實是一個跨模態(tài)的融合,包括圖像標注、病案標注等等,他們都使得醫(yī)療圖像未來和視覺的結合會越來越緊密。
目前5G不光是速度快容量大,它其實給計算機視覺AI帶來了一個更廣闊的前景,特別是無人車方面,剛才幾位也提到了三維的地圖等。跟中國移動交流了之后,發(fā)現(xiàn)他們的高精度地圖,可以通過5G帶寬實時傳輸,是可以看到馬路崖子這種厘米級的精細度。所以我覺得5G+AI會為我們視覺相關領域的發(fā)展帶來巨大的機會。以上就是我對未來5-10年視覺發(fā)展趨勢的一些理解。
4. 劉燁斌
我主要圍繞三維視覺、虛擬現(xiàn)實和人工智能的發(fā)展談點想法。虛擬現(xiàn)實是2016年火了之后一直發(fā)展比較平穩(wěn)。2018年習總書記有過關于虛擬現(xiàn)實的重要性的指示,虛擬現(xiàn)實技術改變了未來的交互方式,主要是這種人與環(huán)境、人與人之間的交互方式可能會變得更加自然簡單,并且取代鍵盤、手機觸屏等現(xiàn)有的功能。
三維視覺的趨勢是做視覺信息的重構,提供三維的內容給虛擬現(xiàn)實,這個是三維重建,三維虛擬現(xiàn)實通過真實渲染能夠產生很多數(shù)據(jù),為視覺問題服務。很多視覺問題皆有數(shù)據(jù)驅動,數(shù)據(jù)如何得來,越來越多的部分時通過三維引擎來得到。計算機視覺的研究對象有好幾類,室外的、室內的、包括人體人臉還有手,還有一些醫(yī)學和生命對象。以人為本是計算機視覺的核心,所以我主要以人作為視覺研究對象,舉例說明計算機視覺的發(fā)展趨勢。
從人為研究對象的角度,虛擬現(xiàn)實有三個目標,也即三個I,一個Immersion,一個Interaction,一個Imagination。三者都是虛擬人(AI、機器等)和真實人之間的作用關系。首先,虛擬人在視覺外觀上是真實的,未來的虛擬人不管是真實做出來的機器人還是存儲在計算機中的,都有逼近真人的發(fā)展趨勢,使得交互更加友好。而這個目標,本質上就是人體的三維重建。第二個要素是人機的交互,虛擬人一定要能感知真實人的行為,包括手勢識別,行為識別,情緒等這樣的一些理解。最后,虛擬人需要對場景有反應,能夠智能化,他能夠根據(jù)你的行為智能地做下一步的處理,保證產生一個真實的虛擬人。
總體來說,虛擬現(xiàn)實的智能建模技術被列為新一代人工智能發(fā)展規(guī)劃里的八大關鍵共性技術,重點突破虛擬對象智能的行為建模技術,提升虛擬現(xiàn)實中智能對象行為的社會性、多樣性、交互逼真性,實現(xiàn)虛擬現(xiàn)實和增強現(xiàn)實等技術與人工智能的有機結合和高效互動。上述定義中的重點是行為建模,行為必須是接近人的智能的行為,才能有交互的逼真性等等。圍繞這個人體的建模,目前的目標一個是要精準的重建,第二是要規(guī)模化的采集,第三是要便攜式(手機單圖像也能做),第四是速度足夠快,能夠響應交互的要求,第五就是現(xiàn)在一個大的發(fā)展趨勢,建模的結果含有語義信息,即語義化建模,包括服裝,人臉,頭發(fā)等。最后第六就是智能生成,即重建結果能真實動畫展示,F(xiàn)有的三維視覺重建技術很難滿足這六個方面的要求,所以圍繞這些目標還有很多研究需要做。
人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統(tǒng),它實現(xiàn)實時的,多相機下的人體動態(tài)三維重建。但這個系統(tǒng)的缺點是,它要求具有主動光,導致系統(tǒng)復雜度高,實時性和便捷性成為矛盾。實現(xiàn)實時高精度三維動態(tài)重建,也是未來的一個學術研究趨勢。我們研制的單個深度相機實時的重建,雖然速度和便捷性都趨于完美,但精度還有待提高。單圖像人體三維重建,雖然現(xiàn)在的質量還不算完美,但我覺得這是一個很實用的技術應用趨勢。通過單個圖像我們就可以來簡便地重建它的三維模型,未來肯定是能大放光彩的。單圖像人手動態(tài)三維重建,通過單個RGB監(jiān)控相機就可以來實現(xiàn)實時性,可以看出三維重建輸出了語義信息,已經取代了傳統(tǒng)二維計算機視覺識別問題成為發(fā)展趨勢。
服裝產業(yè)占據(jù)國民生產總值的6%,數(shù)字化服裝是一個非常重要的計算機視覺應用之地。這個是展示我們最新做的一些事情,通過單個視頻,可以網(wǎng)上的視頻,就能通過語義的建模來實現(xiàn)比較高質量的服裝三維建模,對一些VR、AR都可以應用,它是通過對人體和服裝的解耦,語義信息的加入,包括光照和紋理的解耦來實現(xiàn)。這種東西未來可以產生一些應用,包括改變體型,包括增強現(xiàn)實的模擬,右邊就是一個互聯(lián)網(wǎng)視頻的重構,它可以改變服裝的顏色等等。我覺得這種便攜實時的三維重建的趨勢就是從低層次的三維建模,包括體素的、網(wǎng)格的,逐漸走向高層次的三維建模,包括部件級的重建、物理信息分離、感知物理動力學、特征空間的提取。這些高維信息能夠智能地建模和生成,響應環(huán)境,控制和預測。包括圖形學里做的一些研究,好玩的比如能讓一個人去動的虛擬對象的這種物理的約束,包括我們自己去爬山這種增強現(xiàn)實的技術也會引入進來,把物理、智能響應引入進來。
最后再談談更有廣泛意義的一些動態(tài)三維重建問題。例如,醫(yī)療方面的比如外科手術的術野場景的三維感知,就是個非剛性復雜動態(tài)場景的三維建模問題。這是展示肝臟手術的視頻,能夠動態(tài)跟蹤它的形狀,三維掃描的CT可以在動態(tài)的場景下實時非剛性映射,輔助醫(yī)療和手術。
還有就是在生命科學領域的動物行為三維重建,我覺得動物是未來視覺的一個很大的可以應用的點,我們叫計算行為學,也叫神經行為學。它研究的是行為跟神經活動的映射關系,通過采集動物行為數(shù)據(jù)來進行分析。行為學上對人進行分析非常難,因為人的基因差別非常大。但對于動物來說,可以做到每個小鼠基因都是一樣的,像譬如在豬、猴子上也比較容易控制一些其他的差別的因素,所以對醫(yī)療,包括基因控制都會有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關的文章。
這里面其實有很多問題,包括群體對象自然環(huán)境下的交互,非剛性的捕捉,高層語義檢測,互遮擋三維恢復,時間序列分析,有很多研究發(fā)表在Nature上。動物行為三維重建研究趨勢就是希望動物更加自由地在實驗環(huán)境里去生活,被記錄,藥物干預后提早發(fā)現(xiàn)行為差別。這樣的研究還是很多的,包括可以提取維度更高的特征。我們也是在做這樣一些研究,這里面有四個小豬,有兩個是有漸凍癥的,我們通過多視點拍攝,希望重構三維小豬的動作,通過重建動作來識別漸凍癥小豬的行為特點,對未來的基因調控和藥物治療帶來幫助。
5. 章國鋒
幾位老師已經從計算機視覺大的層面對未來5-10年發(fā)展趨勢做了展望,我從我熟悉的三維視覺和AR方面對未來5-10年的發(fā)展趨勢發(fā)表一下自己的看法。
我的研究方向主要是SLAM,所以我就先從SLAM的角度做一些發(fā)展趨勢的展望。我們都知道視覺SLAM是很依賴特征的,未來SLAM技術的發(fā)展趨勢必然會從以前的底層特征比如點、線、面,向高層特征比如語義、文字、物體等趨勢發(fā)展。并且,現(xiàn)在已經有一些提取運動規(guī)律的工作比如人的步態(tài)規(guī)律、機器人和無人車的運動規(guī)則等等,來進一步提高定位的穩(wěn)定性。
有一個趨勢是朝著多傳感器融合的方向發(fā)展,其實每個傳感器都有著它的優(yōu)點和缺點,那么最好的方法就是把這些傳感器的信息都融合起來,比如說隨著深度相機的流行,一些手機上都安裝了深度攝像頭,還有Wifi、藍牙、地磁信號等等,把這些信號都融合起來肯定可以提升定位的穩(wěn)定性。未來還會有更多類型的傳感器出現(xiàn),比如這幾年新出來的事件相機、偏振相機,相信未來5-10年還會有一些新的傳感器出來。通過多傳感器融合,我相信SLAM技術會做的越來越精準和魯棒。
還有一個趨勢就是隨著5G時代的到來SLAM會朝著云和端結合的趨勢發(fā)展,比如說現(xiàn)在高精度地圖的構建是放在云上,并且支持動態(tài)的更新。這就很自然地涉及到移動端上的SLAM和云上的高精度地圖如何做緊耦合,如何利用語義地圖的信息來更好地定位,不同終端如何協(xié)同來做SLAM。
現(xiàn)在主要是深度學習的時代,對于SLAM來說,目前已有不少基于深度學習的工作,相信未來還會有更多這方面的工作涌現(xiàn)出來,比如如何學習一個更好的特征,如何學習更好的策略去解決SLAM中手寫規(guī)則的困境,可能還會有做得很好的端到端的位姿學習。還有一個非常重要的就是語義信息的融合,比如說,結構的信息怎么跟語義信息做更好的融合,就像人眼一樣看世界。我覺得這是未來的一個發(fā)展趨勢。
以上是關于SLAM方面的。然后,三維重建,劉老師前面已經討論得很多了,尤其是動態(tài)場景的重建,我這里稍微再做一點補充。我覺得未來物體的三維掃描方面,一些便攜式、移動式的RGBD傳感器會越來越流行,比如說基于結構光和ToF的深度傳感器,未來我相信還會有一些新的傳感器出現(xiàn),可以幫助實現(xiàn)實時高效的三維重建。這里重建的不只是幾何和紋理,還包括材質、語義等等;谡掌/視頻的三維重建技術未來幾年也還會有一些進展,比如實現(xiàn)更高的幾何精度和紋理,能得到更細粒度的語義,并且結合分布式平臺的算力實現(xiàn)更高效的重建。
在大規(guī)模場景的三維掃描方面,目前基于相機拍攝的視頻或者照片已經可以做到城市級場景的三維重建。一般都是通過無人機航拍,然后重建出來。如果進一步結合深度傳感器(比如Lidar),相信可以實現(xiàn)更高精度的場景構建。再結合分布式平臺的計算能力,實現(xiàn)整個城市甚至整個地球的完整三維地圖的重建將不是問題。當然只是靜態(tài)場景的重建還不算太難,更難的是怎么實現(xiàn)動態(tài)物體的重建和場景的動態(tài)更新,因為真實的世界不是靜態(tài)的,而是動態(tài)變化的。我覺得未來可能會通過相對低成本比如多傳感器融合的方式來實現(xiàn)四維的場景地圖的動態(tài)更新。包括前面講的通過三維掃描獲得的物體模型可以注冊到真實世界的三維地圖中,來實現(xiàn)三維信息的共享和傳遞。
然后,我想談一下識別和重建的關系。識別和重建未來5到10年會往更深層次的融合。目前三維重建基本上是bottom-up的方式,對先驗知識的利用不夠充分,未來5-10年可能會誕生top-down的方式,比如說先識別后重建,或者兩者同步進行。識別能夠提供更高層次的結構先驗,反過來重建能夠幫助做更好的物體識別,因此未來會更加緊密的融合。另外,也還需要深度學習和幾何優(yōu)化算法的融合,才能最終構建出兼具幾何外觀、語義信息、結構化的、可動態(tài)更新的3D場景表示。
另外,因為我本人一直在做AR方面的應用,所以也想談一下關于AR/VR、AI和三維視覺協(xié)同發(fā)展的趨勢。其實AR主要是AI和三維視覺的應用。這三者如果能夠緊密協(xié)同發(fā)展,那么我相信未來五到十年就可以實現(xiàn)一個地球級的現(xiàn)實世界的數(shù)字化。左邊這個圖是華為前不久提出的Cyberverse數(shù)字現(xiàn)實技術,它主要是通過相機、Lidar等傳感器對真實世界進行掃描并構建高精度地圖,然后基于高精度地圖來實現(xiàn)室內外精準的定位和導航以及各種AR效果。Cyberverse實際上也不是一個完全新的概念,Magic Leap在2018年就提出過類似的概念Magicverse,旨在將大規(guī)模物理世界和數(shù)字世界持續(xù)地融合在一起。如右圖所示,Magicverse包括好幾個層,主要兩種類型,一類是叫做基礎層(包含物理世界和數(shù)字世界),還有一類叫空間應用層;A層最底下是物理世界,然后在物理世界上構造一個對應的數(shù)字世界,然后再上面就是空間應用層,包括流動性、能源與水、健康與保健、通訊、娛樂等。
要實現(xiàn)這樣一個數(shù)字化的現(xiàn)實世界,最關鍵的一點就是對物理世界進行三維數(shù)字化,也就是如何對高精度地圖進行采集、構建和更新。我相信未來必然是朝著多模態(tài)、多傳感器采集和融合的方式發(fā)展,因為每個傳感器都有著它的優(yōu)點和缺點,需要融合互補。這里最難的問題可能是怎么進行動態(tài)更新。我相信眾包式的采集和更新是實現(xiàn)這個目標的有效方式,可以實現(xiàn)低成本、高頻次的更新。高精度地圖除了三維還應該包括語義信息,因此語義信息的提取也是非常重要的,而且需要滿足不同應用的語義信息,比如說定位、AR/VR的展示、行為分析等等。這就要實現(xiàn)不同粒度語義信息的提取,這里面的粒度可以大到整個商場,再到一個門店,再小一點就是一個商品。除了物理世界的三維數(shù)字化,還需要對人的行為進行數(shù)字化,運動行為、消費的行為、社交行為等等。
對于這樣構建的人的行為也好、三維空間也好,再結合SLAM、AR技術,我們可以實現(xiàn)地球級的AR應用。當然,這里首先需要解決云端的高精度地圖怎么與終端SLAM緊耦合,這樣才能夠實現(xiàn)長時間大范圍的精準定位和高品質虛實融合。松耦合模式會有一些缺陷,誤差累積會很快,穩(wěn)定性也不夠好;谶@樣的一種方式,我們可以實現(xiàn)室內外的分米級甚至到厘米級的定位和導航。
另外,我們知道5G時代很快就要到來了。目前的AR計算還主要是在終端,比如手機、AR眼鏡等。未來有5G的情況下很多計算都可以放到云或邊上,對終端的計算要求相對弱化,終端未來更多的是提供數(shù)據(jù)采集、連接和顯示的能力。因為有云端算力的加持,高品質的AR效果可以得以實現(xiàn),比如高逼真的物理效果模擬,準確的遮擋效果和虛實交互,精準的光照估計和電影級的真實感繪制與虛實融合效果就成為可能。在5G時代,一方面?zhèn)鬏斔俣确浅?,另一方面有云端算力加持,未來應用APP甚至都不要預裝,我們打開一個APP就像在瀏覽器上輸入網(wǎng)址或電視機上切換頻道一樣便捷。
以上是我對三維視覺和AR方面未來發(fā)展趨勢的看法,供大家參考。
三、專家討論發(fā)言
謝曉華:
我感覺我們是不是忽略了一點,就是硬件發(fā)展。例如我們之前做超分辨率,做了很多,但是后來高清相機一出來,很多工作就白做了。那會不會在未來的十年范圍內視覺傳感器這一塊會有比較大的突破,然后剛才提到的一些工作就沒有必要去做了。
林宙辰:
我想說一說什么樣的計算體系適合做計算機視覺?現(xiàn)在我們都是基于馮諾依曼體系,但是人的視覺處理過程跟馮諾依曼體系有很大的差別。如果是在新型的計算平臺上面,是不是很多計算機視覺的問題能更好或更高效的解決,我覺得是可以探討的。另外一個,我贊成主動視覺和在線學習。我覺得現(xiàn)在的視覺系統(tǒng)觸碰到了一點是,每個人都是from scratch,這樣的話精力有限你就只能做一個非常簡單的任務。我覺得將來可以做一個像wiki一樣的項目,全世界都可以貢獻,這樣的話大家都在共同構建一個統(tǒng)一的系統(tǒng),而且這個系統(tǒng)可以利用網(wǎng)絡上的所有數(shù)據(jù),可以自我進化(evolution)。然后這個系統(tǒng)大家都可以公用,這樣就可以解決每個人的系統(tǒng)不停的從頭學習的問題,因為單個人做的話只能做很小的一部分。
林倞:
我想談一談關于benchmark或者關于AI的評價系統(tǒng)或者CV評價系統(tǒng)的好壞的基準。因為我認為我們很多的研究是受這個基準所驅動的,或者說是跟這個benchmark是相互驅動的,F(xiàn)在CV的趨勢是融合、協(xié)同等,那么未來我們可能會需要一種新的評價體系來看CV的狀況,可能不需要在一個特別的識別問題或者分割問題上達到特別高的精度,但是我們同時接入理解、分析、可解釋性等,這樣才能評價一個AI或者CV系統(tǒng)的魯棒性,更像人一樣的而不是把它歸類為一個分類問題或者重建問題,我覺得這個可能是我們要很具體的去討論和去發(fā)現(xiàn)的問題。
山世光:
我們討論十年后視覺可以發(fā)展到一個什么樣的水平,可是我們并沒有定義清楚,我們該如何從總體上度量視覺智能的進步,比如說現(xiàn)在視覺智能水平是60分,十年后我們可以做到80分,這個沒有明確的標準。包括什么是視覺理解、圖像理解,怎么定義呢?比如我們做人臉識別,很清楚,就是以某個數(shù)據(jù)庫上的識別率為準?墒亲鳛橐粋general的視覺我們好像沒有這樣的一個標準。
另外,作為一個標準的benchmark的角度來說的話,是不是人的視覺也是分兩種,一種是通用的視覺,一種是專用的視覺。比如我們普通人看不懂醫(yī)療影像但專業(yè)醫(yī)師就可以,但是我們都有通用的視覺的能力。這兩類視覺實現(xiàn)的路徑是一樣的還是不一樣的?
還有一個就是剛才提到的十年后我們可能把地球都數(shù)字化了,但是這個數(shù)字話不見得是個簡單的數(shù)字化,比如是地圖化的,那地圖化的話對我們做視覺的有什么樣的幫助呢?我覺得是不是類似于出現(xiàn)了一個視覺智能測試的“靶場”,我們的很多東西都可以在這個“靶場”里去測試。例如很多做自動駕駛的系統(tǒng)初步的訓練都是用的合成的模擬數(shù)據(jù)。那么也許我們有了一個很好的關于地球的數(shù)字化模擬的時候,我們就有了一個很好的視覺的“靶場”,這個“靶場”既可以做訓練也可以做測試。
此外,要不要做視覺常識?大家都在說知識,我覺得知識這個體系如果沒有常識,感覺有些空中樓閣。我們做視覺先得有視覺常識,有常識才有可能有所謂的理解,我不知道是否正確,我覺得這個問題可以討論。
陳熙霖:
關于理解的評價問題,我們可以想想人是怎么做的。對于人類形成體系的知識我們確實有benchmark,確實有考題。可是對人類探索中的知識是沒有考題的。大家理解的知識最后形成一個公共認可的交集,最后逐步拓展。所以,我個人認為在未來的推動理解的研究中,benchmark不能沒有,但是不能唯Benchmark。如果說過去近30年中Benchmark推動了計算機視覺的發(fā)展,今天可能成為束縛了計算機視覺發(fā)展的一個因素。我經常跟學生為此爭論,一些學生認為離開可評測數(shù)據(jù)集的工作就不是研究。而對真正智能的研究可能就是沒有Benchmark——沒有最聰明,只有更聰明。對于場景理解一類的任務而言,一個機器可能發(fā)掘出100組關系,另一個機器可能發(fā)掘出300組關系,那后者的理解能力可能就超越了前者,如果前者的關系是后者的真子集,那后者就一定具有更強的理解能力。當然更多的是兩者可能具有互補性,如同人類的三人行必有我?guī)煛?
第二件事情是說通用視覺與專用視覺,我的觀點是對于醫(yī)療判讀這類的所謂專用視覺其實遠遠超越了視覺本身,它不僅僅是視覺,醫(yī)生的判斷是在視覺現(xiàn)象基礎上的知識/邏輯推理。
胡占義:
這個觀點我有點不大同意。我最近十多年一直在研究生物視覺,視覺絕不是說就是感知,視覺包含認知。僅僅視覺物體識別這個具體問題,人類就有約三分之一的大腦皮層參與。當然,某個大腦皮層區(qū)域參與視覺問題,絕不能說該皮層就是視覺皮層。大腦的大多數(shù)高級皮層,都在于加工多種感覺信息融合后的信息,進行認知決策和行為規(guī)劃。所以說視覺問題,它涉及真?zhèn)大腦,包括皮層和皮下組織的聯(lián)合加工,絕不是完全由大腦的視覺皮層完成。視覺皮層是指主要對視覺信息進行加工的皮層,很多皮層參與視覺信息加工,但不是視覺皮層。
我先說第一個觀點,人的視覺和計算機視覺是有區(qū)別的,如果說把人類視覺的腦加工機制完全解釋清楚,我覺得和搞清楚宇宙起源的難度沒有區(qū)別,我研究了差不多十五六年生物視覺,據(jù)我所知,神經科學領域目前對視覺V1區(qū)研究的比較清楚,V2區(qū)已不太清楚,更不用后面的V4和IT區(qū),以及前額葉(PFC)等高級皮層。視覺問題處理基本涉及到大腦皮層的各個區(qū)域。所以說研究計算機視覺我覺得我們要弄清楚到底什么是計算機視覺,什么是計算機視覺的核心科學問題,我們不能夠把什么東西都往上加。我覺得我們要好好討論討論,五到十年內我們到底主要是研究視覺感知還是視覺認知?如果研究視覺認知那是一萬年的事。我目前不怎么研究計算機視覺了,我主要關注生物視覺了,也許我說的不對,但我覺得大家還是聚焦一些,目標可實現(xiàn)一些。
我們討論五到十年的計算機視覺研究方向,不是指具體的算法,我們十年前也不知道深度學習能達到今天這樣的一個高度,我們要討論到底哪些方向是值得研究的,我自己覺得有三個需要關注的方向:1.基于神經生理的計算機視覺,估計在五到十年以內是一個重大方向;2.視頻理解;3.涉及中國特色的全球戰(zhàn)略相關的視覺研究:如衛(wèi)星數(shù)據(jù)理解(全球戰(zhàn)略),深海水下視覺信息處理(深海戰(zhàn)略)。
紀榮嶸:
我自己覺得我從博士畢業(yè)到現(xiàn)在大概10年的時間,我認為計算機視覺是遠遠超過了我當時讀書時的任何方向,比如說自然語言理解,信息檢索等等。我覺得一個重要的原因是深度學習帶來的收獲。但另一個方面,我們的這些系統(tǒng)太大太厚重,有沒有可能把這個系統(tǒng)做的小一些,做的開銷更小一些,這里面有幾個維度。大家能馬上想到的維度就是把系統(tǒng)做小,做小就可以把它放到端上,放到嵌入式設備上。
第二個就是把系統(tǒng)做快,現(xiàn)在自動駕駛或者端上的設備的計算,有可能需要系統(tǒng)處理數(shù)據(jù)要遠遠快于實時。
第三點,現(xiàn)在我們很多時候都是在做單點的系統(tǒng),每個攝像機執(zhí)行的功能都是一個完整的閉環(huán),花了很多的計算代價做了很多重復的事情,未來的視覺系統(tǒng)有沒有可能由點到面進行大范圍系統(tǒng)之間的協(xié)同。就是說有沒有可能由專到廣的,為什么是由專到廣,現(xiàn)在每個模型只能解決一個任務,為了解決目標識別用的是目標識別的模型,為了解決語義分割用的是語義分割的模型,為了解決人臉而用人臉的模型,我覺得我們的人腦并沒有分得那么清楚。one by one或者 1 v 1的我個人感覺太消耗資源了,有沒有可能有一種更靈活的機制,網(wǎng)絡結構可以由不同的形式組合在一起,比如說一套模型的backbone,它往上的話既可以做識別又可以做分割還可以檢索,還可以做相關的理解。這樣的話就可以把整個計算量給降下來。我相信人類進化到現(xiàn)在這個階段,我們用我們的大腦實現(xiàn)了多任務的,高效能的,并行而且只占用極小的存儲開銷,我們每天只用吃三碗米飯,我們能完成這個計算機系統(tǒng)消耗多少的計算量來完成的事情。
第四個觀點,我覺得我們的系統(tǒng)現(xiàn)在“吃”數(shù)據(jù)“吃”的太厲害。我覺得我們人類自身真的沒有用到這么多的數(shù)據(jù)進行學習,我們用了大量的數(shù)據(jù)復用,比如說我識別消防車,只需要在車子上加一些特殊的部件,我就能識別消防車,我們人是很智能的。但是我們現(xiàn)在的計算機系統(tǒng)太吃這些硬性的資源,所以我覺得在計算資源的消耗上和訓練數(shù)據(jù)消耗上我們也應該探索更多的機制。
然后,從我自己的感受來說,過去的時間我們看到世界往前發(fā)展,我特別希望未來的五到十年里面,計算機視覺的發(fā)展是由我們中國的學者去引領的,因為我們現(xiàn)在有巨量的市場,這個市場有我們能馬上可以看到的技術痛點,這痛點就在我們身邊,應該是我們來做,而不是讓外國人來做我們的痛點,我們應該去引領它,所以我覺得未來的五到十年有很多是我們這些中國計算機視覺的學者應該去做的事情。
林宙辰:
在手機上要越做越小,我覺得這不是正確的方向。將來的視覺系統(tǒng)應該越做越大,不是越做越小。所有的運算通過5G放在云上面運算是未來的一個趨勢。我們大家都在云端上建立一個大系統(tǒng),這樣的話能夠解決多樣性的問題。因為要用一個小系統(tǒng)來解決各種各樣的問題,我覺得這個概率上講是不可能的,就是要建立一個跟人腦一樣復雜的一個系統(tǒng),它才能夠解決各式各樣的問題,這個系統(tǒng)肯定只能放在云上面,手機端愿意多算就多,少算就少算,不要把所有的計算都擠到一個小的手機上面來。
紀榮嶸:
我覺得不一定完全正確。我覺得端上可以做一些輕量級的計算,云上做更重量的計算。而且端上的計算可以使數(shù)據(jù)的傳輸由重量級變輕量級。比如說原來傳圖像,現(xiàn)在可以只傳特征,原來要傳所有的區(qū)域,現(xiàn)在只要傳特定的區(qū)域。因為手機只用作攝像設備感覺太浪費了,手機其實是一個很好的計算設備。
林宙辰:
我們并不矛盾。我是說想在手機上解決所有的問題這一點我是反對的。一開始你說要在手機上做小網(wǎng)絡這個東西,肯定是越小功能越差。
胡占義:
對于這個問題我提個建議,5G對我們計算機視覺影響有多大,其實就是小終端和大終端的問題。如果5G網(wǎng)絡很快,終端干脆就可以很小,不需要在這里處理,直接放到云上。我覺得5G對計算機視覺的影響確實要好好理解。
王亦洲:
你倆說的沒有矛盾,在專業(yè)任務上一定要壓縮。處理是與任務相關的,只要滿足任務的需求就行。視覺是一個ill-defined problem。什么是視覺這個概念太大了,但如果局限到圖像,又太小了。所以怎么去把握它呢?我們丟這個陣地,就丟在了問題的復雜度上面,F(xiàn)在已經被深度學習占領了,我們再漂亮的理論、性能都不行。 然后我們丟在哪兒了呢?視覺問題是不是深度學習就解決了?視覺并不僅僅是一個學習問題,剛才說視覺可以很大,它可以是個認知的問題,top-down、bottom-up、然后各種任務,我們定義的視覺問題的復雜度不夠,系統(tǒng)的復雜度也不夠。所以我們要把系統(tǒng)的復雜度給加上去,把任務的復雜度也加上去,但是在每個具體的專項的任務上面, 我們要盡量讓它簡潔(compact), 讓它適合于任務(fit for task)就夠, 所以怎么去拿回這個陣地,我覺得要在這兩方面,復雜度上面加大,然后才能夠有可能把這個視覺的東西給拿回來。但視覺其實不單單是視覺問題,應該是視覺主導的任務完成的一個問題。所以,以后CVPR它有沒有存在的意義,或者說是不是還是那個趨之若鶩的東西都不一定。
山世光:
我們值得討論的問題是,怎么撇清計算機視覺與機器學習的關系?我們在未來幾年是不是就認慫了,是不是計算機視覺的問題就是機器學習的問題。這個我覺得我們年輕人還是特別困惑,比如說有什么問題是機器學習肯定搞不定,只能靠計算機視覺理論和方法來去搞定的呢?
陳熙霖:
是現(xiàn)在很多東西都被劃到機器學習了?梢詫Ρ纫幌30年前機器學習的書和30年前模式識別的書,再拿今天機器學習和模式識別的書,看差別就行。
胡占義:
我覺得機器學習這個東西,是一種手段,它可以用于計算機視覺,也可以用于自然語言處理。模式識別和數(shù)學沒有區(qū)別,我比較理想,我覺得一個是一種解釋手段,一個是說要解決什么科學問題。
王井東:
接著剛才山老師提到這個問題,F(xiàn)在計算機視覺這么火,有多少是機器學習能做出來的東西。像alexnet也是做視覺問題,其實根本沒必要擔心。我自己也做過機器學習,可以舉個例子,早先做過加速、大規(guī)模等,在Matlab上面做,這怎么能證明這是個大規(guī)模的問題,所以說同樣根本不用擔心這個問題。
剛才討論到一個問題,就是說計算機視覺5到10年怎么走,F(xiàn)在遇到一個狀況,不管是中國還是美國,今年年視覺方向的工作機會(opening)特別少,從2012起視覺火了8年,應該怎么繼續(xù)走。計算機行業(yè)外的人給予CV很高的期望,比如超越人類。其實這件事情不靠譜,根本沒有超越人類。但是不做計算機視覺的人總覺得計算機視覺的人應該做些什么東西。但是現(xiàn)在到這個階段,也許這跟當年神經網(wǎng)絡一樣,像過街老鼠一樣,說計算機視覺的人吹牛皮。其實不是我們吹得,是別人吹的。我們要思考,我們視覺如果繼續(xù)往前走,科學研究方面是一個問題,另一方面是如何去得到持續(xù)關注真正做一些能夠work的系統(tǒng)出來。盡管我們今天已經在很多方面做得不錯,但坦白來講還沒真正work。計算機視覺是不是應該純粹從視覺的角度解決,其實多模態(tài)是一個很好的方向,單單靠視覺這一點,在監(jiān)控系統(tǒng)里面還是很大的一個問題。從方向上來講我比較看好多模態(tài)這個方向。
王濤:
關于未來計算機視覺發(fā)展的趨勢很多。我感覺一個最重要的趨勢應該是主動視覺。Imagenet競賽能識別很多的物體,但是圖像分類真正在實際場景中就不管用。真正管用的是基于物體檢測,然后再進行識別的像人臉識別這種技術。為什么人臉識別成功了,圖像分類系統(tǒng)還不成熟。輸入一張圖像,你必須得按不同的區(qū)域不同的粒度進行分析,比如在會場我們拍張照片,識別人,那我們去數(shù)人頭。但是如果要識別投影儀設備,必須定位到這個投影儀圖像才能找到。第二個問題是投影儀的信息有多種層次,比如說有人想知道牌子,那你必須再細看到那個Logo,但是另外有人想知道怎么操作這個投影儀,那你必須得識別它的各種接口,你才能把它的功能識別出來。我感覺最近的Imagenet和ActivityNet行為識別競賽,大家現(xiàn)在做的這兩類競賽都是用圖像分類的競賽做。用圖像分類做競賽,實際中都不能用,為什么呢?它沒有像人一樣主動去識別,你得看到這個人,看到那個人真正發(fā)生動作的那一幀,這才能把它識別出來,所以我感覺主動是非常重要的。
第二個,要有層次。層次就是不僅要識別出一些基本的要素,還要把里面的不同層次關系能夠結構化的提取出來。我們實驗發(fā)現(xiàn)把東西拿在一起學的效果會很差,但是如果把這個東西分成兩個部分,先固定解碼器學編碼器,然后再固定編碼器學解碼器,系統(tǒng)就學出來了。我們的學習得有一些像搭積木一樣的層次,先把基本的比如人臉、水杯、花識別出來,然后拍一張照片能把物體之間的關系給識別出來。
第三個,應該怎么研究。視覺研究很廣,想要做成功,得針對具體的應用。人臉識別系統(tǒng)很成熟,但是用在自動駕駛上識別行人就不行,得一類一類來,在不同應用場景中,需要看到不同的數(shù)據(jù)和不同的性質。所以我認為針對具體應用,未來除了在深度學習基礎上主動視覺,發(fā)揮層次融合推理應該是一個比較好的趨勢。
胡占義:
我覺得主動視覺很重要,但5-10年主動視覺不可能取得巨大進展。這涉及到生物里面反饋(feedback)的高層知識,但反饋很難短期內取得進展。關于視覺的目的1994年CVGIP組織了一個專刊,曾經有過一個辯論。從1994年到現(xiàn)在,可以說主動視覺沒有任何的進展。在生物神經系統(tǒng)里面有大量的反饋,但不知道反饋是什么東西。如果神經科學很難給出一點啟示的話,那么我們計算機視覺就很難把它做成。這是我的一點個人觀點。
王濤:
我覺得以前主動視覺不成功是因為研究方法不對和技術限制。
胡占義:
Recurrent有兩個,一個是同層的抑制,一個是高層的反饋,而高層的反饋在生物視覺里面大家知道有大量的反饋,但是反饋的是什么東西還不清楚。所以說根據(jù)我的理解,我覺得3-5年內生物視覺很難有較大進展。
王亦洲:
我補充一下,回到學習上,學習是視覺的核心。視覺其實是個偽問題,但學習是一個永恒的本質問題。沒有學習,視覺存不存在都不太重要了。與其叫計算機視覺還不如叫computational visual intelligence. 視覺是一種智能,智能的核心是學習怎么去獲得知識,反饋只是學習和推理的一個環(huán)節(jié)。學習是什么?是簡單的模式識別,還是高級學習,這可能是學習下一步應該走的,給學習起一個俗的名字叫元學習,如果要和計算機視覺對應,我們叫元認知。核心就是學習,不搞學習是不行的。
楊睿剛:
我覺得機器視覺與生物視覺應該有區(qū)別,不一定機器視覺要學習生物視覺。舉個例子,比如說看全局我要大照片,然后看局部我要小照片,但是如果你有一個攝像頭,可以一下子拍10億像素,或者有一個攝像裝置能把光場記錄下來,那active learning與passive learning就沒有區(qū)別了。這種硬件區(qū)別至少在二維圖像上,將來我覺得十億像素應該是很快到來的事情。
陳熙霖:
這個地方我補充一句,這里的主動不僅指分辨率,其本質是通過主動的“行為”進行探索,從而達到有限資源的最大化利用。
楊睿剛:
你說的是一種主動感知的explore,還有一種不改變環(huán)境不改變物體的。
陳熙霖:
即使是不做改變,比如從一個角度看和從另一個角度看,光場相機并不解決這類問題,我們無法獲得對象背后的光場。
楊睿剛:
光場相機陣列。
林宙辰:
楊睿剛的意思是說干脆把所有的信息都采集了,這個機制還是有點不一樣。
王亦洲:
主動學習有一個停機問題,有一個選擇的問題。就是說,你所有信息都在這兒,你什么時候停下來,你決定采哪一塊,這是最重要的。所以主動學習,它并不是你把所有東西都拍上去,你也得要選擇。
楊睿剛:
選擇的問題肯定要在里面,但是現(xiàn)在做主動學習肯定涉及到機器人等問題,超出了計算機視覺的范疇。
王亦洲:
所以就不要抱著計算機視覺了,這個就是我的意思。
胡占義:
主動學習這里面有兩個概念。第一個是要有探索和注視,否則的話就沒有主動性。第二個是記憶,主動視覺是從生物來的概念。在計算機視覺里面,主動視覺這個概念太大了。
查紅彬:
我想這里可以將主動視覺與深度學習進行對比。深度學習的問題在于要有標注數(shù)據(jù)庫,需要事先整理好的數(shù)據(jù)。而視覺系統(tǒng)在實際場景中工作時,需要自己選擇對自己有用的樣本。這樣,將樣本選擇與視點選擇,結構重構,計算優(yōu)化等策略結合起來,就能有效地發(fā)揮其主動性,而不需要讓人把所有的數(shù)據(jù)都收集好喂給它。
鄭偉詩:
學習對視覺很重要。Benchmark推動也束縛了目前計算機視覺的發(fā)展,ReID做到97%,大家就想不到該做什么,但問題本身并沒解決。數(shù)據(jù)庫太有限,采集的東西沒有完全反映整個問題,比如說行人的遮擋問題,各種各樣的問題。在有限數(shù)據(jù)的時候,學習可能不能完完全全地解決它。有限數(shù)據(jù)下的學習,有沒有可能受到3D方面的啟發(fā)?把一個人整個3D的信息,還有行人整個行為的3D信息都能捕捉到的話,我們就可以去掉開放環(huán)境下所受到的這些影響,然后我們就可以重構。像我們可以構造一個靶場,這個靶場很重要,無論我們做任何的系統(tǒng)都要做測試,但如果只在有限數(shù)據(jù)上或片面的數(shù)據(jù)上做測試的話,我們在真實應用的時候可能就會有受限。因此如果我們能夠把3D這種因素嵌入到現(xiàn)在以2D圖像為主導的計算機視覺里面的話,可能會對我們整個計算機視覺在未來3到5年的發(fā)展能有另外一個維度的推動作用。
那么為什么做3D?另外一件事情就是現(xiàn)在可能在全世界都在談的數(shù)據(jù)隱私問題。數(shù)據(jù)采集的隱私問題越來越重要,如果你用的是一個虛擬的靶場的話,這種隱私問題就完全不存在。所以,在未來包括可能在國外人臉識別、行人識別,甚至一些行為識別都有可能會受到嚴重的法律因素的滯后的影響的話,那么我們更需要從3D的角度,從另外一個維度去考慮,是不是在這方面可以拓寬計算機視覺的發(fā)展方向,這是我的觀點。
賈云得:
我們做視覺很早了,早先把它作為一條小河,我們流那么多年,突然下大暴雨,現(xiàn)在是洪水猛獸(深度學習)來了。五年以后估計這個模式都過去了。我覺得那條河還會在。因為,從視網(wǎng)膜到視皮層這條通路在那擺著呢,非常高效。因此,還會有好多人研究,五年十年以后我們中國實驗室做什么?肯定還是小河里面。
我看好兩個方向。第一個是三維視覺,三維視覺不會很熱,也不會很冷,會一直往下走。第二,就是胡老師說的視頻理解。這個好幾個老師也說了,多模態(tài),就像我們看電影也是一樣的,看會兒畫面看字幕,看會兒字幕看畫面,來回互相理解,現(xiàn)在好像挺熱的。原來我們遇到的是數(shù)據(jù)-語義的鴻溝。后面我們在識別結果和意識間的鴻溝也會出現(xiàn),一旦有鴻溝就變成熱點,因為里邊主觀加的東西太多了。我覺得視頻理解應該是一個熱點。
魯繼文:
我覺得我們現(xiàn)在用了很多機器學習的知識。下一步,我自己更愿意做一些特別的工作,就是從機器學習到機器推理。比如給你一幅圖像,你一看就知道這個圖像未來應該怎么樣發(fā)展,但對于計算機再強的網(wǎng)絡都不行。我覺得現(xiàn)在計算機視覺里面很多時候性能之所以好,是在于我們對這個問題的定義,在這種定義基礎上已經基本上可以解決。現(xiàn)在我們可能要再去找一些更能夠描述或者更能夠匹配人類視覺能力的計算機視覺任務,F(xiàn)在比如說檢測、分割、檢索、識別,都是單獨的視覺任務,這種單純的視覺任務還是有點簡單。當然有的老師可能有不同的觀點,就是說他們的變化這種東西可能比較難。但實際上人的視覺更多的時候可能不是這樣子的。所以,我覺得在計算機視覺里面一個很重要的問題是怎么樣找到這樣的任務,能夠更好的與我們人類的視覺任務匹配起來,這樣的任務既不能太難也不能太簡單。這樣的任務我覺得還需要我們多花時間去思考討論,我自己也不知道是什么任務。
王亮:
未來5到10年的CV發(fā)展趨勢這個主題的主要目的是希望聽聽我們國內視覺界專家們的新見解。今天聽了各位講了很多,方方面面都有。如果說個趨勢的話,每一個方面可能都會有一定的趨勢,但大家的意見有不相同,也有相同的地方。這個主題的定位是希望通過這次的深度研討梳理幾個視覺領域中最重要的大家都認可的這樣一個發(fā)展趨勢,有不同的意見沒有關系,而且這個討論也是有交叉的。
查紅彬:
這種討論我覺得挺好。講一些發(fā)展趨勢,然后大家能夠有一些思想上的碰撞和火花。做視覺研究,大家在發(fā)展趨勢上,如果有完全一樣的看法會很奇怪。要整理出比較明確的發(fā)展趨勢也很難。為什么呢? 誰要想做出很好的工作,他就應該有一些與別人不一樣的看法,如果大家都是同樣的看法,這事情就很難往下做。所以我覺得,我們更多的是通過交流各自的想法,啟發(fā)我們自己能有一些新的思路,或者在我自己的這些想法上能找到一些更多的理由、依據(jù),然后把這個事情做下去。所以我想通過這些討論,更多的是咱們能不能將來在國際會議上,在研究成果方面,我們也有自己的一些特色在里邊。到目前為止,我們寫文章是在拼什么?就拼數(shù)據(jù)庫測試上性能提高了百分之幾,而且大多數(shù)是在別人方法上改進一下,然后做個實驗說我提高了百分之多少。但是我們很少有說你的想法跟別人在什么地方不一樣,然后你這個不一樣的東西在某個地方用起來會有一些效果。一開始你可能效果會比較差,而且你也不容易輕松地打動別人,但是在你的帶領之下很多人都會來做這個事情的時候就不一樣了。所以我想說,能不能將來不是只盯著這個數(shù)據(jù)庫上的數(shù)據(jù)去拼,而是有更多的比較好的創(chuàng)意出來。
山世光:
是不是可以倡議建立一個只評價idea、方法原理,不評價在benchmark或者數(shù)據(jù)庫上的好壞的審稿機制?
陳熙霖:
胡老師剛才提到的1994年CVGIP組織的一個?,當年提出了三個需要改進的方面,今天真正實現(xiàn)的只有一件——就是benchmark。那場討論中說我們這個領域里的工作缺乏比較,自說自話,之后就產生了各種各樣比較的數(shù)據(jù)集。所以我剛才有一句話,在過去近30年中Benchmark推動了計算機視覺研究的進步,就是指的那場討論開始的。
查紅彬:
我同意你的觀點,F(xiàn)在回過頭來看看,計算機視覺研究了這么多年,也許就是在那些文章出來之后,我們再沒有看到什么新的主意、新的理論出來了。在那之前百家齊放,好像有很多新的說法出來。在那個benchmark出來之后大家都在做同樣的事情,最后整個領域就變得不怎么活躍了。
胡占義:
我們既然研究計算機視覺,我建議大家讀一讀Marr的書。
盧湖川:
剛才說到的benchmark,我覺得至少計算機視覺這個benchmark的存在,使得計算機視覺有別于純粹的機器學習,而且特別是起到了該有的歷史作用,F(xiàn)在大家對它的詬病最主要的原因就是它還是一個單一的benchmark。那只能說這個benchmark并不像人一樣,那如果有人再去定一個更復雜的benchmark,它是多維的,也許這個benchmark就能夠驅動下一個時代的發(fā)展,也許就能夠完成像人一樣的學習或者識別等等。我覺得benchmark本身并沒有太大問題,因為人從小受教育的時候就是教他這是什么那是什么,只是人是一個綜合的智能體。現(xiàn)在的benchmark如果再往更高的維度發(fā)展,也許能夠有更好的收獲。
楊睿剛:
現(xiàn)在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,還有隨之而來的各種各樣的比賽,哪些是重要的,哪些不重要。在某種意義上是不是也跟大家說,我又拿了個世界第一,但可能這個世界第一里面只有十個人參加。那有沒有一種方法可以有這樣的一個更加好的量化機制,可以給benchmark一個benchmark。
王井東:
Benchmark現(xiàn)在有個很大的問題是很多人做不了。Imagenet很多人做不了,那做不了從我們研究人員的角度來講,就是文章可能出不去,這是一個可能不好的地方。 但從另外一個角度來講benchmark挺重要的。視覺的任務目的很多,我們做視覺還有一個重要目的就是培養(yǎng)學生,那至于視覺培養(yǎng)學生這個功能可能是區(qū)別于其他的,比如Multimedia。Multimedia從培養(yǎng)學生的角度上我覺得是很好的。但它有個很大的缺點,是沒有benchmark。從這個角度來講benchmark還是需要的。只是現(xiàn)在審稿人對數(shù)據(jù)集的規(guī)模期望更大了,這對很多人來講尤其是學校里面是很有挑戰(zhàn)的,現(xiàn)在可能就少數(shù)幾個公司比較強。這是我對benchmark的觀點。
王亦洲:
建議PRCV單開一個track,鼓勵創(chuàng)新性。單開一個不看性能的track。
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫(yī)療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |