2022汽車半導體生態峰會演講實錄|商湯絕影趙赫:自動駕駛通用目標感知體系的構建
以“智鏈未來 本立而道生”為主題的“2022張江汽車半導體生態峰會暨全球汽車電子博覽會”由《中國汽車報》社主辦,張江高科、愛集微、浦東新區投資促進二中心承辦,11月7日-8日在上海張江科學會堂隆重舉行。
本屆峰會邀請了以半導體為核心的全球智能網聯汽車生態鏈企業高管、知名分析師與投資機構、中外行業大咖參加,瞄準新智能汽車與能源汽車技術前沿,就科創+產業+金融進行深度交流,為汽車半導體產業發展貢獻智慧和力量。同時,通過趨勢分享、前沿技術碰撞、投資邏輯解讀以及全球汽車電子博覽會,共同探討全球巨變下的汽車半導體產業鏈發展,為業界充分展示汽車電子最新發展成果與趨勢,打造國際化一流汽車半導體領域展示平臺。
其中,在11月7日舉辦的“軟件定義汽車專場”,上海臨港絕影智能科技有限公司智能駕駛產品總監趙赫做了題為《自動駕駛通用目標感知體系的構建》的精彩演講,以下內容為現場演講實錄:
趙赫:大家下午好,我是來自商湯絕影的趙赫,非常感謝主辦方讓我們有機會在這里和大家分享一下我們商湯絕影在自動駕駛領域的一些思考和體會。
上海臨港絕影智能科技有限公司 智能駕駛產品總監 趙赫
今天這個主題是軟件定義汽車,我們分享在感知這個方向,我們作為感知領域的研究者,關注感知對汽車帶來了哪些的新的要求和挑戰。
我今天分享的主題就是萬物感知,自動駕駛通用目標感知體系的構建。首先我們通過一個短片了解一下什么是認知的通用目標感知。
最近有很多同行在交流,自動駕駛的感知要感知什么類別?我們也是和很多的車企有合作,我們接收到越來越多感知的需求,過去人車感知,現在要檢測收費站的閘機等等,這些是自動駕駛的發展對感知提出越來越高的要求。無論是從功能的復雜度,場景覆蓋度上來講,我們自動駕駛系統是面臨越來越多的挑戰,面臨越來越復雜的場景。
我們回答這個問題不妨回顧2018年的時候,我們當時做的數據采集和標注,所有的數據全部都是聚焦在人車,非機動車,車道線上面,我們今天做這些新功能開發的時候,這些老舊數據不能用了。面臨這個問題,很多的車企、我們同行都有困擾,因為這個是巨大的浪費,一句話總結就是數據到用的時候也是恨少。作為感知的研發者來講,我們要提早構建一個相對比較完善的自動駕駛感知的體系,可以方便我們后續的軟件更迭。
我們考慮以下這么幾個場景,第一個就是十字路口,我們右轉遇到一個救護車,傳統的自動駕駛會識別這個是汽車,因為我們并不知道這個是救護車,也不清楚救護車有特殊的路權,很有可能因為一些激進的自動駕駛的策略和救護車有碰撞。
第二,在路上碰到不同的施工區域,有的時候是路障,有的時候是標識牌,需要不一樣區別的方法。現在對施工區域繞行也是高階自動駕駛中常見的功能,對不同的施工區域只可以識別其中一種兩種的話,也是不夠智能的體現。
第三,在紅綠燈遇到推著輪椅的行人,輪椅上坐著一個老人。這個情況下,這個車要進行準確的預測,因為現在越來越多的車企去追求智能化或者是老司機化,在路口的起步時間是大家追求的點。越激進的自動駕駛的策略,越會提早起步,這個情況下,針對弱勢群體,在路口的行進的速度絕不能和普通的目標一樣。
綜合這三個場景來講,我們做這種linux處理是不夠的。行業就是黑天鵝發生的時候我們警醒,我們原來這個要解決,因為這個發生了生命安全的事故,我們要求供應商把這個功能更新上來。作為聚焦在感知的研發者來講,我們要針對這些場景進行全局的規劃和構建。
通用目標感知也存在難點,第一個是開極目標,第二是語義細化,第三是長尾分布。什么是開極目標,就是意味著我們的場景是無法被窮舉,無論是遇到什么樣的場景,明天會發生更多,以下這六個是我們實際做自動駕駛的測試過程當中切身遇到的一些案例。
第一是石塊,碾壓過去,發生了顛簸,我們要對這個石塊辨別。
第二是三角線繩,這個把路邊圍起來了,有可能繞行無法很好的識別。
第三是苫布,路上有一個苫布,這種布沒有什么作用,可以被碾壓過去的,但是當時我們的車輛識別這個為一個不可行駛的區域,做了繞行,也不是很智能。
第四是塑料袋,空中飛舞的塑料袋在車的面前,被激光雷達認為是一個目標,會出現這些臨時的噪點,這個情況停車制動,也是不人性化的體驗。
還有狗和飛鳥,我們遇到過的,像新疆、歐洲的一些國家,在路上碰到馬等等動物的情況也是很大的情況。
我們這些平時不太關注的目標,都會影響我們的駕駛體驗。這些駕駛體驗不是我們現在直接關注,還是剛剛這一句話,因為這些問題發生了危險,或者是其他人做到我們沒有做到的時候會成為一個重要的加分項。除了這些以外,還有很多,這個是難以被窮舉的開級目標。
還有一個目標的類別也是逐漸的細化,像我們剛剛講到的救護車,還有消防車,警車等等。校車,現在很多的國家對校車有相關的法律法規,我們中國也是在相關的法規。我們校車停的時候,門會打開,有一個標識牌,我們開車遇到會減速或者是停車。這個自動駕駛開啟的狀態下,沒有判斷這個是一個特權車聯,做了加速繞行,可能會被扣分罰款。
第三個難點,就是目標的形態呈現長尾分布,我們說到即便是相同的校車,警車,不同的國家,不同的地區,外觀也是不一樣。意味著我們很難通過一次的數據采集和標注解決所有的數據積累的問題。
所以說這個就是我們做通用目標感知的三個難點。
我們從以下三個緯度來提出了解決這個問題的一些方向。首先就是數據的緯度。剛剛有講到一句話,數據用時方恨少,我們廖總提到軟件定義汽車數據即資產,什么樣的數據是資產?我們之前遇到了很多的數據采集回來,存放在本地,本地的空間不夠,上云等等,這些數據在客戶的手里,沒有利用起來。我們要用起來,就是定義通用目標感知在接下來的五年、十年內可以做什么事情,我們在這個軟件架構上做一個清晰的設計。商湯絕影結合我們去年發布的超大模型的知識圖譜,結合一些自動駕駛的標簽體系,構建了面向自動駕駛的標簽體系,這個標簽體系有3千多個標簽,橫跨四個領域。這個標簽體系的作用有幾個,一個就是定義我們的軟件架構,每一個新出現的類別都是在這個軟件架構里面,都能夠簡單的被加入,或者是刪減。所有的可以預見的感知的目標,都可以在軟件里面被定義。
第二是定義標注的體系,我們拿這個四個大的領域來舉例,第四是路上其他的障礙路,這個就是只對路上的障礙路標注,在人行道的上的障礙物不會被標注,這個做軟件的提早定義是很重要。
我們遇到一個新的場景的時候,我們可以通過是搜索它的關健詞,迅速的找到標簽體系的附節點,從而加入這個標簽體系。有了這個標簽體系以后,我們要有大量的數據,訓練我們的通用目標價值的模型。
我們首先通過一套通用過濾器,來對數據進行初篩,這個規則包括了一些基本的點云缺失,過爆,光線情況比較差等等這些條件,把一些質量較差的數據進行過濾。有了這些數據以后,我們再通過特定的目標篩選的規則,把數據細篩,這部分的規則我們講到數據閉環和回流包括兩個方面,第一個就是像駕駛員臨時踩剎車,我們記錄前后5秒的情況。
我們今天講的就是第二點,也就是根據特定的規則進行數據的篩選。比如說我們可以通過特定的光照條件,天氣條件,包含目標類別的條件進行細篩,把我們要的數據篩選出來。這個是我們一些篩選的樣例,我們通過一個月左右的時間,篩選到了3億幀的高質量數據,涵蓋100多個細分數據集,3千多個目標的類別。這個是我們通過外包,自己采集積累的數據庫,這個問題就是早期的數據的來源不同,標注的規范不一樣,所以我們說的數據篩選主要就是針對我們今天要開發的新功能,對舊的數據進行一次的篩選。
同時這個數據集也加入在智慧城市里面,安防攝像頭,包括電線桿上面的一些攝像頭里面一些數據。
剛剛提到了數據的篩選,是怎么做的?我們如何在一批廣泛的數據集篩選我們要的數據?這個不得不提到我們的解決問題的第二個緯度就是算法。深度學習這個緯度,從經歷30多年的發展,現在進入了超大模型的時代,去年1月OPENAI發布了兩個超大模型,參數量達到百億級別。之后各大的廠家在這個方向發布了自己的最新成果。商湯絕影同樣發布了超大模型體系。
超大模型這個概念可能對很多人來講是在學術界一些領域詞匯,超大模型有什么作用?簡單的說是三點,超大模型可以通過無監督學習的方法來學習圖像的底層特征。我們可以將這些底層的特征當成監督的信號給車上的小模型進行訓練。
第二,超大模型對數據的敏感度比較低,同樣一批數據就是幾百張圖,用超大模型可以比較多的了解到這個數據的特征。
通過超大模型的訓練,再去做遷移學習,知識蒸餾等等方式,這個比直接訓練小模型的效率高。
結合一二,無監督學習的底層的特征,知識蒸餾等等我們可以把現有一些難以突破的知識邊界進一步的提升,這個是我們解決一些場景稀缺樣本的主要方式;
在去年,特斯拉公布了自己的成果。特斯拉在發布的BV是走的就是超大模型的路線,今年也是提到了這個模型的標注使用1萬多塊GPU,也是用超大模型的路線。非激光雷達的領域,走超大模型是一個行業的共識。
超大模型的訓練是怎么做 ?很多人認為堆砌一個足夠深的神經網絡是不是超大模型?不是。超大模型是一個體系化的技術,主要是包含幾個方面。要構建一個數據系統,超大模型分為通用和專用。通用的超大模型輸入輸出有幾千個類別,那么要有一個標注的管理。同時我們的超大模型的訓練會用不同的GPU,用到GPU的卡的數量也不一樣。我們車端部署的小模型,用的SOC的型號不一樣,一般是用網絡結構搜索的方式,用模型搜集一個適合當前SOC的模型網絡的架構。訓練的時候也有一些技巧,超大模型是參數量達到百億級別,很難通過幾塊GPU訓練,通常需要幾百、幾千塊訓練很長的時間。這個過程當中,我們通常會做分布式訓練,比如把神經網絡不同層,不同參數放在不同的GPU集群做訓練。在IT方面也要避免一兩塊GPU的失效導致訓練的中斷。我們超大模型訓練出來了以后,在云端、服務器做推演,部署到車端要做量化,需要遷移一些小模型,我們要構建一個評測的基準和工具鏈,更好的量化超大模型遷移到端上的精度損失。
以商湯絕影發布的超大模型為例,我們去年超大模型用到的訓練數據達到100億,這個百億的單位是視頻和文本。參數量達到百億的級別,訓練這個超大模型,我們用512塊A100顯卡,訓練60天時間,引入了10種監督信號,訓練超過300億參數的超大模型,這個需要的GPU資源就更多了。
超大模型的訓練出來以后,主要的作用有這么幾個,第一個就是自動標注,這里我們會把通用超大模型和專用超大模型的結果進行整合,通過這個模塊來生產出可以超過或者是符合我們標準的自動標注的結果。以車輛的這個類別為例,我們在自動標注的結果遠遠超過人工標注的精度的結果,就像剛剛提到的稀缺類似,例如檢測一只貓,這個是樣本量少,很難通過超大模型的自動標注超過人工標注的結果。隨著數據記量的積累,我覺得可以解決。人車的典型目標上,精度實現超越以后,我們在標注上的工作量會顯著的降低,效率會提升。我們過去十年,我們標注300萬張有車的圖片,自動標注上線以后在一周里面能力可以標注1千萬張,這個效率的提升達到幾百倍。
剛剛講到自動標注還有一點,就是現在特斯拉的技術方案也是被大家認可和探討的,特斯拉也是講到了一些新的方案,他們用到1萬多塊GPU做增值的生成,也是用超大模型。原因就是特斯拉一直堅持不用激光雷達,用相機要有超過激光雷達的結果,就要用足夠深的網絡結構。所以說這一條技術路線,在國內,包括小鵬,包括毫末智行紛紛走了這一條路,是否使用激光雷達?還是值得探討的。
有了自動標注的結果以后,我們要把超大模型轉換為在車端可以生產,可以實際部署的小模型。剛剛提到了通過網絡結構搜索,我們搜出車端適合的架構,通過知識蒸餾和遷移學習的方式,把超大模型學到的特征給小模型做監督,最終生產實際的小模型。我們有一個案例,我們在貓狗檢測的類別上,一個十億參數的超大模型可以達到95%左右的準確率,我們將這個超大模型進行知識蒸餾和遷移學習,生產了一個只有200萬參數的小模型,這精度達到了88%左右,這個也是超大模型在車端生產模型的一個絕佳的優勢。
最后我們也提到了過去的數據和現在的數據差別太大,我們很多車企可能自己采集了一些數據,今天我們要把數據里面的車輛細分為救護車,警車、消防車,大車小車等等,我們引入了一個層級互斥圖的概念,把不同列車作為端點,類別之間的聯線表明是可以共存或者是互斥的關系。通過這個機制,我們可以把所有不同批次的數據混在一起進行訓練,使附節點和子節點的精度不受影響。
最后我們提到解決問題的一個緯度就是算力的緯度,超大模型要上百上千上萬GPU,我們去年在上海臨港建成人工智能的超算中心,現在的算力是3.74,這個算力大約比特斯拉大2倍左右。我們也是在行業里面唯一一個作為算法公司自建和擁有超算中心的團隊和企業。
剛剛講的是很多理論層面的東西,我們展示一個實際的案例。我們今年上半年發現清障車,檢測率很低,發生了很多的漏檢和誤檢,導致了下游的某些系統出現了誤判。我們過去沒有針對清障車做過標注,這些都是屬于車這個類別。我們為了提升這個清障車的檢測的精度,我們要快速的積累和挖掘大量的清障車的數據。我們通過超大模型的其中一個模型做了一個冷啟動的搜索,這個是開源的模型,這個作用就是實現以文字搜圖,我們使用自動駕駛的數據進行分析,實現以文字搜圖和以圖搜圖。我們從以往的數據集里面,通過這個快速的在一天里面搜到幾十萬張有清障車圖,我們用這些圖訓練了一個小模型,把這個模型部署到車上,這個模型檢測到的清障車傳到后臺,然后更新模型,形成閉環。
我們在三天的時間里面,通過這個閉環,生產獲取了180多萬個清障車的圖片,同時其他的類別也是,包括小狗等等,在一天、幾天的時間里面,在路上采集和挖掘到了幾十萬,幾百萬的圖片。我們知道過去可能我們要采集這些類別的話,要派車隊采集,可能一采集要幾個月,現在通過這個數據閉環幾天時間可以做到。
這個過程閉環走通了以后,我們回顧一下主要三個難點,一個是數據的閉環第一次回環是否是正向,我們第一次的數據挖掘要挖掘出50%以上的正確的案例,這樣的話,這個閉環可以形成,否則我們人工質檢的成本比做這個工作的工作量大很多。
第二是要和車企打通數據的通路,我們要從域控把這個發到Tbox,Tbox通過5G的信號傳到云端,這個數據通路要和車企、Tbox供應商一起定義。
最后一個問題就是法律法規的問題,數據的所有權,測繪的資質,這個是我們現在還沒有澄清的問題。
作為感知的從業者,我們優先目標就是把第一個閉環技術這個環節打通,我們之后才可以有像特斯拉這樣做數據回流的能力。
今天講的內容都是感知數據閉環相關,我們也有做決策閉環、規劃閉環,全棧的能力。最后分享一下我們的一些看法,我們認為自動駕駛的迭代能力取決于三個要素,場景數據,數據獲取效率,數據利用效率的平方。毋庸置疑,場景數據是車企有最多的數據。數據的獲取效率,就是我們提取面臨一個場景的時候我們用三天的時間把這些數據采集回來發布一個新功能,還是用三個月,抑或是三年,這里的話,是否部署這一套數據閉環,可能就會造成具體速度的差異。
同時這個數據閉環又依賴一個超大模型的設計能力,算力的能力,在這里我們認為數據的利用效率是有兩個系數。這個是我分享的內容,最后我希望我們相關的法律法規政策可以盡快的落地,同時車企能夠支持我們這些做感知的供應商或者是數據閉環供應商,可以把鏈路打通,盡快的規避這些數據所有權以及A車企的數據是否可以服務于B車企的問題,這個是一個現實的問題,我們打通了這個鏈路以后,目前其實在推廣上還是面臨很多的困難。
更大的困難,不是在原理上,更多就是規則、你的我的這些問題上。我們希望能夠和我們的同行一起把這個數據利用起來,用到我們的量產車上,實現對國際上一流企業的超車,謝謝大家。
(注:以上速記內容未經本人確認)