每日看點!商湯王曉剛:AGI能為智能汽車提供更好的駕乘體驗

    來源:網易汽車時間:2023-04-03 18:47:49

    版權聲明:本文版權為網易汽車所有,轉載請注明出處。

    網易汽車4月3日報道 2023中國電動汽車百人會論壇期間,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示,智能汽車是通用人工智能實現閉環的一個非常好的場景,我們已經有人機共駕。未來我們希望車和模型之間能夠產生更有效的互動,那就完成了從人到車,到模型這樣的一個互動的閉環,能夠讓通用人工智能為我們提供更好的駕乘體驗,解鎖無限的想象空間。

    以下為王曉剛演講實錄:


    (資料圖)

    各位同仁、各位嘉賓,大家上午好!我是商湯科技王曉剛,新年伊始,像ChatGPT,還有GPT-4掀起了通用人工智能的熱潮,這是一場新的技術革命。今天我也是非常有幸能有這個機會跟大家一起探討,通用人工智能和多模態大模型給智能汽車帶來的機遇和挑戰。

    從2012年開始,過去十年,人工智能的技術革命是以深度學習不斷去突破工業應用的紅線為起點的,誕生了一系列的AI+場景的應用。那么基于每個場景都有不同的專屬的模型,其中的研發成本比較高,周期比較長。

    從2022年開始,新的通用人工智能,它是以非常高效的方式去解決海量的開放式任務,更加接近人的智能,而且能夠產生有智慧的內容,它也帶來了新的研究范式,即基于一個非常強大的多模態基模型,通過強化學習和人的反饋,不斷解鎖模型新的能力。

    什么是通用人工智能呢?我們可以跟現有的人工智能系統做一個比較。現有的人工智能也能夠接收多模態的數據,但是它輸出的任務都是事先定義好的。如果我想給這個系統去增加一個新的任務,我就要對系統進行重新設計,還要采集大量樣本。

    在通用人工智能時代,我們通過輸入提示詞和多模態內容,它就可以去生成多模態的數據,更重要的是,它可以用自然語言去生成對任務的描述。自然語言即可以用非常靈活的方式去覆蓋大量的長尾問題和開放性的任務,甚至包括一些主觀描述。

    比如說,在之前我們做一些特定場景的檢索任務時,一個人工智能系統可能是有幾十個標簽。我們做過實驗,如果要是用自然語言描述,我們可能有一萬多個詞,通過它們的組合去描述各種任務,實際上是非常強大,而且是靈活的。

    那么,這里面舉一個在自動駕駛中遇到的一個例子。給定一個圖片,我們想去問我們是否需要減速?在我們現有的AI的系統里面,我們首先要做物體的檢測,能夠檢測物體框,里面做文字的識別,最后做這樣的一個決策。那么,其中所有的過程里面的每一個模塊都是事先定義好的任務。

    在通用人工智能下,給定圖像,我們只需要用自然語言去問這個圖像的問題,比方說,這個圖標是什么意思,我們應該做什么?這個模型本身不會發生變化,它輸出就會通過自然語言的方式,能夠給我們一系列的這種邏輯的推理,最后給我們結論。比如說,它可以告訴我們這里面的限速是30公里每小時,前面100米是學校的區域,有小孩,你應該去小心,能夠將車速降速到30公里每小時以下等等這一些。可以看到,這都是一些開放式的新的任務,可以對我們人工智能系統產生一個非常大的變革。

    通用人工智能還有非常強的一點,它能夠產生內容,而且是有智慧的內容。智能駕駛,或者自動駕駛汽車里面我們有“數據飛輪”的說法,我們的模型能夠從駕駛終端采取高質量的數據,對模型進行更新,然后再去從終端提升數據的量和質。

    在通用人工智能時代,它會有一個智慧的飛輪,這里面人和模型會產生互動,人會給模型輸入什么呢?去輸入Align With Human Intention,就是這個模型是很強大的,但是它其實不知道人需要它什么樣的能力。通過人的反饋,它就更好的能夠去理解人需要它展示什么樣的能力,而去解鎖這個模型更多的技能。同時,這個模型給人輸出的是什么呢?是有智慧的一個內容。我們都知道,這些內容會激發人的各種創作和智慧的產生,所以這其中又會產生智慧的飛輪。

    但是,AGI對算力的需求是非常大的。ChatGPT具備1750億參數, 需要3000~5000張A100訓練卡,而我們也可以看到ChatGPT一次訓練的成本是上千萬的美金。此外,今天它的推理的成本每天也有幾百萬美金高昂的成本在。

    商湯從2021年在上海的臨港建立了我們AIDC的超算中心,實際上是在這方面也有提前的這樣的一個布局。SenseCore AI大裝置基于2.7萬塊GPU的并行計算系統實現了5.0 exaFLOPS的算力輸出,可支持最多20個千億參數量超大模型(以千卡并行)同時訓練。

    從2019年開始,商湯從10億參數的視覺模型研發,到今天有320億全球最大規模的通用視覺的模型。在NLP領域,商湯當前也有接近2000億參數的大模型,包括亦有能力去訓練1800億參數的多模態的模型。所以,未來通用人工智能基于多模態的基模型可以做視覺的感知,語言的理解、內容的生成和決策的推理。

    商湯絕影是商湯下面做智能汽車的業務板塊,我們堅持駕艙云三位一體的發展策略。我們希望能夠通過駕艙融合,帶來更好的駕乘體驗;AI云能夠去為自動駕駛提供數據閉環的服務,能夠通過提供豐富的產品功能讓智能座艙成為真正的第三生活空間。同時,商湯的AI云也為通用人工智能實現智能駕駛和智能座艙打下了非常強大的基礎。

    我們可以看到,在自動駕駛領域,BEV是我們當前主流的技術路線,未來可以朝多模態、通用人工智能的方向發展。我們通過AIGC可以去生成困難的樣本,我們模型去輸入多模態的這樣的一些數據。其中,自動駕駛多模態的大模型可以做到感知和決策的一體化,輸出則對3D的環境進行重建實現環境的可視化理解,我們的行為解碼可以生成完整的路徑的規劃。同時,我們動機的解碼器可以用自然語言去描述我們推理的過程,進而使我們自動駕駛的系統變得可以解釋。

    我們也是基于這些多模態的大模型可以做到數據的感知的閉環和決策的閉環,從前端自動的去采集高質量的數據,利用大模型自動的數據的標注,包括產品的檢測,能夠幾百倍的去提升我們模型迭代的效率并降低它的成本。

    在智能座艙板塊,通用人工智能使我們基模型具備空間環境的理解、用戶狀態的感知,多模態的指令,還有多輪對話,內容生成等一系列的能力。它就可以去賦能,作為我們情緒的感知,智能助手,基于情感的對話、創意、內容的生成,個性的交互等等這一系列功能,不斷地去提升我們的個性化的體驗。也使我們的場景從上車、行車、停車、離車,進而拓展到娛樂、辦公、購物、休息,這里面有很多的可以去探索的應用的場景。

    實際上,智能汽車是通用人工智能實現閉環的一個非常好的場景,我們已經有人機共駕。未來我們希望車和模型之間能夠產生更有效的互動,那就完成了從人到車,到模型這樣的一個互動的閉環,能夠讓通用人工智能為我們提供更好的駕乘體驗,解鎖無限的想象空間。

    最后,這個月商湯也在通用人工智能方面會有我們的技術日,去介紹一系列的多模態的大模型,包括語言的大模型、感知的大模型等等。我們希望去與我們的客戶和合作伙伴共同邁向通用的人工智能,謝謝大家!

    關鍵詞:

    圖文推薦

    熱門文字

    標簽

    精彩賞析