英偉達CEO黃仁勛(Jensen Huang)曾預言:“AI 的下一個浪潮將是具身智能(Embodied AI)。”
繼AI聊天機器人、大語言模型之后,具身智能作為AI領域的一個新的發展方向正受到越來越多的關注。
“具身智能是一種知行合一的AI,也就是在‘知’的層面上,智能體要具有感知、推理、決策的能力。在‘行’的層面,智能體可以通過身體的動作和表情,與環境以及其他智能體進行交互。這是一種既要有大腦,還要有軀體的智能體。”上海人形機器人制造業創新中心首席科學家江磊表示。
江磊強調,“具身智能的最佳物理形態就是人形機器人。”
近期舉行的2024全球開發者先鋒大會多場分論壇上,數位專家、學者和先鋒開發者分享了對具身智能以及人形機器人產業創新的思考。
人形機器人是“具身智能”的承載形態
所謂“具身智能”,就是指機器人或智能系統能夠通過感知器和執行器與其所處的環境進行實時互動,通常具備感知、認知、決策和行動的能力,能夠根據環境的變化做出相應的調整。
與傳統機器人相比,具身智能對環境的感知和響應能力相對更出色。而且,具身智能不僅能接收外部信息,還能理解這些信息,并作出適當的反應。
在此之前,華人計算機科學家、斯坦福大學教授李飛飛,上海交通大學教授盧策吾等人都曾提出“具身智能”這一概念技術。
隨著2022年底發布的ChatGPT風靡全球,在 ITF World 2023 半導體大會上,黃仁勛表示,AI 的下一個浪潮將是“具身智能”,即能理解、推理、并與物理世界互動的智能系統,引發全球關注。
在全球科技競賽的新賽道上,人形機器人正成為各國競相布局的焦點。借助政策驅動和資本助力,這一領域的創新和突破正在加速。2024年以來,人形機器人的商用化應用示范也正成為行業發展重點,然而商用化進程中仍面臨挑戰,這既是考驗,也是激發創新潛能的契機。
“人形機器人是具身智能最完美、最佳的承載形態,可能也是通用機器人的終極形態。”清華大學交叉信息研究院助理教授、星動紀元創始人兼CEO陳建宇表示。
陳建宇稱,“不管是工業場景還是我們的生活場景,目前大部分的事情還是由人來做。所以我們急需這樣一個更通用的機器人來幫助我們完成很多的任務。”
在陳建宇看來,人形機器人有三大優勢:
-
一是能最大限度地適配人類環境。整個人類的基礎設施、外界環境就是完全為人類建造的,這是不能改變的,因為人始終要生活在這個環境里。“如果我們要做一個機器人,它要通用的在人類的生活環境里面生活,那它一定只有以人的形態才能去最大限度地適應。”陳建宇說。
-
第二,從技術的角度來講,未來人形機器人這樣的具身智能肯定是以數據驅動,數據是很重要的一個環節。對于人形機器人來說它的數據可得性更高,因為它有跟人類更接近的形態,可以更加方便地從人的行為中來獲取數據。
-
第三,人形機器人也更能滿足人類情感與審美的要求,因為它有跟人更相似的形態。
江磊也同樣認為,人形機器人就是具身智能的最佳物理形態。
據公開數據顯示,目前國內人形機器人的產業規模已經達到200億,遠遠超過所有人的預想。
2023年以來,很多原本做人形機器人的公司也在增加具身智能的新概念。“我們給了它一個新的名詞叫通用人形機器人。目前在中國通用人形機器人整機的商業公司已經超過了25家。這個數字每天還在增長,可以說我國已經成為全球人形機器人產業的一個熱門聚集地。”江磊表示。
為何具身智能在AI領域越來越受到關注?上海人工智能實驗室研究員龐江淼表示,之前大家更關注計算機視覺、自然語言處理,現在具身智能突然受到了很大關注,是因為它的底層每一個模塊的技術都已經趨近成熟了。“ 在這樣的情況下,我們能夠基于強化學習的方式去解決一些傳統NPC解決不了的控制問題。智能機器人是一個系統工程,那當這個系統工程的每個子模塊的技術都有了躍進,那它本身就會成為下一個時代的目標。”龐江淼說。
復旦大學計算機科學技術學院研究員葉廣楠指出,目前大模型的發展是機器人領域發展的一個核心原動力。因為大模型有大量的數據,有強大的并行計算的能力,大模型實際上給機器人的核心內部注入了真實需要的“靈魂”。大模型會對機器人各個階段的發展起到很大的促進的作用。
人形機器人進化要素在于數據、算法和本體
談及未來人形機器人創新發展的技術關鍵,陳建宇指出,對于大語言模型發展主要的進化要素是數據、算法,而對于機器人來說有一些不同,除了數據和算法都需要從機器人的角度有一定的改進以外,還要加上本體。
本體和數據、算法的關系非常緊密。陳建宇認為,對于機器人的數據來說,它一定是需要從本體上面產生的,不管是現實世界的本體還是虛擬世界的本體。同時,算法在目前也跟本體有一定的耦合性,現在還不能說完全能解耦開去做這件事情,所以是三位一體聯合去迭代的過程。
“人形機器人本體部分的關鍵技術點在于關節和靈巧手,比如腿部的關節和需求怎么做,靈巧手要有多少自由度,觸覺怎么做,怎么樣平衡精度等等。此外還有一個很有意思的問題,就是人形機器人的手腿協同。我們發現如果還沿用原來的四足架構的話,當我們想讓(機器人的)手做一些訓練集沒有做過的事情,就會非常影響腿部的穩定性。所以我們提出了‘去中心化’的訓練架構,使得手和腿在必要的時候進行一定程度的解耦,但是需要的時候它又可以做到比較好的耦合。”陳建宇說。
江磊則從硬件、智能和場景三個方面來分析人形機器人在未來如何落地。
江磊坦言,“首先是硬件,硬件還是集中在一定要打造一款低成本的硬件,才能指望它進入千家萬戶,思路和以往也不同,這一輪低成本硬件我們更希望通過新制造、新傳感、新材料,使得機器人所有的復雜基建系統,尤其減速器、驅動器、電機、傳感器和芯片真正進入智能階段;其次是如何實現智能,‘具身智能’給了我們一個答案,具身智能+核心零部件會成為這個新賽道的新方向,比如特斯拉擎天柱Optimus人形機器人,僅使用視覺和關鍵位置編碼器,就可以在空間精準定位自己的肢體,這可以減少對高性能傳感器和減速器的依賴,有利于降本。(人形機器人)通過臂、手、眼的協同實現操作,從而降低成本。這也是我們希望核心零部件廠商關注的一個方向;最后是場景,未來具身智能應該是通過場景去打造一個規模化的數據集,然后把這個規模化數據集整理以后發給具身大模型。”
在江磊看來,具身智能未來可大致分為三種實現路徑:一是非端到端的路徑,采用語言大模型、視覺大模型,加載機器人就可以實現控制;二是半端到端,類似谷歌DeepMind發布的機器人大模型RT-2;三是完全端到端,江磊更看好完全端到端的路徑,
“(因為)這是一種理想的技術途徑,而且只有完全端到端能把軟件和硬件進行解耦,讓穩定應用成為可能。”江磊稱。