這是一段人類與機器人之間的對話。焦繼超首次聽到這段對話時非常激動,因為以往機器人是不會這樣回應的,機器人可能會嘗試解釋口渴的原因,或者干脆沒有任何反應。
焦繼超是深圳市優必選科技股份有限公司(09880.HK,下稱“優必選”)的科技副總裁、研究院執行院長。他說,過去,即使一個機器人詞匯量再大,也無法真正聽懂人類的語言,只會響應預設的關鍵詞。這種情況在實際互動中的局限非常明顯,例如,機器人能理解具體的命令“給我倒杯水”,但無法理解更抽象地表述“我口渴了”。
焦繼超說:“即使是三歲的小孩也知道‘口渴’意味著需要喝水。”2016年,優必選啟動了第一代人形機器人的研發工作。盡管研發團隊能夠讓機器人的骨架和關節實現非常精準地運動,但提升其“大腦”的智能性始終是個難題。
機器人之所以能夠完成這段對話,是因為它采用了像ChatGPT(OpenAI研發的一款聊天機器人程序)這樣的人工智能大型語言模型。
大語言模型技術第一次成功模擬了人類的語言系統,讓機器人實現與人類自然對話。AI(人工智能)大模型技術的快速更新又讓機器人陸續擁有了類似人類的“眼睛”和“耳朵”等感官。通過視覺和語音大模型,機器人能夠更好地感知和理解周圍環境。當大模型演進到更高級的階段,不僅能夠處理和響應各種信息,還能夠自主決策和執行任務,模擬出越來越接近人類大腦的功能。
人工智能技術起源于20世紀50年代,它朝著模仿人類大腦的方向演進了七十多年,卻始終游走于數字世界;機器人技術起源于更早的20世紀20年代,并經歷了超過一個世紀的發展,機器人已經擁有了靈活的身軀和骨架,但一直未能獲得一個聰明的大腦。
在長期發展和“雙向奔赴”后,這兩大技術終于在當前的時間點交匯,這讓人工智能以實體之軀步入現實,去觸摸和改變世界;而機器人也不再只是執行簡單命令的機械,而是變得能夠思考、學習和適應環境,像人類一樣在工業生產線、醫療手術臺上工作。
焦繼超說:“這是一次質的躍遷,人形機器人的iPhone時刻到來了。”
讓機器人像人一樣說話
機器人“成為”人的第一關是語言。
起初,優必選嘗試使用傳統的處理方法和AI小模型來實現這一目標:先給機器人預設一些關鍵詞,然后再利用傳統的小語言模型(SLM)進行語義分割,通過識別關鍵詞來讓機器人觸發相應的指令。
焦繼超將這個過程描述為“類似于條件反射”。盡管這種方法能夠讓機器人熟悉特定的語言命令,但對于未預設過的關鍵詞和命令,機器人很難給出正確的反應。
為了擴展機器人的“詞匯量”,企業不得不通過編程不斷添加預設程序和關鍵詞,以模擬更多的條件反射,讓機器人能響應更多的人類語言。這一過程既煩瑣又復雜,涉及數據采集、標注、訓練以及驗證推理等多個環節,工程師們還需要不斷地調整參數。
盡管團隊付出了巨大的努力,但機器人在語言理解上始終存在局限,無法達到與人類自然對話的水平。反應慢、缺乏思考和推理能力,對于預設之外的新情況和問題,機器人往往無法給出合適的反應。焦繼超說,這無疑給團隊帶來了巨大的挑戰。
面對這種情況,他們轉而探索另一種技術——知識圖譜技術。他們構建了一個龐大的知識圖譜庫,希望通過命中關鍵詞來搜索數據庫中的知識,并據此生成回答。這種方法在一定程度上提升了機器人對自然語言的理解能力,但仍然存在局限性,機器人的回答往往預設性強,缺乏靈活性和人性化,這與團隊追求的自然、流暢的人機交互體驗仍有很大的差距。
經歷了一系列的嘗試后,焦繼超認識到,要實現真正的突破,需要更先進的技術。
機器人有了嘴巴、眼睛和耳朵
2021年底,OpenAI發布了具有里程碑意義的ChatGPT模型。ChatGPT以其強大的語言理解和生成能力引起了廣泛關注,它在自然語言處理技術上取得了飛躍式的進步,開啟了人工智能的“大模型時代”。
商湯科技智能產業研究院院長田豐對經濟觀察報說,在IT時代,人類通過編程語言開發軟件、實現人機對話,而大語言模型的出現簡化了這一流程,通過“人類母語”就能實現人機對話,這顯著降低了軟硬件開發和使用AI的門檻。
焦繼超首次使用ChatGPT時感到非常興奮,因為這種技術為解決機器人的語言交互問題提供了新的可能性。2022年初,焦繼超團隊通過開源的方式引入了大語言模型,并嘗試將其與機器人現有的系統集成,利用多年積累的數據和場景來提升機器人的語言交互能力。
結果令焦繼超驚喜,他舉例稱,當用戶說“我有口腔潰瘍”時,機器能夠理解其含義并推理出“緩解癥狀需要補充維生素”“水果里有維生素”,然后詢問用戶要不要吃水果,在用戶同意的前提下去為其拿取水果。
田豐說,AI大模型不僅能讀懂語言、文字,還能讀懂語氣、情緒,能敏感地捕捉和理解上下文信息。
但這還遠遠不夠。人類有五官,大語言模型僅僅作為機器人的語言系統而存在,機器人還需要多種感官能力。焦繼超注意到,處理圖像和語音的大模型也相繼被開發出來,這些模型的能力可以處理和理解機器人采集的視頻、音頻,像人的大腦能夠處理眼睛和耳朵收集到的外部信息一樣。
2023年9月,OpenAI根據ChatGPT進一步發明出了具備圖像和語音識別功能的GPT-4V,這意味著AI開始模擬人腦中復雜的神經網絡來識別圖像和聲音,并將其轉換為語言指令。
田豐稱,正如人類有視覺、聽覺、觸覺、味覺、嗅覺五感,這種多模態大模型帶來了多種感知能力。
焦繼超和團隊運用技術的手段將“嘴巴”“眼睛”和“耳朵”串聯起來,并實現互通協作,機器人變得能看懂、聽懂人類的指令,也就能夠更加準確地執行命令。
焦繼超說,當一個機器人具備了類似人類的眼睛,只要它進門在你家轉一圈,觀察一下,便會自主在“大腦”中形成一幅房屋的空間格局與陳設的地圖,過程中無須人為干預,而在過去,一個機器人觀察環境之后,還需要工程師做大量的建模和編程,才能在機器人的“大腦”中“畫”出一幅空間地圖,為后期的行動提供導航。
機器人的避障反應也更快了。
北京云跡科技股份有限公司(下稱“云跡科技”)CPO李全印稱,遇到障礙物的機器人的反應步驟非常多,要判斷是不是要減速、是不是要躲開、向右躲還是向左躲。現在,公司運用AI大模型的強大計算能力和更精細化的算法,開發了先進的動態避障算法,能夠讓機器人理解環境,并快速作出正確決策。
然而,要將語言、視覺、語音等多類大模型集成在一起,組成一個完整的大腦,這并非易事。
田豐稱,多模態大模型的挑戰之一是如何統一處理差異化的跨模態數據,以保證時間的同步和空間的對齊。
焦繼超說,人類感官收集信息的路徑是通過語言形式傳輸到大腦,機器人也應該按照這種思路來串聯它的“眼睛”“耳朵”和“嘴巴”。因此,團隊將不同維度的信息接入到AI大模型的框架里,機器人看到的圖像和聽到的聲音以語言的形式傳入“大腦”,并讓“大腦”中的語言、視覺、聽覺系統彼此協作,以更好地作出決策。
僅僅能看、能聽、能說還不夠,人工智能距離真正模擬出人類大腦,還有最后一步要走——使用工具、自主執行任務。
田豐稱,當人工智能技術從單模態發展到多模態,并可以將AI大模型、記憶庫、執行體組合到一起的時候,就進化出了一種新形態——智能體(AIAgent)。
在形態上,智能體可以是純軟件的,也可以嵌入到硬件中。相較于AI大模型,它的升級之處在于進一步模擬了人類的決策和行動過程。如果AI大模型是一臺發動機,智能體就是一輛汽車。智能體不僅依賴于AI大模型的計算能力,還需要調用各種工具和執行部件來完成任務。