近日,智譜AI(人工智能)推出自主智能體AutoGLM,只需接收簡單的文字或語音指令,就可以模擬人類操作手機的“Phone use能力”。相關消息引發市場關注,甚至催生出“智譜AI概念股”。
10月29日,二級市場“智譜AI概念股”開盤即延續周一以來的漲勢,如豆神教育、思美傳媒、正和生態等個股連續兩日漲停。
一名接近智譜的人士對《每日經濟新聞》記者表示,AutoGLM在開發、適配的過程中,優先考慮了用戶使用手機時最頻繁的場景,當前,智譜依舊在持續迭代AutoGLM現有功能,并將基于用戶使用高頻場景,不斷拓展AutoGLM的應用邊界。
據悉,智譜已與中國三星深度合作,核心是將智譜的GLM大模型與三星的硬件技術相結合,以提升用戶的智能體驗。其實,AI在手機端的應用探索并非僅此一例,vivo、榮耀等都有類似功能升級,蘋果也計劃在未來進一步集成ChatGPT服務到Siri中。有學者在受訪時指出,AI與手機的結合正逐漸成為行業共識,這背后反映的是生成式AI在提升個性化體驗方面的潛力。
但也有業內人士向記者指出,當前的“個人智能助手”與此前的語音交互能力并無太大差別,從長期來看,服務端應該是越弱越好,難點并不在于技術或商業模式,而在于用戶習慣。
推出AutoGLM 智譜加速布局個人智能助理
據智譜發布的演示Demo(樣本),基于AutoGLM,用戶向手機下達“幫我在淘寶下單淘寶里上個月買過的牙膏”的指令,手機就能自動執行“AI打開App—找到歷史訂單—完成訂單篩選—請求用戶支付—完成支付”的過程。
智譜方面表示,理論上,AutoGLM可以完成人類在電子設備上可以做的任何事,它不受限于簡單的任務場景或API調用,也不需要用戶手動搭建復雜繁瑣的工作流,操作邏輯與人類類似。
中信證券在研報中提到,隨著互聯網軟件的種類、功能越來越豐富,智能體能否熟練地掌握每個軟件的使用方法,滿足不同用戶的個性化需求,真正成為個人助手值得期待。從以聊天為主的大模型1.0時代邁入個人智能助理的大模型2.0時代,以智譜為代表的國產AI公司完成了從追趕者到領路人的身份轉換。
圖片來源:視覺中國-VCG41N1256249270
從用戶的日常操作到潛在的商業應用,AutoGLM除了在“Phone use能力”層面的想象空間,未來的應用場景會如何拓展?
一名接近智譜的人士對《每日經濟新聞》記者表示,AutoGLM在開發、適配的過程中,優先考慮了用戶使用手機時最頻繁的場景。作為一個內測版本,AutoGLM還存在一些問題,當前智譜依舊在持續迭代AutoGLM現有功能,并將基于用戶使用高頻場景,不斷拓展AutoGLM的應用邊界,同時保護用戶隱私。
在技術突破層面,上述人士表示,AutoGLM基于智譜自研的“基礎智能體解耦合中間界面”和“自進化在線課程強化學習框架”。其中的核心技術WebRL,克服了大模型智能體在任務規劃與動作執行中存在的能力拮抗、訓練任務和數據稀缺、反饋信號稀少和策略分布漂移等智能體研究和應用難題,同時,借助自適應學習策略,能夠在迭代過程中不斷改進、持續穩定地提高自身性能。“就像一個人,在成長過程中,不斷獲取新技能。”
共識與非共識:端側語音交互是進步還是倒退?
大模型在端側應用的探索正在加速。
華鑫證券在其研報中預測,AI Agent的中國市場規模有望從2023年的554億元增長至2028年的8520億元,年復合增長率高達72.7%。中信建投則在研報中表示,預計在不久的將來會進入大模型時代的2.0時代:AI Agent。
在接受《每日經濟新聞》采訪時,清華大學新聞學院和人工智能學院雙聘教授沈陽指出,AI與手機結合正逐漸成為行業共識,而這背后反映的是生成式AI在提升個性化體驗方面的潛力。同時,隨著硬件與AI服務的一體化設計日趨完善,AI正在引發人機交互的范式變革,推動手機與用戶之間的關系從簡單的操作工具轉變為動態互動。沈陽認為,這一趨勢同樣將深刻影響國內市場,預計未來將有更多智能設備采用AI驅動的交互模式,從而極大提升用戶體驗。
在國內,除了智譜推出的AutoGLM,僅今年10月,就有數家廠商在端側有所動作。vivo推出藍心端側大模型3B,稱服務超5億手機用戶;字節發布首款AI智能體耳機Ola Friend,與豆包集成;榮耀推出MagicOS 9.0,打造AI OS實現一句話充值、一句話點外賣等服務。
在國際市場上,科技巨頭們同樣動作頻頻。蘋果在10月28日宣布推出AI功能,并計劃在未來進一步集成ChatGPT服務到Siri中;微軟則開源了OmniParser工具,為用戶提供了如自動訂票等便捷功能;谷歌計劃將推出Gemini 2.0,并正在開發能自動化執行Chrome網頁任務的“Project Jarvis”,該項目將幫助用戶執行諸如“收集研究、購買產品或預訂航班”等任務。
不過,也有人對當前AI應用在端側類似“個人智能助手”的探索持反對態度。“在我看來端側是倒退。”一家AI應用公司創始人在接受《每日經濟新聞》記者采訪時表示,從長期來看,服務端應該是越弱越好。他認為,當前無論是硬件設備、軟件應用,還是交互方式,均未超越上一輪語音交互熱潮期間入局企業所進行的探索范疇。或許在某些特定場景下,諸如蘋果這樣的行業巨頭,具備教育用戶或改變用戶需求的潛力,但極為困難,其難點并不在于技術或商業模式,而在于用戶習慣。
上述AI應用公司創始人認為,99%的用戶在表達需求時,不可能用一句話闡明具體意圖,更多是以一種“擠牙膏式”的互動一步步完成,例如,用戶需要訂一張北京飛往上海的機票,大部分用戶往往發出的第一句指令只有簡單的幾個字:訂機票,余下需求則需要通過提問再完成。“第一是用戶沒這個需求 ,第二是真正用起來,肯定會出現各種奇奇怪怪的問題,我對語音助手是非常悲觀的。”
他進一步補充道,盡管相關技術已經經歷了多次迭代,相較于過去已有顯著提升,但問題的核心仍在于需求的精準把握與滿足。