5月無疑是名副其實的“AI月”,從OpenAI直播演示ChatGPT更新內容,到谷歌的I/O開發者大會2024,再到微軟的Build年度開發者大會。這些活動向世界進一步展示了AI生產力的無限可能。今天,我們為大家精心整理了這三場重磅發布會的亮點,幫助您迅速把握即將問世的新技術以及正在迅速崛起的行業趨勢。
Open AI春季更新發布會

圖源:現場截圖
此次Open AI僅是在線上舉辦了“春季更新”活動。雖然活動沒有精美的ppt,也沒有震撼的demo,連Sam Altman都沒有露面,但是它推出的新旗艦模型“GPT-4o”真實地震撼了大家。
1. 推出多模態大模型GPT-4o。它可以接受文本、音頻和圖像任意組合的輸入,可以實時對音頻、視覺和文本進行推理,并生成這些格式的相應輸出。
2. 新模型使ChatGPT能夠處理50種不同的語言,速度和質量同時得到提高。它可以在短短232毫秒內處理音頻輸入,平均耗時320毫秒,與人類對話中的反應時間相當。
3. GPT-4o允許ChatGPT以更加逼真的方式與用戶交流。它不僅能檢測用戶聲音中的情緒,分析面部表情,還能根據用戶需求改變語調和節奏。如果想聽睡前故事,它可以用耳語說話。如果需要來一段帶“酸味兒”的對話,它就能以輕松、諷刺的語氣與人交談。它甚至還可以按要求唱歌,一會兒是高亢的女高音,一會兒又能變成迷人的女低音;甚至還能表達自我,例如對示愛表現出害羞的樣子。
4. 擁有了新能力后的GPT-4o,也擁有了與硬件結合的更多可能性。例如,以穿戴設備為載體,借助攝像頭來幫助視障人士;通過智能眼鏡、智能耳機等,成為人們的生活助理。
5. 除了推出新模型,在產品上Open AI也做出了諸多更新。首先,未來ChatGPT免費用戶的默認模型將升級成GPT-4o,不過使用額度是有限的;此外,大量的付費功能開放給免費用戶;最后,Open AI推出了macOS的客戶端,并表示Windows客戶端有望在下半年推出。
Google I/O 2024

圖源:現場截圖
在Open AI發布會的24小時后,2024年Google I/O全球開發者大會如期召開。在長達兩個小時的開幕主題演講中,谷歌展示的Project Astra和Veo,直接對標了目前Open AI領先的GPT-4o與Sora。此外,谷歌還展示了最新版Gemini加持的搜索能力,AI Overviews工具更是顛覆了搜索的邏輯。
1. 發布了GPT-4o同類產品Project Astra——基于Gemini模型開發,它可以通過攝像頭“看到”周圍環境并做出解說,能幾乎沒有延遲地與人互動,也能通過攝像頭解讀代碼和做數學題。除了語音交互外,它借助Gemini和谷歌豐富的應用生態,鏈接更多谷歌應用,讓用戶“只用一句簡單的prompt”,就能把信息鏈接起來,實現規劃;另外還有記憶功能——對攝像頭掃描過的地方形成記憶,即便當下視野不同,也能“根據記憶”告訴你想要找的東西。
2. 推出Gemini 1.5 Flash輕量級模型,速度更快,效率更高,從而能覆蓋更多的用戶。它擅長總結、聊天、凝練圖像和視頻,從長文檔和表格中提取信息。Gemini 1.5 Flash通過Gemini 1.5 Pro“蒸餾”得來——“知識蒸餾”是一種模型壓縮技術,讓小模型學習大模型,將重要的知識和技能遷移過來。
3. Gemini 1.5 Pro(和1.5 Flash)支持100萬tokens理解(年底,這個數字將直接翻番增至200萬),是目前大模型服務中所能支持的最長上下文輸入——它能充當“數據分析師”,從你上傳的表格中“及時”發現洞察,構建自定義的可視化圖表。全面接入Gemini的“谷歌辦公全家桶”,也將在未來幾個月內陸續上線“智能問答”“智能郵件回復”“表格圖像化總結”等新功能。模型的推理更進一步,改進了對模型對具體用例響應的控制,遵循用戶復雜和微妙的執行。
4. 發布了讓用戶自定義模型的Gems,對標Open AI的GPTs。
5. AI搜索現身,被命名為AI Overviews。這個功能可以“簡化”用戶提問,擁有更強大的多步推理能力。面對一個復雜問題,它會先將其拆解成多個簡單問題,再將簡單問題拆解成多個關鍵詞——反饋給用戶的頁面中,將是高度格式化的解釋、簡潔實用的行動指引、直接引導后續行為的鏈接等。未來的搜索產品邏輯可能會被徹底顛覆,人們不需要一個單獨的“搜索引擎”。
6. 更新了圖像模型——Imagen 3,團隊表示它生成的圖片細節更好,錯誤更少;推出了新的音樂模型,但并沒有透露模型名稱,只提到正在和一些音樂人合作試用。
7. 對標OpenAI Sora的模型推出了文生視頻模型Veo。官方稱,Veo模型可以生成超過一分鐘的1080p分辨率視頻,并具有多種電影和視覺風格。
8. 此外,Android有了更多系統級AI功能。除了年初發布的畫圈搜索功能外,新添加了TalkBack與詐騙電話實時監測兩個功能:前者主要針對視力障礙人群,你可以讓AI助手讀取你手機屏幕的內容,并且用語音描述給你;后者用AI分析電話內容,當存在詐騙等風險時會彈窗提醒用戶。
微軟Build 2024開發者大會

圖源:現場截圖
“三十多年來,微軟對于計算機一直有兩個夢想——一是讓計算機理解我們,而不是我們去理解計算機;二是在信息不斷增加的世界中,讓計算機幫助我們根據信息有效地進行推理、計劃和行動。人工智能浪潮已經為我們的夢想找到了答案。”微軟CEO薩蒂亞?納德拉在發布會上說道。
在發布會上,微軟一口氣宣布了50多項AI能力更新,從推出新的Windows機器“Copilot+PC”,到Recall等AI驅動的生成式AI功能,每一項都在告訴我們“AI 將如何重塑你的未來”。
1. 推出內置AI的新電腦——Copilot+PC。新設備配備了一個名為Prism的模擬層,承諾與Windows的x86應用程序無縫兼容。最直觀的變化是,新的鍵盤上會有一個Copilot鍵——用戶只要按下按鈕就能召喚Copilot,開啟人工智能輔助功能。而這也是微軟近三十年來首次調整鍵盤布局,上一次他們在鍵盤上加入的按鈕是Windows鍵。
2. Microsoft Copilot。在本次大會上,微軟展示了Copilot如何提升組織的團隊協作和業務效率。主要介紹了以下三個升級:
a) Team Copilot:Copilot從幕后的個人AI助手,擴展為團隊成員。用戶將能夠在Teams、Loop、Planner等協作工具中調用Copilot。Team Copilot能夠在會議中擔任會議主持人,管理會議議程、跟蹤會議時間并記錄會議要點;也可以在聊天中作為協作者,提供重要信息、跟蹤行動項目并解決未決問題;它還可以擔任項目經理,幫助確保每個項目順利推進,并及時通知團隊進行輸入。微軟宣布,Team Copilot將在今年晚些時候推出預覽版。