5月17日訊(記者 朱凌)近日,OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚艷交互能力,將新一輪AI爭霸帶入了“Her 時代”。GPT-4o的“o”代表“omni”,一詞意為“全能”,該模型能夠實現無縫的文本、視頻和音頻輸入,并生成相應模態的輸出,真正意義上實現了多模態交互。
緊隨其后一天,年度Google I/O開發者大會如期而至,谷歌CEO Sundar Pichai宣布了一系列圍繞其最新生成式AI模型Gemini的重大更新,全面反擊OpenAI,其中就有由升級后Gemini模型驅動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo等。
本周AI戰場暫告一段落,《科創板日報》記者對AI界的“明星”選手——谷歌Gemini 1.5 Pro(100萬tokens)、OpenAI最新升級的GPT-4o與此前發布的GPT-4進行了一場能力評測。
▍文本測試:谷歌Gemini 1.5 Pro正確率和速度完勝GPT-4o和GPT-4
OpenAI發布GPT-4已過去一年多,據介紹,此次推出新旗艦模型GPT-4o的推理能力有明顯的提升,速度快了,價格也下降了。
谷歌Gemini系列以其標志性的超大上下文窗口出名,此前已擁有Ultra、Pro和Nano三種規格,各適配不同規模與需求的應用場景。本次發布會宣布,迭代后的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens(語句單位)提升到了200萬tokens。這一改進顯著增強了模型的數據處理能力,使其在處理更加復雜和龐大的數據集時更加游刃有余。
兩家公司都對自己的大模型的升級換代展現出自信姿態,但情況還需要實際驗證。
第一題是“事實回答題”,只有谷歌Gemini 1.5 Pro模型回答正確,它能辨別出“螺絲釘并不是一種食品”這一事實。