欧美亚洲成人网,亚洲人线精品午夜,亚洲欧美日韩成人高清在线一区

最近AI領(lǐng)域備受矚目的新聞中，OpenAI和谷歌的新品發(fā)布會(huì)，無疑占據(jù)了最多的頭條。

我們團(tuán)隊(duì)當(dāng)然也不例外，不僅第一時(shí)間觀看了兩家公司的發(fā)布會(huì)，還親身上手體驗(yàn)了號(hào)稱“顛覆世界”“世界又科幻了”的GPT-4o。

一句話總結(jié)：OpenAI發(fā)布會(huì)，失望；谷歌發(fā)布會(huì)，無聊。

并不是我們要故作驚人之語。實(shí)際上，AI業(yè)內(nèi)專業(yè)人士普遍都有類似的看法。

一些國(guó)內(nèi)從事AI工程化項(xiàng)目的人表示，“不關(guān)心，因?yàn)橛钟貌坏?rdquo;。而AI科學(xué)家和專家也有不少人直言，“看著看著睡著了，谷歌幾乎所有的東西都是對(duì)標(biāo)和追趕，沒有太多的新鮮感”。

只有谷歌受傷的世界達(dá)成了，但“全能模型”到底該不該跟？

又又又一次在與OpenAI的較量中處于下風(fēng)，一個(gè)只有谷歌受傷的世界達(dá)成了。

盡管兩大AI巨頭的新技術(shù)方向，仍然值得關(guān)注，但可以明確的是，隨著大型AI模型的產(chǎn)業(yè)化進(jìn)程不斷深入，國(guó)內(nèi)外參與者也越來越冷靜，更加專注于自身的AI策略與節(jié)奏。

有人將這兩場(chǎng)發(fā)布會(huì)比作是一場(chǎng)斗地主游戲，OpenAI打出一對(duì)二，谷歌就跟四個(gè)王。那么，這一次較量的核心——多模態(tài)大模型，國(guó)內(nèi)AI行業(yè)是否要跟進(jìn)呢？如果要跟進(jìn)，又該提前考量到哪些問題呢？

每一次新產(chǎn)品問世，如果只跟著新聞“震驚”是很難進(jìn)步的。不妨和我們一起，認(rèn)真給GPT-4o算筆賬。

全能模型究竟“驚艷”在哪里？

谷歌反擊OpenAI的發(fā)布會(huì)，被稱為“腹瀉式更新”，一口氣推出了十來款新品及升級(jí)。之所以讓人看到睡著，是因?yàn)榇蠹乙呀?jīng)在前一天被GPT-4o“驚艷”過了。

而這次谷歌開發(fā)者大會(huì)上所演示的其他產(chǎn)品，OpenAI早都發(fā)布過。對(duì)標(biāo)GPT-4o的Gemini Astra，表現(xiàn)又略遜一籌，也難怪大家興趣缺缺。顯然，這是一次針對(duì)谷歌的精準(zhǔn)狙擊。此前，谷歌已經(jīng)對(duì)外放出了語音助手demo演示的預(yù)熱視頻，而GPT-4o最讓人驚艷的地方就是“天花板級(jí)別”的人機(jī)自然語音交互。

那么，OpenAI機(jī)關(guān)算盡、谷歌有備而來的多模態(tài)大模型，究竟有什么神奇之處？

GPT-4o中的“o”代表“omni”，意為“全能”，以此為版本號(hào)，凸顯了GPT-4o的多功能特性，可以從三個(gè)方面理解：

1.多模態(tài)。

GPT-4o接受文本、音頻和圖像的任意組合作為輸入，實(shí)時(shí)對(duì)音頻、視覺和文本進(jìn)行推理，生成相應(yīng)的輸出。相比ChatGPT的文生文、文生圖，Sora的文生視頻等，GPT-4o是一個(gè)原生多模態(tài)的融合體。這一點(diǎn)，谷歌的Gemini Astra也能實(shí)現(xiàn)，支持多模態(tài)的推理。在演示視頻中，谷歌的智能助手可以理解手機(jī)攝像頭拍攝的世界（視頻、圖像），并用文字詳細(xì)地講述出來。

當(dāng)然，多模態(tài)大模型并不是什么新鮮事物。不只這倆AI巨頭，國(guó)內(nèi)在多模態(tài)大模型領(lǐng)域也有一些研究和開發(fā)。此前就有浙大校友開源了多模態(tài)大模型LLaVA，對(duì)標(biāo)OpenAI的GPT-4V。既然多模態(tài)大模型并不稀奇，那GPT-4o憑啥“驚艷”？答案就在第二點(diǎn)。

2.低時(shí)延。

GPT-4o是一個(gè)端到端、全鏈路貫穿的多模態(tài)大模型。

此前，語音產(chǎn)品一般由三個(gè)獨(dú)立模型組成：SLM1將音頻轉(zhuǎn)錄為文本——LLM將文本輸出為文本——SLM2將生成文本轉(zhuǎn)換為音頻。每一步的網(wǎng)絡(luò)延遲疊加起來，結(jié)果就是AI推理速度跟不上人嘴巴說話的速度。大家可能都有過類似的經(jīng)歷，自己都說完了，AI大模型還沒識(shí)別完全，互動(dòng)總被打斷，有時(shí)還會(huì)丟失很多信息，連基本的文字都聽不清，更別說從笑聲、停頓、嘆氣等因素中分析出人的情緒了，人當(dāng)然也就沒有了說下去的興致。

而GPT-4o的端到端，就是省去了中間的處理步驟，由同一個(gè)神經(jīng)網(wǎng)絡(luò)來接受并處理來自不同模態(tài)（如文本、視覺和音頻）的輸入數(shù)據(jù)，并直接輸出結(jié)果。這樣就可以將語音交互的響應(yīng)時(shí)延，控制在232 毫秒以內(nèi)，體感上比人類回應(yīng)還要迅速。

OpenAI演示完GPT-4o，大家紛紛表示，科幻電影中《Her》跟機(jī)器談情說愛的未來就要實(shí)現(xiàn)了。不過，谷歌并不這樣想。

只有谷歌受傷的世界達(dá)成了，但“全能模型”到底該不該跟？

（截圖自奧特曼的社交媒體）

在晚一天的谷歌發(fā)布會(huì)上，谷歌Gemini 1.5 Flash的響應(yīng)其實(shí)也很快速，同樣能幾乎沒有延遲地跟人類流暢互動(dòng)，但還是比GPT-4o要長(zhǎng)一些。不過谷歌聲稱，自己的兩段演示視頻均為“單次拍攝、實(shí)時(shí)錄制完成”。

我們猜測(cè)，這是在暗示OpenAI又在“貸款領(lǐng)先”了，GPT-4o實(shí)際可能無法很快真的落地，畢竟OpenAI搞誤導(dǎo)性營(yíng)銷是有前科的，Sora就曾爆出，拿藝術(shù)家編輯過的視頻當(dāng)原視頻宣傳，演示效果并非完全由AI生成。

展示效果是真是假，有待時(shí)間驗(yàn)證，不過OpenAI和谷歌在端到端方面的工作，證明了人機(jī)語音交互的超低時(shí)延是可以實(shí)現(xiàn)的，達(dá)到媲美人類交流的水平。而這，就為語音交互的多場(chǎng)景應(yīng)用，打下了新的技術(shù)根基。

3.多場(chǎng)景。

大家應(yīng)該都還記得，ChatGPT問世時(shí)舉世震驚的效果。大語言模型的強(qiáng)大理解能力和泛化性，可以促成NLP在多種文本任務(wù)上帶來顛覆式的影響，而這類任務(wù)幾乎遍布在各行各業(yè)。

再看GPT-4o，多模態(tài)大模型在音視頻理解方面尤其出色，也是一個(gè)非常泛在的通用型技術(shù)。而毫不夸張地說，GPT-4o將語音交互體驗(yàn)做到了“天花板級(jí)別”，這幾乎可以給語音場(chǎng)景都帶來改變。

比如OpenAI所展示的輔導(dǎo)孩子數(shù)學(xué)題，可以替代家長(zhǎng)輔導(dǎo)作業(yè)，讓家家都過上和諧的日子；《Her》電影中跟智能語音機(jī)器人談戀愛的場(chǎng)景，可以讓人人都擁有自己的網(wǎng)絡(luò)戀愛/在線情感撫慰師。延展開來，此前曾被嘲笑“人工智障”的手機(jī)語音助手，銀行、電信等行業(yè)的客服機(jī)器人，缺乏充足師資力量的偏遠(yuǎn)學(xué)校，游戲里跟玩家互動(dòng)的NPC紙片人，以及能識(shí)別用戶情緒的精準(zhǔn)營(yíng)銷……

凡有人聲處，皆可詠AI，正隨著端到端多模態(tài)大模型的進(jìn)化與落地，讓更自然、更逼真、富有感情的人機(jī)交互成為可能。

從這個(gè)角度說，GPT-4o所代表的技術(shù)前瞻性，確實(shí)配得上“全能o”這個(gè)詞。既然如此，為什么說只有谷歌一家受傷了呢？

欧美在线观看天堂一区二区三区_99re66热这里只有精品4_国产午夜亚洲精品不卡_欧美国产视频在线观看

只有谷歌受傷的世界達(dá)成了，但“全能模型”到底該不該跟？

全能模型究竟“驚艷”在哪里？

免費(fèi)教學(xué)更多>>