就在上個(gè)月,2025 世博會(huì)在日本開(kāi)幕。雖然這屆倉(cāng)促舉辦的世博會(huì)在網(wǎng)上充滿爭(zhēng)議,但我們也不得不承認(rèn),這一屆世博會(huì)確實(shí)給我們帶來(lái)了不少「樂(lè)子」。其中最具傳播效果的,莫過(guò)于日媒采訪時(shí)使用的翻譯設(shè)備搞錯(cuò)了語(yǔ)氣,把「有看到什么厲害的東西嗎?」翻譯成了「有什么了不起的?」。
當(dāng)然了,我們都知道,這只是翻譯設(shè)備對(duì)上下文理解不夠深入所引發(fā)的小誤會(huì)。但如果從用戶的角度看,翻譯設(shè)備作為跨語(yǔ)言交流的媒介,確實(shí)需要一個(gè)更清晰、明確的能力邊界定義,最好是像汽車(chē)的輔助駕駛、自動(dòng)駕駛分類(lèi)一樣,有一個(gè)清晰的評(píng)級(jí)。
比如被廣大 90 后學(xué)生當(dāng)成掌機(jī)玩的電子詞典,就只能被歸類(lèi)成 L1 翻譯——這類(lèi)翻譯設(shè)備本質(zhì)就是一個(gè)數(shù)字化、支持快速搜索和朗讀功能的字典:其翻譯引擎基于傳統(tǒng)的文本引擎打造,只能執(zhí)行最基本的詞對(duì)詞翻譯。即使你把整句話打進(jìn)去,L1 翻譯也只能一個(gè)詞一個(gè)詞翻譯。前段時(shí)間網(wǎng)絡(luò)熱哏中把「白花了」翻譯成「White Flowers」的情況,就是 L1 翻譯的通病。?
L2 翻譯的原理和 L1 翻譯類(lèi)似,其本質(zhì)也是詞對(duì)詞的「映射」翻譯。只不過(guò)為了方便用戶,L2 翻譯「外掛」了語(yǔ)音識(shí)別模塊,可以自動(dòng)把聽(tīng)到的語(yǔ)音轉(zhuǎn)寫(xiě)成文字,不再需要用戶自己打字。后續(xù)也有部分品牌將 L2 翻譯集成到耳機(jī)中,但「翻譯耳機(jī)」充其量只是翻譯設(shè)備形態(tài)的變化,并未改變翻譯時(shí)一人說(shuō),另一人只能干等的單向翻譯邏輯。
和自動(dòng)駕駛技術(shù)一樣,L3 也是翻譯技術(shù)的分水嶺:因引入了 AI 大模型,L3 翻譯有了理解語(yǔ)義和上下文聯(lián)系的能力;而多模態(tài)模型等技術(shù)也顯著加快了語(yǔ)音翻譯的進(jìn)程。體驗(yàn)上,借助 AI 大模型能力, L3 翻譯實(shí)現(xiàn)了對(duì)「雙向同傳」技術(shù)的突破,因此 L3 級(jí)別的 AI 同傳也是目前體驗(yàn)最好的一種翻譯模式。時(shí)空壺、科大訊飛等企業(yè)都在發(fā)力 L3 翻譯賽道。
但從翻譯結(jié)果來(lái)看,不同 AI 翻譯模型的能力可以說(shuō)千差萬(wàn)別:有些品牌能做到語(yǔ)義、情緒的精準(zhǔn)傳達(dá),有些就只能「僅供參考」——開(kāi)頭是小雷提到的「有什么了不起的?」,就是 L3 翻譯錯(cuò)誤的最好例子。
那有沒(méi)有 L3 翻譯的正面案例呢?當(dāng)然有,前段時(shí)間又一次登上《新聞聯(lián)播》的時(shí)空壺,就是目前AI同傳的代表,也是唯一一款達(dá)到L3水準(zhǔn)的AI同傳耳機(jī)。
在《新聞聯(lián)播》中,記者用將近 4 分鐘的時(shí)間,向外界展示了時(shí)空壺如何用 AI 技術(shù)發(fā)力翻譯賽道。《新聞聯(lián)播》、將近 4 分鐘的深度報(bào)道,相信大家都能感受到時(shí)空壺這 AI 同傳技術(shù)的含金量。說(shuō)起來(lái),這已經(jīng)是 2025 年里時(shí)空壺第二次登上央視舞臺(tái)了。作為成立接近十年的「老企業(yè)」,時(shí)空壺又如何在 AI 時(shí)代找到自己的競(jìng)爭(zhēng)力呢?
傳統(tǒng)翻譯有何問(wèn)題?
在雷科技看來(lái),時(shí)空壺之所以能用極短的時(shí)間坐上翻譯設(shè)備的頭把交椅,并將領(lǐng)先優(yōu)勢(shì)延續(xù)了近十年,這背后離不開(kāi)時(shí)空壺對(duì)翻譯軟硬件技術(shù)的深度探索。
基于多年的技術(shù)積累,時(shí)空壺突破了雙向同傳的技術(shù)限制,率先邁進(jìn) L3 翻譯的階段,隨后在場(chǎng)景拓展、 AI 大模型升級(jí)等方面實(shí)現(xiàn)飛躍,與傳統(tǒng)的 L2 翻譯拉開(kāi)了體驗(yàn)的代差。那么這個(gè)代差體現(xiàn)在哪里呢?我們不妨先看看傳統(tǒng)的 L2 翻譯模式有何問(wèn)題:?
剛剛提到,無(wú)論是手持的「翻譯機(jī)」還是佩戴的「翻譯耳機(jī)」,L2 翻譯設(shè)備都無(wú)法擺脫 L1 翻譯效率低、錯(cuò)誤率高的問(wèn)題。即使從文字輸入轉(zhuǎn)變?yōu)檎Z(yǔ)音輸入和 TTS 語(yǔ)音輸出,其算法依舊是老舊的L1 翻譯模式。這導(dǎo)致 L2 時(shí)代的翻譯耳機(jī)需要極長(zhǎng)的翻譯時(shí)間,只能做到「?jìng)瓮瑐鳌?mdash;—一個(gè)人說(shuō)話時(shí),另一個(gè)人只能干等。
而且為了控制成本,這些 L2 翻譯耳機(jī)通常基于市面上成熟的 TWS 公模開(kāi)發(fā)。而這些公模 TWS 顯然不會(huì)針對(duì)翻譯耳機(jī)特殊的工作環(huán)境(背景噪聲大、對(duì)話距離近,佩戴時(shí)間長(zhǎng),人聲降噪要求高)開(kāi)發(fā)。
以小雷參加 CES 等海外展會(huì)的體驗(yàn)為例:普通的翻譯耳機(jī)幾乎無(wú)法識(shí)別小雷或?qū)Ψ皆谡f(shuō)什么,更不用說(shuō)將語(yǔ)音轉(zhuǎn)成文字并準(zhǔn)確翻譯了