就在上個月,2025 世博會在日本開幕。雖然這屆倉促舉辦的世博會在網(wǎng)上充滿爭議,但我們也不得不承認,這一屆世博會確實給我們帶來了不少「樂子」。其中最具傳播效果的,莫過于日媒采訪時使用的翻譯設備搞錯了語氣,把「有看到什么厲害的東西嗎?」翻譯成了「有什么了不起的?」。
當然了,我們都知道,這只是翻譯設備對上下文理解不夠深入所引發(fā)的小誤會。但如果從用戶的角度看,翻譯設備作為跨語言交流的媒介,確實需要一個更清晰、明確的能力邊界定義,最好是像汽車的輔助駕駛、自動駕駛分類一樣,有一個清晰的評級。
比如被廣大 90 后學生當成掌機玩的電子詞典,就只能被歸類成 L1 翻譯——這類翻譯設備本質就是一個數(shù)字化、支持快速搜索和朗讀功能的字典:其翻譯引擎基于傳統(tǒng)的文本引擎打造,只能執(zhí)行最基本的詞對詞翻譯。即使你把整句話打進去,L1 翻譯也只能一個詞一個詞翻譯。前段時間網(wǎng)絡熱哏中把「白花了」翻譯成「White Flowers」的情況,就是 L1 翻譯的通病。?
L2 翻譯的原理和 L1 翻譯類似,其本質也是詞對詞的「映射」翻譯。只不過為了方便用戶,L2 翻譯「外掛」了語音識別模塊,可以自動把聽到的語音轉寫成文字,不再需要用戶自己打字。后續(xù)也有部分品牌將 L2 翻譯集成到耳機中,但「翻譯耳機」充其量只是翻譯設備形態(tài)的變化,并未改變翻譯時一人說,另一人只能干等的單向翻譯邏輯。
和自動駕駛技術一樣,L3 也是翻譯技術的分水嶺:因引入了 AI 大模型,L3 翻譯有了理解語義和上下文聯(lián)系的能力;而多模態(tài)模型等技術也顯著加快了語音翻譯的進程。體驗上,借助 AI 大模型能力, L3 翻譯實現(xiàn)了對「雙向同傳」技術的突破,因此 L3 級別的 AI 同傳也是目前體驗最好的一種翻譯模式。時空壺、科大訊飛等企業(yè)都在發(fā)力 L3 翻譯賽道。
但從翻譯結果來看,不同 AI 翻譯模型的能力可以說千差萬別:有些品牌能做到語義、情緒的精準傳達,有些就只能「僅供參考」——開頭是小雷提到的「有什么了不起的?」,就是 L3 翻譯錯誤的最好例子。
那有沒有 L3 翻譯的正面案例呢?當然有,前段時間又一次登上《新聞聯(lián)播》的時空壺,就是目前AI同傳的代表,也是唯一一款達到L3水準的AI同傳耳機。
在《新聞聯(lián)播》中,記者用將近 4 分鐘的時間,向外界展示了時空壺如何用 AI 技術發(fā)力翻譯賽道?!缎侣劼?lián)播》、將近 4 分鐘的深度報道,相信大家都能感受到時空壺這 AI 同傳技術的含金量。說起來,這已經(jīng)是 2025 年里時空壺第二次登上央視舞臺了。作為成立接近十年的「老企業(yè)」,時空壺又如何在 AI 時代找到自己的競爭力呢?
傳統(tǒng)翻譯有何問題?
在雷科技看來,時空壺之所以能用極短的時間坐上翻譯設備的頭把交椅,并將領先優(yōu)勢延續(xù)了近十年,這背后離不開時空壺對翻譯軟硬件技術的深度探索。
基于多年的技術積累,時空壺突破了雙向同傳的技術限制,率先邁進 L3 翻譯的階段,隨后在場景拓展、 AI 大模型升級等方面實現(xiàn)飛躍,與傳統(tǒng)的 L2 翻譯拉開了體驗的代差。那么這個代差體現(xiàn)在哪里呢?我們不妨先看看傳統(tǒng)的 L2 翻譯模式有何問題:?
剛剛提到,無論是手持的「翻譯機」還是佩戴的「翻譯耳機」,L2 翻譯設備都無法擺脫 L1 翻譯效率低、錯誤率高的問題。即使從文字輸入轉變?yōu)檎Z音輸入和 TTS 語音輸出,其算法依舊是老舊的L1 翻譯模式。這導致 L2 時代的翻譯耳機需要極長的翻譯時間,只能做到「偽同傳」——一個人說話時,另一個人只能干等。
而且為了控制成本,這些 L2 翻譯耳機通常基于市面上成熟的 TWS 公模開發(fā)。而這些公模 TWS 顯然不會針對翻譯耳機特殊的工作環(huán)境(背景噪聲大、對話距離近,佩戴時間長,人聲降噪要求高)開發(fā)。
以小雷參加 CES 等海外展會的體驗為例:普通的翻譯耳機幾乎無法識別小雷或對方在說什么,更不用說將語音轉成文字并準確翻譯了