近期,微軟對其Azure AI語音服務進行了重要升級,新上線了9款更真實的AI語音。微軟提升了AI語音的自然度,在語調、節奏和情感上更好捕捉了人類語音的細微差別,讓合成的語音更加生動和真實,其逼真的效果引發大家的關注討論。

微軟Azure AI語音合成體驗頁面
但這一次微軟并非領先者,早在2個月前,科大訊飛就在訊飛星火V3.5發布會上,率先推出了超擬人語音合成技術,并搭載在訊飛星火APP中開放給全民體驗。其擬人度超過83%,MOS分達到4.5分(滿分5分,分數越高表示語音質量越好),體驗下來它的聲音流暢自然,表達已非常接近人類的真實聲音。
可以看到,隨著大模型的發展如火如荼,作為重要的表達方式,超擬人合成技術成為國內外AI巨頭爭相布局的重點,一場超擬人合成技術PK賽正在上演。
微軟VS科大訊飛:星火擬人度更優
語音合成技術在上世紀九十年代后快速發展,尤其是深度學習技術的出現推動語音合成進入全新階段,逐步走向規模化應用落地、被大眾所熟知。相比字正腔圓的“播音腔”,現在語音合成的風向標更多指向貼近真人日常表達,也就是超擬人。
普通人正常交流對話中會帶有一定的語氣、情感和口語化表達,也會出現重復、卡頓、嘆氣、呼吸、說錯字詞,還有吞音、輕聲等習慣說法。考量超擬人語音效果,不僅要看說話的自然度、流暢度,也要看這些口語化和副語言的頻率和細節是否更貼近真實,以及語音中的情感是否貼合說話內容等維度。
目前,微軟上新的AI語音可以在Azure AI服務頁面里進行試聽和調用,科大訊飛超擬人合成在訊飛星火APP和訊飛開放平臺上均可體驗和使用。

近日,也有媒體以相同的文本對兩者的超擬人合成技術進行了體驗評測,發現微軟和科大訊飛在超擬人合成的擬人度上相較傳統語音合成效果都有了顯著進步,克服了合成聲音“板正”、“一絲不茍”的“播音腔”問題;同時在停頓、語速變化等副語言上的表現也相當自然,“哈哈”、“嗯”等常見的口語化詞語也和說話內容進行了較好融合。
對比來看,微軟上新的9款AI語音覆蓋了更多語種和說話風格,說話的自然度和流暢度相對較好,但在語氣詞等口語化表達上稍顯突兀;科大訊飛的超擬人合成在整體的擬人化程度上略勝一籌,交互和表達效果更生活化、也更自然,口語化詞語的插入不突兀,遇到一些中英文混雜的詞語,也能做到發音自然。
值得一提的是,科大訊飛超擬人合成在情感表達上表現更為突出。在輸入表達不同程度開心的相關文字后,訊飛超擬人合成的效果能夠根據程度不同展現出可感知的差別;而微軟在情感表達上稍遜一籌,合成效果與普通語氣基本沒有差異。綜合來看,科大訊飛的超擬人技術在擬人度與情感表達上更優。
通用大模型+語音大模型 讓語音合成更逼真
今年1月30日科大訊飛發布超擬人合成時,也發布了最新的星火語音大模型,它可謂是讓語音合成聽起來更加自然和逼真的“殺手锏”。
