新智元導(dǎo)讀】大模型的幻覺(jué)問(wèn)題怎么解?谷歌DeepMind:用AI來(lái)做同行評(píng)審!事實(shí)核驗(yàn)正確率超過(guò)人類(lèi),而且便宜20倍。
AI的同行評(píng)審來(lái)了!
一直以來(lái),大語(yǔ)言模型胡說(shuō)八道(幻覺(jué))的問(wèn)題最讓人頭疼,而近日,來(lái)自谷歌DeepMind的一項(xiàng)研究引發(fā)網(wǎng)友熱議:
大模型的幻覺(jué)問(wèn)題,好像被終結(jié)了?

論文地址:https://arxiv.org/pdf/2403.18802.pdf
項(xiàng)目地址:https://github.com/google-deepmind/long-form-factuality
在這篇工作中,研究人員介紹了一種名為 "搜索增強(qiáng)事實(shí)性評(píng)估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。
對(duì)于LLM的長(zhǎng)篇回答,SAFE使用其他的LLM,將答案文本分解為單個(gè)敘述,然后使用諸如RAG等方法,來(lái)確定每個(gè)敘述的準(zhǔn)確性。

——簡(jiǎn)單來(lái)說(shuō)就是:AI答題,AI判卷,AI告訴AI你這里說(shuō)的不對(duì)。
真正的「同行」評(píng)審。
另外,研究還發(fā)現(xiàn),相比于人工標(biāo)注和判斷事實(shí)準(zhǔn)確性,使用AI不但便宜20倍,而且還更靠譜!

目前這個(gè)項(xiàng)目已在GitHub上開(kāi)源。
長(zhǎng)文本事實(shí)性檢驗(yàn)
大語(yǔ)言模型經(jīng)常胡說(shuō)八道,尤其是有關(guān)開(kāi)放式的提問(wèn)、以及生成較長(zhǎng)的回答時(shí)。
比如小編隨手測(cè)試一下當(dāng)前最流行的幾個(gè)大模型。
ChatGPT:雖然我的知識(shí)儲(chǔ)備只到2021年9月,但我敢于毫不猶豫地回答任何問(wèn)題。

Claude 3:我可以謙卑且胡說(shuō)八道。

為了對(duì)大模型的長(zhǎng)篇回答進(jìn)行事實(shí)性評(píng)估和基準(zhǔn)測(cè)試,研究人員首先使用GPT-4生成LongFact,這是一個(gè)包含數(shù)千個(gè)問(wèn)題的提示集,涵蓋38個(gè)主題。
LongFact包含兩個(gè)任務(wù):LongFact-Concepts和LongFact-Objects,前者針對(duì)概念、后者針對(duì)實(shí)體。每個(gè)包括30個(gè)提示,每個(gè)任務(wù)各有1140個(gè)提示。

然后,使用搜索增強(qiáng)事實(shí)性評(píng)估器(SAFE),利用LLM將長(zhǎng)篇回復(fù)分解為一組單獨(dú)的事實(shí),并使用多步驟推理過(guò)程來(lái)評(píng)估每個(gè)事實(shí)的準(zhǔn)確性,包括使用網(wǎng)絡(luò)搜索來(lái)檢驗(yàn)。
此外,作者建議將F1分?jǐn)?shù)進(jìn)行擴(kuò)展,提出了一種兼顧精度和召回率的聚合指標(biāo)。
