大模型的幻覺問題怎么解？谷歌DeepMind：用AI來做同行評審！事實核驗正確率超過人類，而且便宜20倍。

AI的同行評審來了！

一直以來，大語言模型胡說八道（幻覺）的問題最讓人頭疼，而近日，來自谷歌DeepMind的一項研究引發網友熱議：

大模型的幻覺問題，好像被終結了？

論文地址：https://arxiv.org/pdf/2403.18802.pdf

項目地址：https://github.com/google-deepmind/long-form-factuality

在這篇工作中，研究人員介紹了一種名為 "搜索增強事實性評估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

對于LLM的長篇回答，SAFE使用其他的LLM，將答案文本分解為單個敘述，然后使用諸如RAG等方法，來確定每個敘述的準確性。

——簡單來說就是：AI答題，AI判卷，AI告訴AI你這里說的不對。

真正的「同行」評審。

另外，研究還發現，相比于人工標注和判斷事實準確性，使用AI不但便宜20倍，而且還更靠譜！

目前這個項目已在GitHub上開源。

長文本事實性檢驗

大語言模型經常胡說八道，尤其是有關開放式的提問、以及生成較長的回答時。

比如小編隨手測試一下當前最流行的幾個大模型。

ChatGPT：雖然我的知識儲備只到2021年9月，但我敢于毫不猶豫地回答任何問題。

Claude 3：我可以謙卑且胡說八道。

為了對大模型的長篇回答進行事實性評估和基準測試，研究人員首先使用GPT-4生成LongFact，這是一個包含數千個問題的提示集，涵蓋38個主題。

LongFact包含兩個任務：LongFact-Concepts和LongFact-Objects，前者針對概念、后者針對實體。每個包括30個提示，每個任務各有1140個提示。

然后，使用搜索增強事實性評估器（SAFE），利用LLM將長篇回復分解為一組單獨的事實，并使用多步驟推理過程來評估每個事實的準確性，包括使用網絡搜索來檢驗。

此外，作者建議將F1分數進行擴展，提出了一種兼顧精度和召回率的聚合指標。

欧美在线观看天堂一区二区三区_99re66热这里只有精品4_国产午夜亚洲精品不卡_欧美国产视频在线观看

比人類便宜20倍！谷歌DeepMind推出“超人”AI系統