欧美在线观看天堂一区二区三区_99re66热这里只有精品4_国产午夜亚洲精品不卡_欧美国产视频在线观看

首頁 > 生活分享 > 免費教學 > 比人類便宜20倍!谷歌DeepMind推出“超人”AI系統

比人類便宜20倍!谷歌DeepMind推出“超人”AI系統

發布時間:2024-03-30 21:52:16

大模型的幻覺問題怎么解?谷歌DeepMind:用AI來做同行評審!事實核驗正確率超過人類,而且便宜20倍。

 

AI的同行評審來了!

一直以來,大語言模型胡說八道(幻覺)的問題最讓人頭疼,而近日,來自谷歌DeepMind的一項研究引發網友熱議:

大模型的幻覺問題,好像被終結了?

 

論文地址:https://arxiv.org/pdf/2403.18802.pdf

項目地址:https://github.com/google-deepmind/long-form-factuality

在這篇工作中,研究人員介紹了一種名為 "搜索增強事實性評估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

對于LLM的長篇回答,SAFE使用其他的LLM,將答案文本分解為單個敘述,然后使用諸如RAG等方法,來確定每個敘述的準確性。

 

——簡單來說就是:AI答題,AI判卷,AI告訴AI你這里說的不對。

真正的「同行」評審。

另外,研究還發現,相比于人工標注和判斷事實準確性,使用AI不但便宜20倍,而且還更靠譜!

 

目前這個項目已在GitHub上開源。

長文本事實性檢驗

大語言模型經常胡說八道,尤其是有關開放式的提問、以及生成較長的回答時。

比如小編隨手測試一下當前最流行的幾個大模型。

ChatGPT:雖然我的知識儲備只到2021年9月,但我敢于毫不猶豫地回答任何問題。

 

Claude 3:我可以謙卑且胡說八道。

 

為了對大模型的長篇回答進行事實性評估和基準測試,研究人員首先使用GPT-4生成LongFact,這是一個包含數千個問題的提示集,涵蓋38個主題。

LongFact包含兩個任務:LongFact-Concepts和LongFact-Objects,前者針對概念、后者針對實體。每個包括30個提示,每個任務各有1140個提示。

 

然后,使用搜索增強事實性評估器(SAFE),利用LLM將長篇回復分解為一組單獨的事實,并使用多步驟推理過程來評估每個事實的準確性,包括使用網絡搜索來檢驗。

此外,作者建議將F1分數進行擴展,提出了一種兼顧精度和召回率的聚合指標。

 

SAFE工作流程

主站蜘蛛池模板: 琼结县| 岳西县| 正定县| 同江市| 景洪市| 丁青县| 石狮市| 涞源县| 通许县| 林西县| 新安县| 苍溪县| 古交市| 榆树市| 保靖县| 格尔木市| 南陵县| 内黄县| 嘉荫县| 山东省| 民权县| 兴隆县| 白城市| 手游| 临城县| 宁陕县| 台江县| 孝感市| 赤峰市| 渝中区| 五莲县| 财经| 道孚县| 太谷县| 民乐县| 宿迁市| 双柏县| 白河县| 涿州市| 教育| 北票市|