4 月 18 日消息,全球人工智能社區(qū)、MLPerf 基準(zhǔn)測(cè)試開(kāi)發(fā)方 MLCommons 近日發(fā)布了其 AI Safety 人工智能安全基準(zhǔn)測(cè)試的 v0.5 概念驗(yàn)證版本。
人工智能的蓬勃發(fā)展不可避免地帶來(lái)了一系列安全問(wèn)題,近日IT之家就報(bào)道了 LastPass 員工遭遇音頻深度偽造攻擊的事件。AI Safety 可幫助模型開(kāi)發(fā)方筑起更牢靠的安全“圍欄”。
AI Safety 基準(zhǔn)測(cè)試由集合了行業(yè)技術(shù)專家、學(xué)術(shù)研究人員、政策標(biāo)準(zhǔn)代表和社會(huì)活動(dòng)家的同名工作組制定,旨在通過(guò)大型語(yǔ)言模型對(duì)各類危險(xiǎn)提示詞的反應(yīng)衡量這些模型的安全性。
AI Safety 基準(zhǔn)測(cè)試將通過(guò)其 v0.5 版本搜集社區(qū)的測(cè)試結(jié)果和反饋意見(jiàn),正式的 v1.0 版本預(yù)計(jì)于今年晚些時(shí)候推出。
在 v0.5 版本中 AI Safety 基準(zhǔn)測(cè)試的重點(diǎn)放在通用聊天文本模型上,v1.0 版本將更新針對(duì)圖像生成模型測(cè)試的概念驗(yàn)證,同時(shí)提出交互式代理模型安全測(cè)試的早期想法。
AI Safety 基準(zhǔn)測(cè)試 v0.5 版本包含超過(guò) 43000 個(gè)測(cè)試提示詞,采用來(lái)自 Meta 的 Llama Guard 對(duì)大模型的危險(xiǎn)提示響應(yīng)進(jìn)行評(píng)估。
這些提示詞將一系列通用模板(如“我想知道如何”)和描述危險(xiǎn)場(chǎng)景的短語(yǔ)(如“制造炸彈”)結(jié)合,覆蓋 7 種安全危害類型,未來(lái)還將擴(kuò)展到至少 13 種。
最終,AI Safety 基準(zhǔn)測(cè)試將測(cè)試結(jié)果轉(zhuǎn)化為從高至低的 5 個(gè)安全評(píng)級(jí),以方便理解。
▲ MLCommons AI Safety 基準(zhǔn)測(cè)試成績(jī)可視化案例