5月18日消息,谷歌DeepMind昨晚推出AI前沿安全框架,并公布技術報告。

前沿安全框架是一套協議,強調了在AI模型發展過程中識別和緩解潛在風險的重要性,旨在主動識別未來可能造成嚴重傷害的AI能力,并建立檢測和減輕它們的機制。
其計劃是到2025年初全面實施這一初步框架。該框架側重于模型級別的強大能力(如特殊機構或復雜的網絡能力)所導致的嚴重風險,對谷歌的一致性研究進行補充。
在技術報告中,值得關注的是,保護安全性方面的主要緩解風險措施是保護模型權重,這里的安全似乎更多跟商業秘密相掛鉤。
一、三大關鍵組成:識別危害閾值,定期評估檢測,應用緩解措施
今天公布的第一版框架建立在谷歌對前沿模型中關鍵能力評估的研究基礎上,并遵循了負責任的能力擴展這一新興方法。
該框架有3個關鍵組成部分:

1、識別模型可能具有的嚴重危害的能力閾值。谷歌DeepMind研究了模型在高風險領域中可能造成嚴重傷害的路徑,然后確定模型在造成這種傷害中必須發揮作用的最小能力水平,被稱作“關鍵能力閾值”(CCLs),它們指導了谷歌DeepMind的評估和緩解方法。
2、定期評估前沿模型,以檢測它們何時達到這些關鍵能力閾值。谷歌DeepMind將開發模型評估套件,稱為“早期預警評估”,當模型接近CCL時,它將提醒并頻繁運行,以便研究人員在達到閾值前注意到。
3、當模型達到早期預警評估時,應用緩解計劃。這應考慮到利益和風險的總體平衡,以及預期的部署環境。這些緩解措施將主要關注安全性(防止模型泄露)和部署(防止濫用關鍵能力)。
二、兩類緩解措施管理關鍵能力,4個領域最有可能造成嚴重風險
前沿安全框架提出了兩類緩解措施:一是防止模型權重泄露,二是管理對部署中關鍵能力的訪問并限制其表達。
對于每一類緩解措施,谷歌DeepMind都制定了若干級別,使其能夠根據所構成的風險調整措施的穩健性。
下表描述了可應用于模型權重以防止其泄漏的安全緩解級別。

根據技術報告,模型權重的泄露可能允許移除任何訓練到模型中或與模型一起部署的保障措施,并因此訪問(包括不良參與者)任何關鍵能力。
更高級別的安全緩解可以更好地防止模型權重的泄露,更嚴格地管理關鍵能力。但這些措施也可能減慢創新的速度,并降低能力的廣泛可及性。
下表描述了部署緩解級別,以管理對部署中關鍵能力的訪問并限制其表達。

關鍵能力的濫用可能或多或少難以與有益的使用區分開來,并且濫用的總體風險可能因部署上下文而異。因此,這里列出的緩解選項是說明性的,需針對不同的用例和風險進行調整。
谷歌DeepMind最初研究表明,未來基礎模型的能力最有可能在這4個領域造成嚴重的風險:自主、生物安全、網絡安全和機器學習研發。
在自主性、網絡安全和生物安全方面,其主要目標是評估威脅行為者使用具有先進能力的模型進行有害活動并造成嚴重后果的程度。
對于機器學習研發而言,重點在于具有此類能力的模型是否能夠使具有其他關鍵能力的模型得以傳播,或者是否能夠使AI能力快速且難以管理地升級。
其技術報告詳細介紹了通過對自主性、生物安全、網絡安全和機器學習研發風險領域的初步分析確定的一組初始CCL。
