OpenAI“雙12”直播第二天,依舊簡短精悍,主題:
新功能強化微調(Reinforcement Fine-Tuning),使用極少訓練數據即在特定領域輕松地創建專家模型。
少到什么程度呢?最低幾十個例子就可以。
CEO奧特曼表示“效果一級棒,是我2024年最大的驚喜,期待看到人們構建什么!”
那么效果有多棒呢?
微調后的o1-mini模型得分提高80%,直接反超o1正式版。
目前OpenAI已開啟強化微調研究計劃,開發者可以申請強化微調API的alpha版本訪問權限。
進行測試時,可使用幾十到幾千個高質量數據,模型能夠通過強化學習自行探索和學習如何推理復雜任務。
蹲守直播間的網友們聽得也是one愣one愣的,完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。
OpenAI員工Jerry Tworek則表示“AGI不是授人以魚,而是授人以漁”。
OpenAI微調首次支持強化學習
直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員,還有伯克利實驗室計算生物學家Justin Reese,他們共同演示了強化微調功能的全過程。