明敏·克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
近日,OpenAI連續(xù)12場發(fā)布會剛剛結(jié)束,但大家最為期待的GPT-5/4.5的影子都沒有出現(xiàn)。隨后,華爾街日報爆料稱,GPT-5的預(yù)訓(xùn)練之路走得頗為坎坷。
據(jù)透露,GPT-5已經(jīng)完成了至少2輪訓(xùn)練,每次訓(xùn)練都長達數(shù)月之久,但每次訓(xùn)練后都會遇到新的問題。OpenAI正在專門雇人編寫代碼、解決數(shù)學(xué)難題,為GPT-5從頭創(chuàng)建數(shù)據(jù),甚至使用o1合成數(shù)據(jù),但效率仍然不夠高,想要滿足GPT-5的預(yù)訓(xùn)練需求顯得尤為困難。
市場估算,僅一次長達6個月的訓(xùn)練就需要花費5億美金。GPT-5兩次訓(xùn)練進展都不順,背后的成本自然也是個天文數(shù)字。
Ilya前不久在NeurIPS 2024上宣判的預(yù)訓(xùn)練即將終結(jié)的言論,似乎再次得到了論證。同時,這也與The Information此前爆料的OpenAI正在嘗試調(diào)整戰(zhàn)略的消息相呼應(yīng),比如o1、o3系列的推出。
目前,OpenAI對最新爆料尚無回應(yīng)。但GPT-5究竟是OpenAI藏著不發(fā),還是不能發(fā)?答案似乎更確定了一點。
巨量數(shù)據(jù)算力堆不好GPT-5的預(yù)訓(xùn)練
在華爾街日報的爆料中,OpenAI對GPT-5寄予厚望。它能夠進行科學(xué)探索發(fā)現(xiàn),并完成例行的人類任務(wù),比如預(yù)約、訂航班。而且希望它能夠犯更少的錯誤,或者能夠承認錯誤存在,也就是減少幻覺。
這與之前透露出的信息相呼應(yīng)。OpenAI前CTO Mira曾將GPT-5的智能水平比作博士生。這意味著GPT-5能夠在某些特定領(lǐng)域取得高水平成績,能像研究生、博士那樣可以深刻理解、推理,并具備專業(yè)知識。
今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認為是因為相信GPT-5將能完成重大飛躍。
但是GPT-5的發(fā)布一直懸而未決。奧特曼此前表示,GPT-5不會有明確的發(fā)布時間,等什么時候準備好了,就什么時候發(fā)。這個時間可能是2025,也可能是2026。
如今回溯來看,GPT-5的推出一直都坎坷不斷。在2023年,OpenAI被曝光放棄了一個代號為Arrakis的模型。放棄原因是該模型不能實現(xiàn)在保持性能的同時減少對計算資源的需求,沒有達到預(yù)期的訓(xùn)練效率。
這其實反向證明,如果想要訓(xùn)練規(guī)模更大規(guī)模的模型,還是需要更龐大的計算資源、更長的時間。從設(shè)定來看,GPT-5顯然會是個“巨無霸”。
GPT-5的開發(fā)啟動于GPT-4發(fā)布時。至今已經(jīng)超過18個月了。它在內(nèi)部的代號是獵戶座Orion。按照原本計劃,微軟是想在2024年年中看到GPT-5的。
華爾街日報披露,GPT-5的大規(guī)模訓(xùn)練至少進行了2輪。每次都需要幾個月,每次也都遇到了新問題。最好的情況下,Orion比OpenAI目前的產(chǎn)品表現(xiàn)都要好。但與所消耗的成本相比,這種提升并不明顯。
另一方面,想要更好的模型,就需要更多的數(shù)據(jù)。公共資源的數(shù)據(jù)消耗殆盡,OpenAI決定雇人從頭構(gòu)建數(shù)據(jù)。據(jù)爆料,它專門找了一些軟件工程師、數(shù)學(xué)家來寫代碼、解數(shù)學(xué)題,供GPT-5學(xué)習(xí)。同時OpenAI也和一些物理學(xué)家合作,讓GPT-5學(xué)習(xí)科學(xué)家如何理解領(lǐng)域內(nèi)的問題。但問題就是,這樣太慢了。
AI合成數(shù)據(jù)的路子OpenAI也走。據(jù)說GPT-5就使用了o1合成的數(shù)據(jù)。這種范式可能已經(jīng)被論證。隔壁Anthropic也被爆料使用AI合成數(shù)據(jù)訓(xùn)練模型。
以上,大概就是GPT-5最新相關(guān)信息。
不過話說回來,最近誰還在乎GPT-5呢?畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。剛剛發(fā)布的o3在ARC-AGI上刷新成績。最新結(jié)果報告顯示,在400項公共任務(wù)上,o3的最好成績已經(jīng)達到91.5%。在核心機制上,o3也給出新啟發(fā)。它通過LLM在token空間內(nèi)搜索和執(zhí)行,實現(xiàn)了在測試時內(nèi)的知識重組。
o3屠榜ARC-AGI測試,離AGI還有多遠?
簡單介紹一下ARC-AGI數(shù)據(jù)集,題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。
這幾個示例比較簡單,但實際面臨的問題可能是這樣的:
ARC-AGI測試集一共包含400道公開試題和100個私有問題。在公開問題中,o3高效率版的準確率為82.8%,消耗了1.11億Token,平均每個任務(wù)成本為17美元。低效率版本(計算量是高效版的172倍),準確率高達91.5%,不過消耗的Token數(shù)也達到了驚人的95億。
另外OpenAI還做了一個專門針對ARC-AGI的版本,使用了75%的公開數(shù)據(jù)集進行了訓(xùn)練。這個版本拿到私有測試集上測試,結(jié)果地計算量模式取得了76%的準確率,高計算量模式則為88%。并且,低計算量版本的成本在ARC-AGI-Pub的規(guī)則范圍內(nèi)(<$10k),成為了公共排行榜上的第一名。
88%的高計算量版本則過于昂貴,但仍然表明新任務(wù)的性能確實隨著計算量的增加而提高。在此之前,GPT-3的準確率是零,GPT-4o為5%,o1最好也剛剛超過30%。
ARC挑戰(zhàn)的發(fā)起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認為,o3能夠適應(yīng)以前從未遇到過的任務(wù),可以說在ARC-AGI領(lǐng)域接近人類水平。當(dāng)然成本也十分昂貴,即使是低計算量模式,每個任務(wù)也需要17-20美元,而發(fā)起方雇傭真人解決此類問題的成本,平均到每個問題只有5美元。
但拋開成本問題,Chollet指出,o3對GPT系列的改進證明了架構(gòu)的重要性,認為無法在GPT-4上通過投入更多計算來獲得這樣的成績。所以,通過ARC-AGI測試,意味著o3實現(xiàn)AGI了嗎?Chollet認為并不是。
通過測試發(fā)現(xiàn),o3在一些非常簡單的任務(wù)上仍然失敗,這表明其與人類智能存在根本差異。另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測試表明其將對o3構(gòu)成重大挑戰(zhàn),即使在高計算量模式下,其得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。
但無論是否達到AGI,o3能夠?qū)崿F(xiàn)的成績都是前所未有的,甚至有人認為,針對ARC這樣的任務(wù)而言,人類的優(yōu)勢其實是在于視覺推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會比AI好。
One More Thing
作為12天發(fā)布的一部分,OpenAI在最后一天發(fā)布o3的同時,也發(fā)了一篇關(guān)于安全問題的論文。
論文引入了一種名為慎重對齊的對齊方式,直接向推理模型傳授人工編寫、可解釋的安全規(guī)范,并訓(xùn)練他們在回答之前對這些規(guī)范進行明確的推理。
結(jié)果,訓(xùn)練出的模型不需要人工標記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。
OpenAI發(fā)現(xiàn),o1在一系列內(nèi)部和外部安全基準方面顯著優(yōu)于GPT-4o等其他最先進模型,并且在許多具有挑戰(zhàn)性的(安全)數(shù)據(jù)集上的性能達到飽和。這一發(fā)現(xiàn),揭示了推理將成為提高模型安全性的一條新途徑。