揭秘OpenAI的野心:讓AI為你搞定一切
2022 年,亨特?萊特曼以研究員身份加入 OpenAI 后不久,便見證了同事們推出 ChatGPT—— 這款產(chǎn)品后來成為史上增長最快的產(chǎn)品之一。與此同時(shí),萊特曼則在一個(gè)團(tuán)隊(duì)中默默耕耘,致力于教 OpenAI 的模型解決高中數(shù)學(xué)競(jìng)賽題。
如今,這個(gè)名為 MathGen 的團(tuán)隊(duì)被視為 OpenAI 打造 AI 推理模型這一行業(yè)領(lǐng)先舉措的關(guān)鍵力量,而 AI 推理模型正是能像人類一樣在電腦上完成任務(wù)的 AI 代理的核心技術(shù)。
“我們當(dāng)時(shí)試圖讓模型在數(shù)學(xué)推理方面做得更好,因?yàn)槟菚r(shí)它們?cè)谶@方面還很薄弱,” 萊特曼在描述 MathGen 早期工作時(shí)對(duì) TechCrunch 表示。
OpenAI 的模型如今遠(yuǎn)非完美 —— 該公司最新的 AI 系統(tǒng)仍會(huì)出現(xiàn)幻覺,其代理在處理復(fù)雜任務(wù)時(shí)也力不從心。
但它的最先進(jìn)模型在數(shù)學(xué)推理方面已有顯著進(jìn)步。OpenAI 的一款模型最近在國際數(shù)學(xué)奧林匹克競(jìng)賽(一項(xiàng)面向全球最聰明高中生的數(shù)學(xué)競(jìng)賽)中斬獲金牌。OpenAI 認(rèn)為,這些推理能力將遷移到其他學(xué)科,最終為該公司一直夢(mèng)寐以求的通用代理提供動(dòng)力。
ChatGPT 的誕生純屬意外 —— 一次低調(diào)的研究預(yù)覽意外走紅,演變成消費(fèi)級(jí)業(yè)務(wù) —— 但 OpenAI 的代理是該公司多年來精心努力的成果。
“最終,你只需向電腦提出需求,它就會(huì)為你完成所有這些任務(wù),”O(jiān)penAI 首席執(zhí)行官山姆?奧特曼在 2023 年公司首屆開發(fā)者大會(huì)上表示?!斑@些能力在 AI 領(lǐng)域通常被稱為代理。其帶來的好處將是巨大的?!?/p>
這些代理能否實(shí)現(xiàn)奧特曼的愿景仍有待觀察,但 OpenAI 在 2024 年秋季推出首個(gè) AI 推理模型 o1 時(shí),震驚了世界。不到一年后,促成這一突破的 21 名基礎(chǔ)研究員成為硅谷最炙手可熱的人才。
馬克?扎克伯格招募了 5 名參與 o1 研發(fā)的研究員,讓他們加入 Meta 新成立的專注于超級(jí)智能的部門,并為部分人提供了超過 1 億美元的薪酬方案。其中之一的趙勝佳最近被任命為 Meta 超級(jí)智能實(shí)驗(yàn)室的首席科學(xué)家。
強(qiáng)化學(xué)習(xí)的復(fù)興
OpenAI 推理模型和代理的崛起與一種名為強(qiáng)化學(xué)習(xí)(RL)的機(jī)器學(xué)習(xí)訓(xùn)練技術(shù)息息相關(guān)。強(qiáng)化學(xué)習(xí)在模擬環(huán)境中向 AI 模型反饋其選擇是否正確。
強(qiáng)化學(xué)習(xí)已應(yīng)用數(shù)十年。例如,2016 年,在 OpenAI 于 2015 年成立約一年后, DeepMind 使用強(qiáng)化學(xué)習(xí)創(chuàng)建的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界冠軍,引發(fā)全球關(guān)注。
大約在那時(shí),OpenAI 的首批員工之一安德烈?卡帕西開始思考如何利用強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)能使用電腦的 AI 代理。但 OpenAI 花了數(shù)年時(shí)間才開發(fā)出必要的模型和訓(xùn)練技術(shù)。
到 2018 年,OpenAI 在 GPT 系列中率先推出首個(gè)大型語言模型,該模型在海量互聯(lián)網(wǎng)數(shù)據(jù)和大型 GPU 集群上進(jìn)行預(yù)訓(xùn)練。GPT 模型在文本處理方面表現(xiàn)出色,最終催生出 ChatGPT,但在基礎(chǔ)數(shù)學(xué)方面卻存在短板。
直到 2023 年,OpenAI 才取得突破,最初將其命名為 “Q*”,后又改稱 “Strawberry”。這一突破通過結(jié)合大型語言模型、強(qiáng)化學(xué)習(xí)和一種名為測(cè)試時(shí)計(jì)算的技術(shù)實(shí)現(xiàn)。后者讓模型在給出答案前,有額外的時(shí)間和計(jì)算能力來規(guī)劃和解決問題,并驗(yàn)證每一步驟。
這使得 OpenAI 能夠引入一種名為 “思維鏈”(CoT)的新方法,該方法提高了 AI 在處理未見過的數(shù)學(xué)問題時(shí)的表現(xiàn)。
“我能看到模型開始進(jìn)行推理,” 埃爾?基什基說。“它會(huì)發(fā)現(xiàn)錯(cuò)誤并回溯,還會(huì)‘感到沮喪’。這真的就像在閱讀一個(gè)人的想法?!?/p>
盡管這些技術(shù)本身并非新穎,但 OpenAI 獨(dú)特地將它們結(jié)合起來,創(chuàng)建了 Strawberry,這直接促成了 o1 的開發(fā)。OpenAI 很快意識(shí)到,AI 推理模型的規(guī)劃和事實(shí)核查能力可用于為 AI 代理提供動(dòng)力。
“我們解決了一個(gè)我多年來一直冥思苦想的問題,” 萊特曼說?!斑@是我研究生涯中最激動(dòng)人心的時(shí)刻之一?!?/p>
擴(kuò)展推理能力
憑借 AI 推理模型,OpenAI 確定了兩個(gè)可用于改進(jìn) AI 模型的新方向:在 AI 模型的后期訓(xùn)練中使用更多計(jì)算能力,以及讓 AI 模型在回答問題時(shí)有更多時(shí)間和處理能力。
“作為一家公司,OpenAI 不僅關(guān)注事物的現(xiàn)狀,還非常關(guān)注它們的擴(kuò)展方式,” 萊特曼說。
兩位消息人士告訴 TechCrunch,在 2023 年 Strawberry 取得突破后不久,OpenAI 成立了一個(gè)由研究員丹尼爾?塞爾薩姆領(lǐng)導(dǎo)的 “代理” 團(tuán)隊(duì),以在這一新范式上取得進(jìn)一步進(jìn)展。盡管該團(tuán)隊(duì)名為 “代理”,但 OpenAI 最初并未像我們?nèi)缃袼氲哪菢訁^(qū)分推理模型和代理。該公司只是想讓 AI 系統(tǒng)能夠完成復(fù)雜任務(wù)。
最終,塞爾薩姆領(lǐng)導(dǎo)的代理團(tuán)隊(duì)的工作成為開發(fā) o1 推理模型這一更大項(xiàng)目的一部分,該項(xiàng)目的負(fù)責(zé)人包括 OpenAI 聯(lián)合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學(xué)家雅各布?帕喬基。
OpenAI 必須投入寶貴的資源 —— 主要是人才和 GPU—— 來開發(fā) o1。縱觀 OpenAI 的歷史,研究人員必須與公司領(lǐng)導(dǎo)層協(xié)商以獲取資源,而展示突破性成果是確保獲得資源的可靠方法。
“OpenAI 的核心特點(diǎn)之一是,研究方面的一切都是自下而上的,” 萊特曼說?!爱?dāng)我們展示(o1 的)證據(jù)時(shí),公司表示‘這很有意義,讓我們繼續(xù)推進(jìn)’?!?/p>
一些前員工表示,這家初創(chuàng)公司開發(fā)通用人工智能(AGI)的使命是在 AI 推理模型方面取得突破的關(guān)鍵因素。通過專注于開發(fā)盡可能智能的 AI 模型,而非產(chǎn)品,OpenAI 能夠?qū)?o1 置于其他工作之上。而在競(jìng)爭(zhēng)激烈的 AI 實(shí)驗(yàn)室中,對(duì)這類想法進(jìn)行如此大規(guī)模的投資并非總能實(shí)現(xiàn)。
事實(shí)證明,嘗試新訓(xùn)練方法的決定是有先見之明的。到 2024 年底,幾家領(lǐng)先的 AI 實(shí)驗(yàn)室開始發(fā)現(xiàn),通過傳統(tǒng)預(yù)訓(xùn)練擴(kuò)展創(chuàng)建的模型回報(bào)遞減。如今,AI 領(lǐng)域的大部分動(dòng)力來自推理模型的進(jìn)步。
AI “推理” 意味著什么?
在很多方面,AI 研究的目標(biāo)是用計(jì)算機(jī)重現(xiàn)人類智能。自 o1 推出以來,ChatGPT 的用戶體驗(yàn)中充滿了更像人類的功能,如 “思考” 和 “推理”。
當(dāng)被問及 OpenAI 的模型是否真正在推理時(shí),埃爾?基什基有所保留,稱他從計(jì)算機(jī)科學(xué)的角度看待這個(gè)概念。
“我們正在教模型如何高效地消耗計(jì)算資源來獲取答案。所以如果你從這個(gè)角度定義,是的,它正在推理,” 埃爾?基什基說。
萊特曼則更關(guān)注模型的結(jié)果,而不太在意其方式或與人類大腦的關(guān)系。
“如果模型正在做困難的事情,那么它正在做完成這件事所必需的任何近似推理,” 萊特曼說。“我們可以稱之為推理,因?yàn)樗雌饋硐襁@些推理軌跡,但這一切都只是為了打造對(duì)很多人來說真正強(qiáng)大且有用的 AI 工具的一種替代說法。”
OpenAI 的研究人員指出,人們可能不同意他們對(duì)推理的命名或定義 —— 當(dāng)然,批評(píng)者已經(jīng)出現(xiàn) —— 但他們認(rèn)為,這不如其模型的能力重要。其他 AI 研究人員也傾向于認(rèn)同這一點(diǎn)。
非營利組織 AI2 的 AI 研究員內(nèi)森?蘭伯特在一篇博文中將 AI 推理模式比作飛機(jī)。他說,兩者都是受自然啟發(fā)的人造系統(tǒng) —— 分別受人類推理和鳥類飛行啟發(fā) —— 但它們通過完全不同的機(jī)制運(yùn)作。這并不會(huì)降低它們的有用性,也不會(huì)削弱它們實(shí)現(xiàn)類似結(jié)果的能力。
來自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人員在最近的一份立場(chǎng)文件中一致認(rèn)為,如今人們對(duì) AI 推理模型的理解還不夠深入,需要更多的研究?,F(xiàn)在就斷言這些模型內(nèi)部到底在發(fā)生什么,可能還為時(shí)過早。
下一個(gè)前沿:用于主觀任務(wù)的 AI 代理
如今市場(chǎng)上的 AI 代理在定義明確、可驗(yàn)證的領(lǐng)域(如編碼)表現(xiàn)最佳。OpenAI 的 Codex 代理旨在幫助軟件工程師分擔(dān)簡(jiǎn)單的編碼任務(wù)。與此同時(shí),Anthropic 的模型在 Cursor 和 Claude Code 等 AI 編碼工具中特別受歡迎 —— 這些是人們?cè)敢飧顿M(fèi)使用的首批 AI 代理中的一部分。
然而,像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 這樣的通用 AI 代理,在處理許多人們希望自動(dòng)化的復(fù)雜、主觀任務(wù)時(shí)卻力不從心。我發(fā)現(xiàn),當(dāng)嘗試使用這些工具進(jìn)行網(wǎng)上購物或?qū)ふ议L期停車位時(shí),這些代理花費(fèi)的時(shí)間比我預(yù)期的要長,而且還會(huì)犯一些愚蠢的錯(cuò)誤。
當(dāng)被問及代理在主觀任務(wù)方面的局限性時(shí),萊特曼說:“與機(jī)器學(xué)習(xí)中的許多問題一樣,這是一個(gè)數(shù)據(jù)問題。我現(xiàn)在真正感到興奮的一些研究是,想辦法在可驗(yàn)證性較低的任務(wù)上進(jìn)行訓(xùn)練。我們?cè)谌绾巫鲞@些事情上有了一些線索。”
幫助創(chuàng)建國際數(shù)學(xué)奧林匹克模型和 o1 的 OpenAI 研究員諾姆?布朗告訴 TechCrunch,OpenAI 擁有新的通用強(qiáng)化學(xué)習(xí)技術(shù),這些技術(shù)使他們能夠教授 AI 模型那些不易驗(yàn)證的技能。他說,該公司正是通過這種方式構(gòu)建了在國際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌的模型。
OpenAI 的國際數(shù)學(xué)奧林匹克模型是一個(gè)較新的 AI 系統(tǒng),它能生成多個(gè)代理,這些代理隨后同時(shí)探索多個(gè)想法,然后選擇最佳答案。這類 AI 模型正變得越來越受歡迎;谷歌和 xAI 最近也發(fā)布了使用這種技術(shù)的最先進(jìn)模型。
“我認(rèn)為這些模型在數(shù)學(xué)方面的能力會(huì)越來越強(qiáng),而且在其他推理領(lǐng)域也會(huì)變得更有能力,” 布朗說。“進(jìn)步速度快得驚人。我沒有理由認(rèn)為它會(huì)放緩?!?/p>
這些技術(shù)可能有助于提高 OpenAI 模型的性能,而這些進(jìn)步可能會(huì)在該公司即將推出的 GPT-5 模型中體現(xiàn)出來。OpenAI 希望通過推出 GPT-5 來鞏固其對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì),情況下,為開發(fā)者和消費(fèi)者提供最優(yōu)秀的 AI 模型來驅(qū)動(dòng)代理。
但該公司也希望使其產(chǎn)品更易于使用。埃爾?基什基表示,OpenAI 希望開發(fā)出能直觀理解用戶需求的 AI 代理,而無需用戶選擇特定設(shè)置。他說,OpenAI 的目標(biāo)是構(gòu)建這樣的 AI 系統(tǒng):知道何時(shí)調(diào)用特定工具,以及需要推理多長時(shí)間。
這些想法描繪出 ChatGPT 終極版本的圖景:一個(gè)能在互聯(lián)網(wǎng)上為你做任何事情,并理解你希望如何去做的代理。這與如今的 ChatGPT 有很大不同,但該公司的研究正朝著這個(gè)方向穩(wěn)步前進(jìn)。
雖然 OpenAI 無疑在幾年前引領(lǐng)了 AI 行業(yè),但如今該公司面臨著一大批強(qiáng)勁的對(duì)手。問題不再僅僅是 OpenAI 能否實(shí)現(xiàn)其代理化的未來,而是該公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到這一點(diǎn)?
轉(zhuǎn)載請(qǐng)注明來自山西智睿祥新能源有限公司,本文標(biāo)題:《揭秘OpenAI的野心:讓AI為你搞定一切》
