揭秘OpenAI的野心：讓AI為你搞定一切

zdgjhnb666 2025-08-04 體育資訊 3 次瀏覽 0個(gè)評(píng)論

　　2022 年，亨特?萊特曼以研究員身份加入 OpenAI 后不久，便見證了同事們推出 ChatGPT—— 這款產(chǎn)品后來成為史上增長最快的產(chǎn)品之一。與此同時(shí)，萊特曼則在一個(gè)團(tuán)隊(duì)中默默耕耘，致力于教 OpenAI 的模型解決高中數(shù)學(xué)競(jìng)賽題。

　　如今，這個(gè)名為 MathGen 的團(tuán)隊(duì)被視為 OpenAI 打造 AI 推理模型這一行業(yè)領(lǐng)先舉措的關(guān)鍵力量，而 AI 推理模型正是能像人類一樣在電腦上完成任務(wù)的 AI 代理的核心技術(shù)。

　　“我們當(dāng)時(shí)試圖讓模型在數(shù)學(xué)推理方面做得更好，因?yàn)槟菚r(shí)它們?cè)谶@方面還很薄弱，” 萊特曼在描述 MathGen 早期工作時(shí)對(duì) TechCrunch 表示。

　　OpenAI 的模型如今遠(yuǎn)非完美 —— 該公司最新的 AI 系統(tǒng)仍會(huì)出現(xiàn)幻覺，其代理在處理復(fù)雜任務(wù)時(shí)也力不從心。

　　但它的最先進(jìn)模型在數(shù)學(xué)推理方面已有顯著進(jìn)步。OpenAI 的一款模型最近在國際數(shù)學(xué)奧林匹克競(jìng)賽（一項(xiàng)面向全球最聰明高中生的數(shù)學(xué)競(jìng)賽）中斬獲金牌。OpenAI 認(rèn)為，這些推理能力將遷移到其他學(xué)科，最終為該公司一直夢(mèng)寐以求的通用代理提供動(dòng)力。

　　ChatGPT 的誕生純屬意外 —— 一次低調(diào)的研究預(yù)覽意外走紅，演變成消費(fèi)級(jí)業(yè)務(wù) —— 但 OpenAI 的代理是該公司多年來精心努力的成果。

　　“最終，你只需向電腦提出需求，它就會(huì)為你完成所有這些任務(wù)，”O(jiān)penAI 首席執(zhí)行官山姆?奧特曼在 2023 年公司首屆開發(fā)者大會(huì)上表示?！斑@些能力在 AI 領(lǐng)域通常被稱為代理。其帶來的好處將是巨大的?！?/p>

　　這些代理能否實(shí)現(xiàn)奧特曼的愿景仍有待觀察，但 OpenAI 在 2024 年秋季推出首個(gè) AI 推理模型 o1 時(shí)，震驚了世界。不到一年后，促成這一突破的 21 名基礎(chǔ)研究員成為硅谷最炙手可熱的人才。

　　馬克?扎克伯格招募了 5 名參與 o1 研發(fā)的研究員，讓他們加入 Meta 新成立的專注于超級(jí)智能的部門，并為部分人提供了超過 1 億美元的薪酬方案。其中之一的趙勝佳最近被任命為 Meta 超級(jí)智能實(shí)驗(yàn)室的首席科學(xué)家。

　　強(qiáng)化學(xué)習(xí)的復(fù)興

　　OpenAI 推理模型和代理的崛起與一種名為強(qiáng)化學(xué)習(xí)（RL）的機(jī)器學(xué)習(xí)訓(xùn)練技術(shù)息息相關(guān)。強(qiáng)化學(xué)習(xí)在模擬環(huán)境中向 AI 模型反饋其選擇是否正確。

　　強(qiáng)化學(xué)習(xí)已應(yīng)用數(shù)十年。例如，2016 年，在 OpenAI 于 2015 年成立約一年后， DeepMind 使用強(qiáng)化學(xué)習(xí)創(chuàng)建的 AI 系統(tǒng) AlphaGo 在圍棋比賽中擊敗世界冠軍，引發(fā)全球關(guān)注。

　　大約在那時(shí)，OpenAI 的首批員工之一安德烈?卡帕西開始思考如何利用強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)能使用電腦的 AI 代理。但 OpenAI 花了數(shù)年時(shí)間才開發(fā)出必要的模型和訓(xùn)練技術(shù)。

　　到 2018 年，OpenAI 在 GPT 系列中率先推出首個(gè)大型語言模型，該模型在海量互聯(lián)網(wǎng)數(shù)據(jù)和大型 GPU 集群上進(jìn)行預(yù)訓(xùn)練。GPT 模型在文本處理方面表現(xiàn)出色，最終催生出 ChatGPT，但在基礎(chǔ)數(shù)學(xué)方面卻存在短板。

　　直到 2023 年，OpenAI 才取得突破，最初將其命名為 “Q*”，后又改稱 “Strawberry”。這一突破通過結(jié)合大型語言模型、強(qiáng)化學(xué)習(xí)和一種名為測(cè)試時(shí)計(jì)算的技術(shù)實(shí)現(xiàn)。后者讓模型在給出答案前，有額外的時(shí)間和計(jì)算能力來規(guī)劃和解決問題，并驗(yàn)證每一步驟。

　　這使得 OpenAI 能夠引入一種名為 “思維鏈”（CoT）的新方法，該方法提高了 AI 在處理未見過的數(shù)學(xué)問題時(shí)的表現(xiàn)。

揭秘OpenAI的野心：讓AI為你搞定一切

　　“我能看到模型開始進(jìn)行推理，” 埃爾?基什基說。“它會(huì)發(fā)現(xiàn)錯(cuò)誤并回溯，還會(huì)‘感到沮喪’。這真的就像在閱讀一個(gè)人的想法?！?/p>

　　盡管這些技術(shù)本身并非新穎，但 OpenAI 獨(dú)特地將它們結(jié)合起來，創(chuàng)建了 Strawberry，這直接促成了 o1 的開發(fā)。OpenAI 很快意識(shí)到，AI 推理模型的規(guī)劃和事實(shí)核查能力可用于為 AI 代理提供動(dòng)力。

　　“我們解決了一個(gè)我多年來一直冥思苦想的問題，” 萊特曼說?！斑@是我研究生涯中最激動(dòng)人心的時(shí)刻之一?！?/p>

　　擴(kuò)展推理能力

　　憑借 AI 推理模型，OpenAI 確定了兩個(gè)可用于改進(jìn) AI 模型的新方向：在 AI 模型的后期訓(xùn)練中使用更多計(jì)算能力，以及讓 AI 模型在回答問題時(shí)有更多時(shí)間和處理能力。

　　“作為一家公司，OpenAI 不僅關(guān)注事物的現(xiàn)狀，還非常關(guān)注它們的擴(kuò)展方式，” 萊特曼說。

　　兩位消息人士告訴 TechCrunch，在 2023 年 Strawberry 取得突破后不久，OpenAI 成立了一個(gè)由研究員丹尼爾?塞爾薩姆領(lǐng)導(dǎo)的 “代理” 團(tuán)隊(duì)，以在這一新范式上取得進(jìn)一步進(jìn)展。盡管該團(tuán)隊(duì)名為 “代理”，但 OpenAI 最初并未像我們?nèi)缃袼氲哪菢訁^(qū)分推理模型和代理。該公司只是想讓 AI 系統(tǒng)能夠完成復(fù)雜任務(wù)。

　　最終，塞爾薩姆領(lǐng)導(dǎo)的代理團(tuán)隊(duì)的工作成為開發(fā) o1 推理模型這一更大項(xiàng)目的一部分，該項(xiàng)目的負(fù)責(zé)人包括 OpenAI 聯(lián)合創(chuàng)始人伊利亞?薩茨凱弗、首席研究官馬克?陳和首席科學(xué)家雅各布?帕喬基。

　　OpenAI 必須投入寶貴的資源 —— 主要是人才和 GPU—— 來開發(fā) o1。縱觀 OpenAI 的歷史，研究人員必須與公司領(lǐng)導(dǎo)層協(xié)商以獲取資源，而展示突破性成果是確保獲得資源的可靠方法。

　　“OpenAI 的核心特點(diǎn)之一是，研究方面的一切都是自下而上的，” 萊特曼說?！爱?dāng)我們展示（o1 的）證據(jù)時(shí)，公司表示‘這很有意義，讓我們繼續(xù)推進(jìn)’?！?/p>

　　一些前員工表示，這家初創(chuàng)公司開發(fā)通用人工智能（AGI）的使命是在 AI 推理模型方面取得突破的關(guān)鍵因素。通過專注于開發(fā)盡可能智能的 AI 模型，而非產(chǎn)品，OpenAI 能夠?qū)?o1 置于其他工作之上。而在競(jìng)爭(zhēng)激烈的 AI 實(shí)驗(yàn)室中，對(duì)這類想法進(jìn)行如此大規(guī)模的投資并非總能實(shí)現(xiàn)。

　　事實(shí)證明，嘗試新訓(xùn)練方法的決定是有先見之明的。到 2024 年底，幾家領(lǐng)先的 AI 實(shí)驗(yàn)室開始發(fā)現(xiàn)，通過傳統(tǒng)預(yù)訓(xùn)練擴(kuò)展創(chuàng)建的模型回報(bào)遞減。如今，AI 領(lǐng)域的大部分動(dòng)力來自推理模型的進(jìn)步。

　　AI “推理” 意味著什么？

　　在很多方面，AI 研究的目標(biāo)是用計(jì)算機(jī)重現(xiàn)人類智能。自 o1 推出以來，ChatGPT 的用戶體驗(yàn)中充滿了更像人類的功能，如 “思考” 和 “推理”。

　　當(dāng)被問及 OpenAI 的模型是否真正在推理時(shí)，埃爾?基什基有所保留，稱他從計(jì)算機(jī)科學(xué)的角度看待這個(gè)概念。

　　“我們正在教模型如何高效地消耗計(jì)算資源來獲取答案。所以如果你從這個(gè)角度定義，是的，它正在推理，” 埃爾?基什基說。

　　萊特曼則更關(guān)注模型的結(jié)果，而不太在意其方式或與人類大腦的關(guān)系。

　　“如果模型正在做困難的事情，那么它正在做完成這件事所必需的任何近似推理，” 萊特曼說。“我們可以稱之為推理，因?yàn)樗雌饋硐襁@些推理軌跡，但這一切都只是為了打造對(duì)很多人來說真正強(qiáng)大且有用的 AI 工具的一種替代說法。”

　　OpenAI 的研究人員指出，人們可能不同意他們對(duì)推理的命名或定義 —— 當(dāng)然，批評(píng)者已經(jīng)出現(xiàn) —— 但他們認(rèn)為，這不如其模型的能力重要。其他 AI 研究人員也傾向于認(rèn)同這一點(diǎn)。

　　非營利組織 AI2 的 AI 研究員內(nèi)森?蘭伯特在一篇博文中將 AI 推理模式比作飛機(jī)。他說，兩者都是受自然啟發(fā)的人造系統(tǒng) —— 分別受人類推理和鳥類飛行啟發(fā) —— 但它們通過完全不同的機(jī)制運(yùn)作。這并不會(huì)降低它們的有用性，也不會(huì)削弱它們實(shí)現(xiàn)類似結(jié)果的能力。

　　來自 OpenAI、Anthropic 和谷歌 DeepMind 的一群 AI 研究人員在最近的一份立場(chǎng)文件中一致認(rèn)為，如今人們對(duì) AI 推理模型的理解還不夠深入，需要更多的研究?，F(xiàn)在就斷言這些模型內(nèi)部到底在發(fā)生什么，可能還為時(shí)過早。

　　下一個(gè)前沿：用于主觀任務(wù)的 AI 代理

　　如今市場(chǎng)上的 AI 代理在定義明確、可驗(yàn)證的領(lǐng)域（如編碼）表現(xiàn)最佳。OpenAI 的 Codex 代理旨在幫助軟件工程師分擔(dān)簡(jiǎn)單的編碼任務(wù)。與此同時(shí)，Anthropic 的模型在 Cursor 和 Claude Code 等 AI 編碼工具中特別受歡迎 —— 這些是人們?cè)敢飧顿M(fèi)使用的首批 AI 代理中的一部分。

　　然而，像 OpenAI 的 ChatGPT 代理和 Perplexity 的 Comet 這樣的通用 AI 代理，在處理許多人們希望自動(dòng)化的復(fù)雜、主觀任務(wù)時(shí)卻力不從心。我發(fā)現(xiàn)，當(dāng)嘗試使用這些工具進(jìn)行網(wǎng)上購物或?qū)ふ议L期停車位時(shí)，這些代理花費(fèi)的時(shí)間比我預(yù)期的要長，而且還會(huì)犯一些愚蠢的錯(cuò)誤。

　　當(dāng)被問及代理在主觀任務(wù)方面的局限性時(shí)，萊特曼說：“與機(jī)器學(xué)習(xí)中的許多問題一樣，這是一個(gè)數(shù)據(jù)問題。我現(xiàn)在真正感到興奮的一些研究是，想辦法在可驗(yàn)證性較低的任務(wù)上進(jìn)行訓(xùn)練。我們?cè)谌绾巫鲞@些事情上有了一些線索。”

　　幫助創(chuàng)建國際數(shù)學(xué)奧林匹克模型和 o1 的 OpenAI 研究員諾姆?布朗告訴 TechCrunch，OpenAI 擁有新的通用強(qiáng)化學(xué)習(xí)技術(shù)，這些技術(shù)使他們能夠教授 AI 模型那些不易驗(yàn)證的技能。他說，該公司正是通過這種方式構(gòu)建了在國際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌的模型。

　　OpenAI 的國際數(shù)學(xué)奧林匹克模型是一個(gè)較新的 AI 系統(tǒng)，它能生成多個(gè)代理，這些代理隨后同時(shí)探索多個(gè)想法，然后選擇最佳答案。這類 AI 模型正變得越來越受歡迎；谷歌和 xAI 最近也發(fā)布了使用這種技術(shù)的最先進(jìn)模型。

　　“我認(rèn)為這些模型在數(shù)學(xué)方面的能力會(huì)越來越強(qiáng)，而且在其他推理領(lǐng)域也會(huì)變得更有能力，” 布朗說。“進(jìn)步速度快得驚人。我沒有理由認(rèn)為它會(huì)放緩?！?/p>

　　這些技術(shù)可能有助于提高 OpenAI 模型的性能，而這些進(jìn)步可能會(huì)在該公司即將推出的 GPT-5 模型中體現(xiàn)出來。OpenAI 希望通過推出 GPT-5 來鞏固其對(duì)競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)，情況下，為開發(fā)者和消費(fèi)者提供最優(yōu)秀的 AI 模型來驅(qū)動(dòng)代理。

　　但該公司也希望使其產(chǎn)品更易于使用。埃爾?基什基表示，OpenAI 希望開發(fā)出能直觀理解用戶需求的 AI 代理，而無需用戶選擇特定設(shè)置。他說，OpenAI 的目標(biāo)是構(gòu)建這樣的 AI 系統(tǒng)：知道何時(shí)調(diào)用特定工具，以及需要推理多長時(shí)間。

　　這些想法描繪出 ChatGPT 終極版本的圖景：一個(gè)能在互聯(lián)網(wǎng)上為你做任何事情，并理解你希望如何去做的代理。這與如今的 ChatGPT 有很大不同，但該公司的研究正朝著這個(gè)方向穩(wěn)步前進(jìn)。

　　雖然 OpenAI 無疑在幾年前引領(lǐng)了 AI 行業(yè)，但如今該公司面臨著一大批強(qiáng)勁的對(duì)手。問題不再僅僅是 OpenAI 能否實(shí)現(xiàn)其代理化的未來，而是該公司能否在谷歌、Anthropic、xAI 或 Meta 之前做到這一點(diǎn)？

轉(zhuǎn)載請(qǐng)注明來自山西智睿祥新能源有限公司，本文標(biāo)題：《揭秘OpenAI的野心：讓AI為你搞定一切》

zdgjhnb666 10847篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！