综合在线视频,午夜视频一区,日本免费在线播放,国产精品一区二区资源,国产精品免费aⅴ片在线观看,性感美女的诱惑,国产国语一级毛片全部

當(dāng)前位置:首頁(yè) > 企業(yè)簡(jiǎn)介 > 正文

OpenAI o1模型研究團(tuán)隊(duì)對(duì)話紅杉美國(guó)合伙人:o1系列迄今未被充分開(kāi)發(fā)的維度,天花板比許多人想象的要高得多

【新澳门内部资料精准大全】
【2024澳门天天开好彩大全】
【管家婆一肖-一码-一中一特】
【澳门一肖一码必中一肖一码】
【2024澳门正版资料免费大全】
【澳门一肖一码100准免费资料】
【2024澳门特马今晚开奖】
【2024正版资料大全免费】
【2024澳门天天六开彩免费资料】
【澳门今晚必中一肖一码准确9995】
【澳门资料大全正版资料2024年免费】
【澳门2024正版资料免费公开】
【澳门天天开彩好正版挂牌】
【2024澳门天天六开彩免费资料】
【澳门一码一肖一特一中2024】
【澳门管家婆一肖一码100精准】
【澳门王中王100%的资料】
【今期澳门三肖三码开一码】
【2024澳门天天开好彩大全】
【2024一肖一码100精准大全】
【494949澳门今晚开什么】
【香港二四六开奖免费资料】
【澳门平特一肖100%免费】
【7777888888管家婆中特】
【2024澳门天天六开彩免费资料】
【2024澳彩管家婆资料传真】
【管家婆精准一肖一码100%l?】

  轉(zhuǎn)自:有新Newin?

  幸運(yùn)的是,作為 OpenAI o1 模型研究團(tuán)隊(duì)三位核心技術(shù)人員 Noam Brown(OpenAI 研究科學(xué)家,專注于 AI 推理和強(qiáng)化學(xué)習(xí))、Hunter Lightman(OpenAI 高級(jí)工程師,主要研究 AI 在復(fù)雜問(wèn)題上的推理能力)以及 Ilge Akkaya(OpenAI 研究員,特別關(guān)注 AI 在數(shù)學(xué)和邏輯推理方面的應(yīng)用)也在近日與紅杉美國(guó)合伙人 Sonya Huang 以及 Pat Grady 展開(kāi)了一場(chǎng)對(duì)談。

OpenAI o1模型研究團(tuán)隊(duì)對(duì)話紅杉美國(guó)合伙人:o1系列迄今未被充分開(kāi)發(fā)的維度,天花板比許多人想象的要高得多  第1張

  Noam Brown 強(qiáng)調(diào),o1 模型的一個(gè)核心突破在于延長(zhǎng)推理時(shí)間帶來(lái)的能力提升。通過(guò)增加推理時(shí)間,模型在解決復(fù)雜問(wèn)題時(shí)表現(xiàn)出了自發(fā)的回溯和自我修正能力,這使得它在像數(shù)獨(dú)和復(fù)雜邏輯等問(wèn)題上表現(xiàn)尤為出色。通過(guò)這種“延時(shí)推理”,o1 能更有效地應(yīng)對(duì)高難度任務(wù)。

OpenAI o1模型研究團(tuán)隊(duì)對(duì)話紅杉美國(guó)合伙人:o1系列迄今未被充分開(kāi)發(fā)的維度,天花板比許多人想象的要高得多  第2張

  Hunter Lightman 認(rèn)為,o1 模型不僅通過(guò)推理時(shí)間擴(kuò)展了 AI 的能力,還為未來(lái)AI的發(fā)展開(kāi)辟了新的方向。與之前依賴數(shù)據(jù)和計(jì)算能力擴(kuò)展的AI模型相比,o1 的推理時(shí)間擴(kuò)展代表了一種全新的維度。這種方式有望在未來(lái)的模型版本(如 o2 和 o3 )中進(jìn)一步擴(kuò)展 AI 能力。

  Noam Brown 和 Hunter Lightman 承認(rèn),盡管 o1 在推理任務(wù)中表現(xiàn)出色,但它并非在所有任務(wù)上都優(yōu)于其他 AI 模型。尤其在非 STEM 領(lǐng)域,模型的表現(xiàn)還有很大的改進(jìn)空間。

  以下為這次對(duì)話的主要內(nèi)容,enjoy~

  Sonya Huang:

  o1 是 OpenAI 首次在推理時(shí)間計(jì)算上的重大嘗試。我們很期待和團(tuán)隊(duì)討論推理、思維鏈、推理時(shí)間縮放定律等話題。

  Ilge、Hunter、 Noam ,感謝你們的到來(lái),并祝賀你們將 o1 推向公眾。我想先問(wèn)一下,你們從一開(kāi)始就確信這個(gè)項(xiàng)目會(huì)成功嗎?

  Noam Brown:

  我認(rèn)為我們從一開(kāi)始就相信這一方向有潛力,但實(shí)際走到今天的路徑并不清晰。你看看 o1 ,這并不是一夜之間的成果。實(shí)際上,這背后有多年研究,而其中很多研究并沒(méi)有取得成效。

  我認(rèn)為 OpenAI 的領(lǐng)導(dǎo)層一直堅(jiān)信這一方向必須有結(jié)果,并愿意在早期遇到挫折的情況下繼續(xù)投資,這最終得到了回報(bào)。

  Hunter Lightman:

  我一開(kāi)始沒(méi)有像 Noam 那樣有強(qiáng)烈的信心。我已經(jīng)花了很長(zhǎng)時(shí)間研究語(yǔ)言模型,試圖讓它們學(xué)會(huì)做數(shù)學(xué)和其他推理任務(wù)。研究的過(guò)程總是有起有落,有時(shí)有效果,有時(shí)沒(méi)有。

  但當(dāng)我們發(fā)現(xiàn)這一方向開(kāi)始奏效時(shí),我經(jīng)歷了一個(gè)“啊哈”的時(shí)刻,那時(shí)我讀了一些模型生成的輸出,它們以不同的方式處理問(wèn)題解決。這就是我信心確立的時(shí)刻。

  我認(rèn)為 OpenAI 整體上采取了一種非常實(shí)證、數(shù)據(jù)驅(qū)動(dòng)的方式,當(dāng)數(shù)據(jù)開(kāi)始向你展示趨勢(shì)并且變得有意義時(shí),我們就會(huì)追隨這些線索。而這也是我信心確立的時(shí)刻。

  Sonya Huang:

  Ilge,你已經(jīng)在 OpenAI 工作了很長(zhǎng)時(shí)間,五年半了。你怎么看?你從一開(kāi)始就相信這個(gè)方法會(huì)成功嗎?

  Ilge Akkaya:

  不,我加入后曾幾次判斷錯(cuò)誤。我一開(kāi)始以為機(jī)器人技術(shù)是通向 AGI 的道路,所以我最初加入了機(jī)器人團(tuán)隊(duì),認(rèn)為 AGI 會(huì)出現(xiàn)在具身智能中。然而,事情并沒(méi)有按預(yù)期發(fā)展。

  在我工作的這段時(shí)間, Chat GPT ?的出現(xiàn)無(wú)疑是個(gè)范式轉(zhuǎn)變。我們能夠向全世界展示一個(gè)通用接口,我很高興我們現(xiàn)在有了一條可能的新的前進(jìn)路徑來(lái)推動(dòng)這一推理范式。但對(duì)我來(lái)說(shuō),長(zhǎng)時(shí)間里,這條路徑并不明顯。

  Pat Grady:

  我知道你們出于很好的理由,不能公開(kāi)過(guò)多的細(xì)節(jié),但你們能否大致介紹一下它的工作原理?

  Ilge Akkaya:

  o1 模型系列使用了強(qiáng)化學(xué)習(xí),能夠進(jìn)行推理,或者你也可以稱之為“思考”。它與我們過(guò)去使用的大型語(yǔ)言模型有本質(zhì)上的不同。

  我們已經(jīng)看到它在很多不同的推理領(lǐng)域中都表現(xiàn)出良好的泛化能力,我們也在最近展示了這一點(diǎn)。所以我們對(duì)這個(gè)新模型家族帶來(lái)的范式轉(zhuǎn)變感到非常興奮。

  Pat Grady:

  對(duì)于那些不太熟悉當(dāng)前語(yǔ)言模型技術(shù)的人來(lái)說(shuō),什么是推理?你能否簡(jiǎn)要定義一下推理,并解釋為什么它很重要?

  Noam Brown:

  一個(gè)簡(jiǎn)單的理解是,推理是針對(duì)那些思考更長(zhǎng)時(shí)間有明顯好處的問(wèn)題的能力。你知道,人類有經(jīng)典的系統(tǒng) 1 和系統(tǒng) 2思維。

  系統(tǒng) 1 是自動(dòng)化的、直覺(jué)式的反應(yīng),系統(tǒng) 2 則是較慢的、更有流程驅(qū)動(dòng)的反應(yīng)。對(duì)于某些任務(wù),延長(zhǎng)思考時(shí)間并不會(huì)帶來(lái)更多好處。

  比如,如果我問(wèn)你“不丹的首都是哪里?”,你可以花兩年的時(shí)間思考,但這不會(huì)提高你的正確率。順便說(shuō)一句,不丹的首都是什么?其實(shí)我也不知道。不過(guò),確實(shí)有一些問(wèn)題,通過(guò)延長(zhǎng)思考時(shí)間可以帶來(lái)更高的準(zhǔn)確性。

  一個(gè)經(jīng)典的例子是數(shù)獨(dú),你可以理論上嘗試各種解法,并且正確解法非常容易識(shí)別。因此,只要有足夠的時(shí)間,你最終會(huì)找到正確答案。

  很多 AI 領(lǐng)域的研究者對(duì)推理有不同的定義,我不主張這是唯一的定義。每個(gè)人都有自己的看法,但我認(rèn)為推理是那些通過(guò)考慮更多選項(xiàng)和思考更長(zhǎng)時(shí)間可以獲益的問(wèn)題。

  你可以把它理解為一個(gè)生成-驗(yàn)證的差距問(wèn)題:生成一個(gè)正確的解法很難,但識(shí)別正確解法卻相對(duì)簡(jiǎn)單。

  我認(rèn)為所有問(wèn)題都在這個(gè)光譜上,比如數(shù)獨(dú)這種驗(yàn)證比生成容易的問(wèn)題,以及驗(yàn)證和生成同樣困難的問(wèn)題,比如不丹的首都叫什么。

  Sonya Huang:

  我想問(wèn)一下關(guān)于 AlphaGo 和 Noam 的背景,你以前在撲克和其他游戲方面的研究有多大程度與 o1 的工作相關(guān)?它們之間有哪些相似和不同之處?

  Noam Brown:

  我認(rèn)為 o1 的一大亮點(diǎn)是它確實(shí)在思考時(shí)間增加的情況下表現(xiàn)更好。如果回顧過(guò)去的許多 AI 突破, AlphaGo 是一個(gè)經(jīng)典的例子。

  它的一個(gè)顯著特點(diǎn)是會(huì)花很長(zhǎng)時(shí)間在每步行動(dòng)前思考,可能需要 30 秒來(lái)決定下一步。如果讓它瞬間做出決策,它其實(shí)比不上頂級(jí)的人類選手。因此,它的表現(xiàn)很大程度上依賴于這些額外的思考時(shí)間。

  問(wèn)題在于,這種額外的思考時(shí)間是依靠蒙特卡洛樹(shù)搜索(MCTS)進(jìn)行的,這是一種特定的推理方法,適用于圍棋,但在我早期研究的撲克游戲中卻行不通。因此,盡管神經(jīng)網(wǎng)絡(luò)部分(系統(tǒng) 1 的部分)是通用的,但當(dāng)時(shí)存在的推理方法仍然是特定領(lǐng)域的。

  o1 的另一大亮點(diǎn)是它的推理方式非常通用,適用于許多不同的領(lǐng)域。我們已經(jīng)看到了用戶使用它的各種方式,也驗(yàn)證了這一點(diǎn)。

  Hunter Lightman:

  語(yǔ)言模型一直吸引我的地方是,它們的接口非常通用,可以適應(yīng)各種問(wèn)題。這次我們感到興奮的是,我們認(rèn)為我們有一種方法,可以在這種通用接口上做強(qiáng)化學(xué)習(xí),并期待看到未來(lái)的可能性。

  Pat Grady:

  你提到生成和驗(yàn)證之間的差距,這在不同問(wèn)題上有所不同。那么在推理過(guò)程中,這種差距的處理方法是否是一致的,或者在不同的情況下有不同的方法?

  Hunter Lightman:

  這次發(fā)布讓我興奮的地方之一是, o1 能夠交到那么多人手里,我們可以看到它在哪些問(wèn)題上表現(xiàn)好,哪些問(wèn)題上表現(xiàn)差。這是 OpenAI 的核心戰(zhàn)略之一,我們通過(guò)迭代式的技術(shù)部署,觀察世界如何與它互動(dòng),并不斷改進(jìn)我們的研究。

  Pat Grady:

  在推特上,有什么用戶使用 o1 的方式讓你感到意外嗎?

  Ilge Akkaya:

  讓我非常興奮的一件事是,我看到很多醫(yī)生和研究人員把這個(gè)模型當(dāng)作頭腦風(fēng)暴的合作伙伴。他們?cè)诎┌Y研究領(lǐng)域工作多年,正在與模型討論一些關(guān)于基因發(fā)現(xiàn)和基因療法的想法。

  雖然模型無(wú)法自行進(jìn)行研究,但它可以成為人類的良好協(xié)作伙伴,幫助推動(dòng)科學(xué)研究的進(jìn)步。

  Sonya Huang:

  Noam ,我記得你曾發(fā)推說(shuō),深度強(qiáng)化學(xué)習(xí)(Deep RL)已經(jīng)走出了“幻滅低谷”。你能詳細(xì)解釋一下你的意思嗎?

  Noam Brown:

  我覺(jué)得這一切可以追溯到 Atari 游戲,DeepMind 在 Atari 上的深度強(qiáng)化學(xué)習(xí)( DRL )結(jié)果曾經(jīng)非常熱門。我當(dāng)時(shí)正在攻讀博士學(xué)位,大約在2015到2019年之間, DRL 無(wú)疑是最熱門的研究領(lǐng)域。

  在某些方面,確實(shí)取得了大量研究成果,但也忽略了一些問(wèn)題。其中一個(gè)被忽視的方面就是利用海量數(shù)據(jù)(維權(quán))進(jìn)行訓(xùn)練的力量,比如 GPT 的訓(xùn)練方式。在某種程度上,這非常令人驚訝。

  看看 AlphaGo ,它無(wú)疑是深度強(qiáng)化學(xué)習(xí)領(lǐng)域的重大成就之一。盡管其中有RL(強(qiáng)化學(xué)習(xí))步驟,但更重要的是, AlphaGo 在這之前還進(jìn)行了基于人類數(shù)據(jù)的學(xué)習(xí),這才是讓 AlphaGo 真正起飛的原因。

  然后,研究界逐漸出現(xiàn)了一種觀點(diǎn),認(rèn)為不依賴人類數(shù)據(jù)、從零開(kāi)始學(xué)習(xí)才是“純正”的方向。

  這也導(dǎo)致了 AlphaZero 的出現(xiàn),盡管它的表現(xiàn)比 AlphaGo 更好,但這個(gè)過(guò)程的轉(zhuǎn)變忽視了像 GPT 這樣的大規(guī)模數(shù)據(jù)訓(xùn)練的潛力,除了 OpenAI 之外,很少有人關(guān)注這個(gè)方向。

  OpenAI 在初期看到了這個(gè)方向的一些初步成果,并有決心加倍投入。所以, DRL 確實(shí)經(jīng)歷了一段高峰期,隨后隨著 ?GPT-3 等大模型的成功, DRL 的熱度有所下降,許多人對(duì)它失去了信心。不過(guò),隨著 o1 的出現(xiàn),我們看到了 DRL 在與其他元素結(jié)合時(shí)仍然具有強(qiáng)大的潛力。

  Sonya Huang:

  我認(rèn)為很多 DRL 的成果是在相對(duì)明確的設(shè)定下產(chǎn)生的。游戲中的 o1 是首次在更廣泛的、無(wú)界環(huán)境中使用 DRL 的案例之一嗎?這樣理解對(duì)嗎?

  Noam Brown:

  是的,我覺(jué)得這是一個(gè)很好的觀點(diǎn)。許多 DRL 的亮點(diǎn)成果確實(shí)非??幔鼈兊倪m用范圍也非常狹窄。雖然我們確實(shí)看到了一些相當(dāng)有用且通用的 DRL 成果,但沒(méi)有什么可以與 ?GPT-4 的影響力相比。因此,我認(rèn)為在新的范式下, DRL 未來(lái)將達(dá)到類似的影響力水平。

  Sonya Huang:

  我還記得 AlphaGo 的比賽結(jié)果,尤其是在一些錦標(biāo)賽中的第 37 手,那個(gè)動(dòng)作震驚了所有人。

  你在 o1 的研究中是否見(jiàn)到過(guò)類似的時(shí)刻,模型給出了一個(gè)讓所有人意外的答案,但實(shí)際上是對(duì)的,甚至比人類的想法更好?你們是否有過(guò)那樣的時(shí)刻,還是認(rèn)為可能要等到 o2 或 o3 ?

  Hunter Lightman:

  我想起了一個(gè)例子,我們?cè)跒镮OI(國(guó)際信息學(xué)奧林匹克競(jìng)賽)做準(zhǔn)備時(shí),把模型投入到解決問(wèn)題的過(guò)程中。有一個(gè)問(wèn)題, o1 執(zhí)意要用一種奇怪的方法去解決,具體細(xì)節(jié)我不太清楚,我的同事們,他們更擅長(zhǎng)競(jìng)賽編程,試圖弄清楚為什么模型會(huì)這樣做。

  我認(rèn)為這并不是“天才之作”的那種時(shí)刻,而是模型不知道正確的解決方法,于是反復(fù)嘗試,直到找到另一個(gè)解決方案。它確實(shí)解決了問(wèn)題,只是用了一個(gè)看起來(lái)很奇怪的方法。我記得這是一個(gè)有趣的例子,在編程競(jìng)賽的結(jié)果中,模型確實(shí)以一種不同于人類的方式思考問(wèn)題。

  Ilge Akkaya:

  我看到模型解決了一些幾何問(wèn)題,它的思考方式讓我感到很驚訝。比如,你讓模型計(jì)算一個(gè)球體上的點(diǎn),然后詢問(wèn)某個(gè)事件發(fā)生的概率,模型會(huì)說(shuō):“讓我們先來(lái)想象這個(gè)場(chǎng)景,放置這些點(diǎn),然后從這個(gè)角度思考?!?/p>

  這種用語(yǔ)言進(jìn)行可視化的方式真的讓我吃驚,就像我作為人類會(huì)做的那樣,而看到 o1 也能做到這一點(diǎn),真的讓我感到意外。

  Sonya Huang:

  非常有趣。這不僅是人類可以理解的,還能擴(kuò)展我們對(duì)問(wèn)題的思考方式,而不僅僅是某種難以理解的機(jī)器語(yǔ)言。這真的非常吸引人。

  Hunter Lightman:

  是的,我確實(shí)認(rèn)為 o1 的結(jié)果中最酷的一點(diǎn)是,它的思維鏈?zhǔn)强梢员蝗祟惤忉尩?,這使我們能夠理解模型的思維過(guò)程。

  Pat Grady:

  在研究過(guò)程中有沒(méi)有出現(xiàn)那種“啊哈”的時(shí)刻?Hunter,你提到一開(kāi)始你并不確信這個(gè)方向會(huì)成功,有沒(méi)有某個(gè)時(shí)刻讓你突然意識(shí)到:“天啊,這個(gè)方向真的有效!”

  Hunter Lightman:

  我在 OpenAI 已經(jīng)工作了大約兩年半的時(shí)間,大部分時(shí)間都在努力讓模型更好地解決數(shù)學(xué)問(wèn)題。我們?yōu)榇俗隽撕芏喙ぷ?,?gòu)建了各種定制系統(tǒng)。

  在 o1 的研究過(guò)程中,有一次我們訓(xùn)練了一個(gè)新模型,應(yīng)用了一些修復(fù)和修改,結(jié)果它在數(shù)學(xué)評(píng)估中的得分比我們之前所有的嘗試都高,甚至超過(guò)了我們?cè)O(shè)計(jì)的定制系統(tǒng)。

  我們查看了思維鏈的變化,發(fā)現(xiàn)它們表現(xiàn)出了不同的特征。特別是當(dāng)模型犯錯(cuò)時(shí),它會(huì)說(shuō):“等等,這不對(duì),我需要退一步,重新找出正確的方向?!蔽覀兎Q這種行為為“回退”(backtracking)。

  我已經(jīng)等待很長(zhǎng)時(shí)間想看到模型能夠回退的例子,當(dāng)我看到這個(gè)得分和思維鏈時(shí),我意識(shí)到這真的有潛力,我需要更新我的看法。這就是我信心確立的時(shí)刻。

  Noam Brown:

  我覺(jué)得對(duì)我來(lái)說(shuō)也是類似的故事。大概是在同一時(shí)間,我加入時(shí)的想法是,像Chat GPT這樣的模型并沒(méi)有真正“思考”才作出回應(yīng),它的反應(yīng)非??焖?。

  而在 AI 領(lǐng)域的游戲中,能夠花更多時(shí)間思考可以獲得更好的結(jié)果。所以我一直在思考,如何將這一點(diǎn)引入到語(yǔ)言模型中。

  這聽(tīng)起來(lái)簡(jiǎn)單,但實(shí)際上如何實(shí)現(xiàn)是個(gè)挑戰(zhàn)。我們討論了很多如何讓模型擁有反思能力,如何在犯錯(cuò)時(shí)回退或嘗試不同的方法。

  最終,我們決定嘗試一個(gè)基本的方案,就是讓 AI 思考更長(zhǎng)時(shí)間。結(jié)果我們發(fā)現(xiàn),一旦 AI 能有更多的思考時(shí)間,它幾乎是自發(fā)地發(fā)展出這些能力,包括回退和自我修正。

  這些都是我們想讓模型實(shí)現(xiàn)的,而現(xiàn)在通過(guò)這樣一個(gè)簡(jiǎn)單且可擴(kuò)展的方式就實(shí)現(xiàn)了。

  Noam Brown:

  這對(duì)我來(lái)說(shuō)是一個(gè)關(guān)鍵時(shí)刻,那時(shí)我意識(shí)到我們可以進(jìn)一步推動(dòng)這個(gè)方向,而且方向非常明確。

  Hunter Lightman:

  我一直在理解 Noam 對(duì)“推理計(jì)算”(conviction compute)的信心有多強(qiáng)大。我記得他剛加入時(shí),我們的很多一對(duì)一對(duì)話都圍繞著測(cè)試時(shí)計(jì)算的力量展開(kāi)。

  在項(xiàng)目進(jìn)行的多個(gè)階段, Noam 都會(huì)說(shuō):“為什么不讓模型思考更長(zhǎng)時(shí)間?”然后我們就這么做了,結(jié)果模型表現(xiàn)得更好。他看著我們時(shí)的表情有點(diǎn)好笑,仿佛在說(shuō):“為什么我們之前沒(méi)這么做?”

  Sonya Huang:

  我們?cè)谀銈兊泥]件中注意到, o1 在 STEM 領(lǐng)域表現(xiàn)得非常好,明顯優(yōu)于你們之前的模型。對(duì)此有沒(méi)有一個(gè)大致的解釋?為什么會(huì)這樣?

  Noam Brown:

  我之前提到過(guò),有些任務(wù),比如推理任務(wù),驗(yàn)證一個(gè)答案比生成一個(gè)答案要容易。STEM領(lǐng)域的問(wèn)題往往屬于難以推理的問(wèn)題類型。所以這就是我們看到 o1 在STEM學(xué)科表現(xiàn)更好的一個(gè)重要原因。

  Sonya Huang:

  明白。我想補(bǔ)充一個(gè)問(wèn)題,我們?cè)谀銈儼l(fā)布的研究論文中看到, o1 通過(guò)了你們的研究工程師面試,而且通過(guò)率相當(dāng)高。對(duì)此你怎么看?這是否意味著未來(lái) OpenAI 會(huì)雇傭 o1 來(lái)代替人類工程師?

  Hunter Lightman:

  我認(rèn)為我們還沒(méi)有達(dá)到那個(gè)水平。我覺(jué)得還有更多工作要做。

  Sonya Huang:

  不過(guò)要達(dá)到 100% 還是很難的,對(duì)吧?

  Hunter Lightman:

  也許我們需要更好的面試方法。但至少在我看來(lái), o1 已經(jīng)比之前的模型更像一個(gè)編程伙伴。我認(rèn)為它已經(jīng)在我們的代碼庫(kù)中提交了幾次代碼變更。

  從某種意義上講,它確實(shí)像一個(gè)軟件工程師,因?yàn)檐浖こ桃彩且粋€(gè)受益于長(zhǎng)時(shí)間推理的STEM領(lǐng)域。

  我認(rèn)為當(dāng)前模型在進(jìn)行推理時(shí)只思考了幾分鐘,但如果我們繼續(xù)擴(kuò)展這個(gè)趨勢(shì),讓 o1 思考更長(zhǎng)時(shí)間,它可能會(huì)完成更多類似的任務(wù)。

  Noam Brown:

  你可以知道我們實(shí)現(xiàn)了 AGI 的那一天就是當(dāng)我們下架所有招聘信息,而公司狀況要么非常好,要么非常差的時(shí)候。

  Sonya Huang:

  你認(rèn)為要讓 o1 在人文學(xué)科上表現(xiàn)出色需要做些什么?你認(rèn)為推理、邏輯和STEM領(lǐng)域的優(yōu)勢(shì)會(huì)隨著推理時(shí)間的擴(kuò)展自然延伸到人文學(xué)科嗎?還是說(shuō)會(huì)有其他因素?

  Noam Brown:

  如你所說(shuō),我們發(fā)布了模型,也很好奇它擅長(zhǎng)什么、不擅長(zhǎng)什么,用戶會(huì)用它來(lái)做什么。我認(rèn)為模型的原始智能和它在實(shí)際任務(wù)中的有用性之間仍然存在差距。

  在某些方面它非常有用,但在更多方面它可以更有用。我認(rèn)為我們還有很多迭代的空間,來(lái)解鎖這種更廣泛的通用性。

  Pat Grady:

  那么我很好奇, OpenAI 內(nèi)部有沒(méi)有關(guān)于模型能力與實(shí)際應(yīng)用需求之間差距的哲學(xué)?你們是否有一個(gè)明確的思考過(guò)程來(lái)決定哪些工作應(yīng)該由模型完成,哪些工作應(yīng)留給圍繞API的生態(tài)系統(tǒng)來(lái)解決?

  Noam Brown:

  在我加入之前,我就聽(tīng)說(shuō) OpenAI 非常專注于 AGI ,而我當(dāng)時(shí)對(duì)這一點(diǎn)還有些懷疑?;旧?,我剛開(kāi)始工作的第一天,公司召開(kāi)了一次全員會(huì)議,Sam站在大家面前,明確表示 AGI 是我們的首要目標(biāo)。

  因此,最明確的答案就是 AGI 是我們的終極目標(biāo),沒(méi)有某個(gè)單一的應(yīng)用是我們的優(yōu)先事項(xiàng),除了是否能夠使用 AGI 。

  Pat Grady:

  你們對(duì) AGI 有明確的定義嗎?

  Noam Brown:

  每個(gè)人都有自己的定義,對(duì)吧?這也是為什么這個(gè)問(wèn)題很有趣。

  Hunter Lightman:

  我不知道我是否有一個(gè)明確的定義。我只是覺(jué)得這可能與 AI 系統(tǒng)能夠完成的經(jīng)濟(jì)上有價(jià)值的工作比例有關(guān)。

  我認(rèn)為在未來(lái)幾年內(nèi),這個(gè)比例會(huì)迅速上升。我不確定具體會(huì)如何發(fā)展,但這可能是那種“當(dāng)你感受到時(shí)你就知道”的情況。

  我們可能會(huì)不斷調(diào)整標(biāo)準(zhǔn),直到有一天我們與這些 AI 同事一起工作,而它們完成了我們現(xiàn)在做的許多工作,而我們則在做不同的工作。整個(gè)工作生態(tài)系統(tǒng)都會(huì)發(fā)生變化。

  Pat Grady:

  你的一位同事曾很好地表達(dá)了推理在通往 AGI 的過(guò)程中重要性。他的大意是:任何工作都可能遇到障礙,而幫助你克服這些障礙的正是你的推理能力。

  我認(rèn)為這是一個(gè)不錯(cuò)的連接,說(shuō)明了推理為何重要以及與 AGI 目標(biāo)的關(guān)系。你們認(rèn)為這是理解推理為何重要的最佳方式嗎?還是有其他的框架可以幫助我們理解推理?

  Hunter Lightman:

  我認(rèn)為這是一個(gè)有待確認(rèn)的問(wèn)題。因?yàn)樵陂_(kāi)發(fā)這些 AI 系統(tǒng)和模型的過(guò)程中,我們看到了它們的各種表現(xiàn)和不足。

  我們?cè)陂_(kāi)發(fā)、評(píng)估這些系統(tǒng)時(shí)學(xué)到了很多新東西,并試圖了解它們的能力。例如,一些想到的事情是戰(zhàn)略規(guī)劃、頭腦風(fēng)暴等。

  Pat Grady:

  如果要讓 AI 像優(yōu)秀的產(chǎn)品經(jīng)理一樣好,它需要大量的創(chuàng)意和對(duì)用戶需求的洞察。這算是推理嗎?還是說(shuō)這是一種與推理不同的創(chuàng)造力,需要以不同的方式處理?

  當(dāng)你開(kāi)始將這些計(jì)劃轉(zhuǎn)化為行動(dòng)時(shí),你還需要進(jìn)行戰(zhàn)略規(guī)劃,考慮如何推動(dòng)組織達(dá)成目標(biāo),這算是推理嗎?

  Hunter Lightman:

  也許部分是推理,但也許部分是其他東西。最終,我們可能會(huì)覺(jué)得這些都是推理,或者我們會(huì)發(fā)明一個(gè)新詞,描述需要采取的新步驟。

  Ilge Akkaya:

  我不確定我們能將這個(gè)推理問(wèn)題推進(jìn)到什么程度。每當(dāng)我思考這個(gè)廣泛的推理問(wèn)題時(shí),數(shù)學(xué)領(lǐng)域的例子總是很有幫助。

  我們花了很多時(shí)間閱讀模型在解數(shù)學(xué)問(wèn)題時(shí)的思維過(guò)程。你能看到,當(dāng)它遇到障礙時(shí),它會(huì)退回去,嘗試另一個(gè)方法。

  這種思維過(guò)程讓我覺(jué)得,也許它能推廣到數(shù)學(xué)之外的領(lǐng)域,這給了我一些希望。雖然我不知道最終答案是什么,但希望如此吧。

  Hunter Lightman:

  讓我感到困惑的是, o1 已經(jīng)在數(shù)學(xué)上比我更厲害了,但它在軟件工程上卻不如我。所以這里存在某種不匹配。

  Pat Grady:

  看來(lái)還有很多工作要做。

  Hunter Lightman:

  是的,還有一些事情要做。如果我的整個(gè)工作只是解Amy問(wèn)題和參加高中數(shù)學(xué)競(jìng)賽,我可能早就失業(yè)了。但現(xiàn)在我仍然有工作可做。

  Pat Grady:

  既然你提到了“思維鏈”,即觀察背后的推理過(guò)程。我有個(gè)問(wèn)題,也許你們無(wú)法回答,但就當(dāng)是有趣的討論吧。

  在你們發(fā)布 o1 的博客中,你們解釋了為什么要隱藏“思維鏈”,并說(shuō)部分原因是出于競(jìng)爭(zhēng)考慮。我好奇,這是否是一個(gè)有爭(zhēng)議的決定?因?yàn)槲铱梢韵胂?,這種決定很有邏輯,但也可以想象你們可能選擇公開(kāi)它。能否談?wù)勥@是一個(gè)有爭(zhēng)議的決定嗎?

  Noam Brown:

  我不認(rèn)為這是有爭(zhēng)議的。與不分享前沿模型的權(quán)重出于類似的原因,分享模型的思維過(guò)程也存在很多風(fēng)險(xiǎn)。我認(rèn)為這是一個(gè)類似的決策。

  Sonya Huang:

  能不能給外行解釋一下,什么是“思維鏈”?可以舉個(gè)例子嗎?

  Ilge Akkaya:

  例如,如果有人問(wèn)你解決一個(gè)積分問(wèn)題,大多數(shù)人會(huì)需要一張紙和一支筆,然后一步步推導(dǎo)出從復(fù)雜方程到最終答案的過(guò)程。

  這個(gè)過(guò)程可能會(huì)得到一個(gè)答案,比如1,但如何得出這個(gè)答案?這就是數(shù)學(xué)領(lǐng)域中的“思維鏈”。

  Sonya Huang:

  讓我們談?wù)勎磥?lái)的路徑,推理時(shí)間的擴(kuò)展定律。在你們發(fā)布的研究中,這是我認(rèn)為最重要的圖表。這似乎是一個(gè)具有深遠(yuǎn)意義的結(jié)果,類似于預(yù)訓(xùn)練中的擴(kuò)展定律。你同意這種看法嗎?這對(duì)領(lǐng)域的影響會(huì)是什么?

  Noam Brown:

  我認(rèn)為它確實(shí)具有深遠(yuǎn)意義。在我們準(zhǔn)備發(fā)布 o1 時(shí),我一直在想人們是否會(huì)認(rèn)識(shí)到它的重要性。雖然我們提到了這一點(diǎn),但這是個(gè)比較微妙的點(diǎn)。

  我真的很驚訝和感激,看到這么多人理解了這一點(diǎn)的意義。一直以來(lái),人們對(duì) AI 可能遇到瓶頸或停滯的擔(dān)憂很多,尤其是預(yù)訓(xùn)練變得越來(lái)越昂貴,還有關(guān)于是否有足夠數(shù)據(jù)的問(wèn)題。

  o1 ,特別是 o1 Preview,傳達(dá)的主要信息并不是它今天的能力,而是它對(duì)未來(lái)的意義。我們能夠在擴(kuò)展中發(fā)現(xiàn)一個(gè)迄今未被充分開(kāi)發(fā)的維度,我認(rèn)為這是一個(gè)重大突破,這意味著天花板比許多人想象的要高得多。

  Sonya Huang:

  如果讓模型思考數(shù)小時(shí)、數(shù)月甚至數(shù)年,會(huì)發(fā)生什么?

  Hunter Lightman:

  我們還沒(méi)有讓 o1 運(yùn)行那么久,所以還不知道。

  Pat Grady:

  現(xiàn)在有個(gè)后臺(tái)任務(wù)在運(yùn)行嗎?可能正在思考如何解決世界和平問(wèn)題。

  Hunter Lightman:

  有一個(gè)類似的故事叫《最后的問(wèn)題》,講的是一個(gè)巨大的計(jì)算機(jī) AI 被問(wèn)到如何逆轉(zhuǎn)熵,它回答:“我需要更長(zhǎng)的時(shí)間思考。”

  故事接著講述了,10年后,它還在思考,100 年后,1000 年后,甚至一萬(wàn)年后,它還在思考。

  Ilge Akkaya:

  “目前還沒(méi)有足夠的信息來(lái)提供有意義的答案?!鳖愃朴谶@樣。

  Sonya Huang:

  你對(duì)未來(lái)有猜測(cè)嗎?你覺(jué)得當(dāng)模型的推理時(shí)間越來(lái)越長(zhǎng),它的智力極限會(huì)達(dá)到什么程度?目前我看到的報(bào)告是,它的智商大約是 120,那它會(huì)無(wú)限提高嗎?

  Hunter Lightman:

  一個(gè)重要的點(diǎn)是,120智商只是某個(gè)測(cè)試中的分?jǐn)?shù),并不意味著它在所有領(lǐng)域都有120的推理能力。

  實(shí)際上,我們也談到,它在某些方面的表現(xiàn)不如 40 分,比如在創(chuàng)造性寫作等方面。所以,推測(cè)這個(gè)模型的能力是很復(fù)雜的。

  Noam Brown:

  這是一個(gè)重要的點(diǎn)。我們談?wù)撨@些基準(zhǔn)測(cè)試時(shí),強(qiáng)調(diào)了GPQA,這是一個(gè)博士生會(huì)遇到的問(wèn)題集合,通常由博士生來(lái)解答,但 AI 現(xiàn)在在這個(gè)基準(zhǔn)測(cè)試中超過(guò)了很多博士生。

  這并不意味著它在所有方面都比博士生聰明。博士生和人類能夠做很多 AI 無(wú)法做到的事情。所以我們?cè)诳催@些測(cè)試結(jié)果時(shí),應(yīng)該理解它只是測(cè)量了某些特定的能力,通常是人類智力的代理,但對(duì) AI 來(lái)說(shuō),意義有所不同。

  Hunter Lightman:

  也許可以這樣說(shuō),我希望看到的是,當(dāng)我們讓模型在它已經(jīng)擅長(zhǎng)的領(lǐng)域思考更長(zhǎng)時(shí)間時(shí),它會(huì)變得更好。

  我的一個(gè)“推特時(shí)刻”是看到我以前的數(shù)學(xué)教授發(fā)推,他對(duì) o1 印象深刻,因?yàn)樗o了它一個(gè)之前從未被 AI 解過(guò)的證明,而它竟然完成了。

  這讓我感覺(jué)我們正處于某個(gè)有趣的轉(zhuǎn)折點(diǎn),模型有望成為一個(gè)有用的數(shù)學(xué)研究工具。如果它能夠幫助完成一些小的引理和證明,那將是一個(gè)真正的突破。我希望通過(guò)讓它思考更長(zhǎng)時(shí)間,我們能夠在這方面取得更大的進(jìn)展。

  要預(yù)測(cè)它在當(dāng)前不擅長(zhǎng)的領(lǐng)域會(huì)如何表現(xiàn),這對(duì)我來(lái)說(shuō)很難。我們?nèi)绾巫屗谶@些方面變得更好?未來(lái)會(huì)如何發(fā)展?

  但是我們可以以它現(xiàn)在擅長(zhǎng)的領(lǐng)域?yàn)榛A(chǔ),假設(shè)如果我們讓它在這些領(lǐng)域思考更久,它將成為數(shù)學(xué)研究的好助手、軟件工程的好幫手。這樣我們就可以開(kāi)始預(yù)測(cè)未來(lái)的發(fā)展方向。

  Pat Grady:

  關(guān)于擴(kuò)展的瓶頸問(wèn)題。對(duì)于預(yù)訓(xùn)練來(lái)說(shuō),很明顯你需要大量的計(jì)算能力、大量的數(shù)據(jù),這些都需要大量的資金。所以很容易理解預(yù)訓(xùn)練在擴(kuò)展方面的瓶頸。那么,推理時(shí)間的擴(kuò)展會(huì)有什么限制呢?

  Noam Brown:

  當(dāng) GPT-2和 ?GPT-3 發(fā)布時(shí),很明顯只要投入更多的數(shù)據(jù)和GPU,它們的性能就會(huì)顯著提升。

  但即便如此,從 GPT-2到 ?GPT-3 再到 ?GPT-4 之間還是花了好幾年的時(shí)間。這不僅僅是一個(gè)簡(jiǎn)單的想法,還有很多工作要做,才能把它擴(kuò)展到一個(gè)非常大的規(guī)模。

  我認(rèn)為這里也面臨類似的挑戰(zhàn),雖然這個(gè)想法很簡(jiǎn)單,但要真正擴(kuò)展它,需要投入大量的工作。所以我認(rèn)為這是挑戰(zhàn)所在。

  Hunter Lightman:

  是的,我認(rèn)為對(duì)于那些學(xué)術(shù)背景較強(qiáng)的研究人員來(lái)說(shuō),加入 OpenAI 后可能會(huì)發(fā)現(xiàn)令人驚訝的事情之一是,很多問(wèn)題最終并不是研究問(wèn)題,而是工程問(wèn)題。

  構(gòu)建大規(guī)模系統(tǒng)、訓(xùn)練大規(guī)模系統(tǒng),以及運(yùn)行那些早已發(fā)明的算法,或者前所未有的系統(tǒng),都是非常困難的。這需要大量艱難的工程工作,才能讓這些東西擴(kuò)展起來(lái)。

  Ilge Akkaya:

  此外,我們還需要知道該在什么標(biāo)準(zhǔn)上測(cè)試模型。我們確實(shí)有標(biāo)準(zhǔn)的評(píng)估基準(zhǔn),但可能還有一些我們尚未測(cè)試到的領(lǐng)域。所以我們也在尋找這些領(lǐng)域,在這些地方我們可以投入更多的計(jì)算資源,獲得更好的測(cè)試結(jié)果。

  Sonya Huang:

  我一直很難理解的是,當(dāng)你給模型提供接近無(wú)限的計(jì)算資源時(shí),會(huì)發(fā)生什么。作為一個(gè)人類,即便是 Terrence Tao 這樣的大腦天才,也會(huì)受到生理限制。

  而你可以無(wú)限增加推理時(shí)間的計(jì)算資源。這是否意味著,所有的數(shù)學(xué)定理最終都可以通過(guò)這種方法解出來(lái)?或者你認(rèn)為會(huì)有某種極限?

  Hunter Lightman:

  無(wú)限計(jì)算資源是很大的計(jì)算能力。

  Sonya Huang:

  接近無(wú)限。

  Hunter Lightman:

  這讓我想起了Asimov的故事,如果你讓它思考一萬(wàn)年,也許能解決某些問(wèn)題。但說(shuō)實(shí)話,我們還不知道這種擴(kuò)展對(duì)于解決真正難的數(shù)學(xué)定理意味著什么??赡苷娴男枰屗伎家磺辏拍芙鉀Q一些未解的核心數(shù)學(xué)問(wèn)題。

  Noam Brown:

  是的,我的意思是,如果你讓它思考足夠長(zhǎng)的時(shí)間,理論上你可以把一切形式化,像Lean那樣,把所有可能的證明都遍歷一遍,最終你會(huì)發(fā)現(xiàn)定理。

  Hunter Lightman:

  我們已經(jīng)有算法可以解決任何數(shù)學(xué)問(wèn)題,也許這就是你要說(shuō)的。

  Noam Brown:

  是的,只要有無(wú)限的時(shí)間,你可以做很多事情。當(dāng)然,隨著時(shí)間的延長(zhǎng),回報(bào)會(huì)逐漸遞減,但的確可以取得一些進(jìn)展。

  Sonya Huang:

  非常公平。你認(rèn)為關(guān)于 o1 最大的誤解是什么?

  Noam Brown:

  我覺(jué)得一個(gè)大誤解是,當(dāng)項(xiàng)目名稱“草莓”(strawberry)泄露時(shí),人們以為這是因?yàn)榫W(wǎng)絡(luò)上流傳的一個(gè)問(wèn)題:“草莓有多少小時(shí)?”其實(shí)并不是這樣。

  當(dāng)我們看到這個(gè)問(wèn)題時(shí),我們還很擔(dān)心是不是有內(nèi)部信息泄露。但據(jù)我們所知,這只是個(gè)巧合,我們的項(xiàng)目名字碰巧叫“草莓”,而那個(gè)問(wèn)題也恰好流行起來(lái)了。

  Hunter Lightman:

  據(jù)我所知,之所以叫“草莓”,只是因?yàn)楫?dāng)時(shí)有人需要想個(gè)代號(hào),而屋里有個(gè)人正好在吃一盒草莓,事情就這樣定了。

  Pat Grady:

  相比之下,這個(gè)名字比“休斯頓”要更容易讓人聯(lián)想。

  Noam Brown:

  我覺(jué)得我對(duì)它被理解得這么好感到印象深刻。我們?cè)诎l(fā)布時(shí)確實(shí)不確定大家會(huì)怎么接受。內(nèi)部有過(guò)很大的爭(zhēng)論:人們會(huì)不會(huì)失望,因?yàn)樗⒉荒茉谒蟹矫娑几茫窟€是他們會(huì)對(duì)它驚人的數(shù)學(xué)表現(xiàn)感到印象深刻?

  我們真正想傳達(dá)的并不是這個(gè)模型目前的能力,而是它未來(lái)的發(fā)展方向。我不確定大家是否能理解這一點(diǎn),但似乎很多人確實(shí)領(lǐng)會(huì)了,所以我對(duì)此非常滿意。

  Sonya Huang:

  關(guān)于 o1 ,你覺(jué)得有沒(méi)有什么批評(píng)是合理的?

  Hunter Lightman:

  毫無(wú)疑問(wèn),它并不能在所有方面表現(xiàn)得更好。它是一個(gè)有點(diǎn)古怪的模型,很多人在互聯(lián)網(wǎng)上發(fā)現(xiàn)了不同的提示方式來(lái)更好地使用它。

  仍然有很多怪異的邊緣案例,我很期待看到生態(tài)系統(tǒng)如何基于我們的平臺(tái)開(kāi)發(fā)出更智能的產(chǎn)品和應(yīng)用。

  Hunter Lightman:

  我覺(jué)得我們還處于非常早期的階段。有點(diǎn)像一年前人們開(kāi)始真正搞清楚如何使用 ?GPT-4 及其語(yǔ)言模型程序,進(jìn)而使得軟件工程工具變得更智能。我希望我們會(huì)看到類似的進(jìn)展,人們會(huì)基于 o1 進(jìn)行創(chuàng)新。

  Pat Grady:

  說(shuō)到這一點(diǎn),有一件我們還沒(méi)討論的事情,就是 o1 Mini。我聽(tīng)到很多人對(duì) o1 Mini非常興奮,因?yàn)榇蠹移毡閷?duì)小模型感興趣。

  如果你能夠保留推理能力并提取部分世界知識(shí),那么這是一件非常不錯(cuò)的事情。我很好奇,你們對(duì) o1 Mini和它代表的方向有多興奮?

  Ilge Akkaya:

  這個(gè)模型非常令人興奮。對(duì)我們研究人員來(lái)說(shuō),如果模型運(yùn)行得快,它的用途就更廣泛。所以我們也很喜歡它。它們有不同的用途。

  我們很高興有一個(gè)更便宜、更快的版本,還有一個(gè)更重、更慢的版本。它們?cè)诓煌膱?chǎng)景中都非常有用。所以,我們對(duì)取得的這種平衡感到非常興奮。

  Hunter Lightman:

  我喜歡這種表述,這強(qiáng)調(diào)了進(jìn)展的重要性。o1 Mini讓我們能夠更快地迭代,希望對(duì)廣大的用戶生態(tài)系統(tǒng)來(lái)說(shuō),它也能讓他們更快地迭代。所以它至少在這一點(diǎn)上是非常有用且令人興奮的產(chǎn)物。

  Sonya Huang:

  對(duì)于那些在 AI 領(lǐng)域創(chuàng)業(yè)的創(chuàng)始人們來(lái)說(shuō),他們應(yīng)該如何考慮何時(shí)使用 ?GPT-4 ,何時(shí)使用 o1 ?是否需要他們從事 STEM、編程、數(shù)學(xué)相關(guān)的工作才能使用 o1 ?他們應(yīng)該怎么思考這個(gè)問(wèn)題?

  Hunter Lightman:

  我希望他們能幫我們找到答案。

  Noam Brown:

  我們發(fā)布 o1 Preview的動(dòng)機(jī)之一是想看看人們最終會(huì)用它做什么,怎么使用它。事實(shí)上,我們還討論過(guò)是否值得發(fā)布 o1 Preview。

  但最終發(fā)布的原因之一就是為了讓大家盡早接觸到它,看看它在什么場(chǎng)景下最有用,在哪些場(chǎng)景下不太合適,以及如何改進(jìn)它以滿足用戶的需求。

  Sonya Huang:

  你覺(jué)得人們目前最容易低估 o1 的是什么?

  Hunter Lightman:

  我覺(jué)得這證明了我們給模型命名的能力有所提升,至少我們沒(méi)叫它“ ?GPT-4 .5 思維模式”。

  Sonya Huang:

  不過(guò),我覺(jué)得“草莓”這個(gè)名字挺可愛(ài)的。

  Pat Grady:

  我覺(jué)得“思維模式”也挺有意思。你們對(duì) o2 或 o3 最興奮的是什么?

  Ilge Akkaya:

  我們還沒(méi)有達(dá)到?jīng)]想法的地步,所以我很期待接下來(lái)的進(jìn)展。我們會(huì)繼續(xù)研究,最期待的是獲得反饋。作為研究人員,我們顯然在自己擅長(zhǎng)的領(lǐng)域有一定的偏見(jiàn),但通過(guò)產(chǎn)品的使用,我們將收到來(lái)自各個(gè)不同領(lǐng)域的反饋。也許我們會(huì)發(fā)現(xiàn)一些超出我們想象的領(lǐng)域值得深入推進(jìn)。