久久九九热re6这里只有精品,国产亚洲欧洲精品,欧美在线综合在线,国产精品一区二区无线

<menuitem id="3wyru"></menuitem>

<td id="3wyru"><menuitem id="3wyru"></menuitem></td>

<address id="3wyru"></address>

<small id="yqa90"></small>

首頁 > 快看 >

英偉達把 GPT-4 塞進我的世界，打游戲快 15 倍：AI 大佬沉默了

時間：2023-05-27 12:05:42 來源：機器之心

機器之心報道

機器之心編輯部

游戲行業(yè)可能要變天？

(相關(guān)資料圖)

通用 AI 大模型 GPT-4 進游戲了，進的是開放世界，而且玩出了高水平。

昨天，英偉達發(fā)布的 VOYAGER 給 AI 圈內(nèi)帶來了一點小小的震撼。

VOYAGER 是第一個大模型驅(qū)動，可以終身學習的游戲智能體，著名 AI 學者，剛回 OpenAI 的 Andrej Karpathy 看論文了之后表示：還記得在大約 2016 年的時候，在像《我的世界》這樣的環(huán)境里開發(fā) AI 代理是多么絕望的一件事嗎？

現(xiàn)在畫風變了 —— 正確的做法是忘記所有這些，首先用全網(wǎng)數(shù)據(jù)去訓練一個大語言模型（LLM）學習世界知識，推理和工具使用（編碼），然后以英偉達這種方式讓它去解決問題。

Karpathy 最后總結(jié)道：如果在 2016 年讀到這種「無梯度」的代理方法，我肯定會大驚失色。

專家說完了，其他人的想法很直接：看起來離通用人工智能（AGI）更近了一步。

也有人在設(shè)想未來游戲的場景，由大模型帶動 NPC，勃勃生機萬物競發(fā)的境界躍然眼前：

我們知道，引領(lǐng)科技潮流的 ChatGPT 是一種文本交互的聊天機器人，又因為 GPT-4 升級了多模態(tài)能力，人們經(jīng)常預言通用 AI 的下一步在于把這種大模型放在機器人里，讓它與現(xiàn)實世界產(chǎn)生交互。

而在機器人與現(xiàn)實 / 虛擬世界交互的方式上，類似 GPT-4 這樣的先進大模型解鎖了一種新范式：「訓練」是代碼執(zhí)行而非梯度下降?！赣柧毢玫哪Ｐ汀故?VOYAGER 迭代組合的技能代碼庫，而不是浮點數(shù)矩陣。現(xiàn)在，我們正在將無梯度架構(gòu)推向極限。

在《我的世界》里，VOYAGER 迅速成為了經(jīng)驗豐富的探險家，它獲得的獨特物品增加了 3.3 倍，行進距離增加了 2.3 倍，解鎖關(guān)鍵科技樹里程碑的速度比之前的方法快了 15.3 倍。

英偉達把 VOYAGER 的研究進行了徹底的開源：

論文鏈接：https://arxiv.org/pdf/2305.16291.pdf

項目主頁：https://voyager.minedojo.org/

GitHub：https://github.com/MineDojo/Voyager

研究背景

構(gòu)建具有通用能力的具身智能體，在開放的世界中不斷探索、計劃和發(fā)展新的技能，是人工智能領(lǐng)域的一個巨大挑戰(zhàn)。傳統(tǒng)的方法采用強化學習和模仿學習的方法，這些方法基于原始行為運作，對于系統(tǒng)性的探索、可解釋性和概括性來說，可能是個挑戰(zhàn)。

近期，基于大型語言模型（LLM）的智能體在這些方面獲得了突破，利用預訓練 LLM 中封裝的世界知識，生成一致的行動計劃或可執(zhí)行的策略。它們被應用于像游戲和機器人這樣的體現(xiàn)性任務，以及沒有體現(xiàn)性的 NLP 任務。然而，這些智能體不是終身學習者，不能在較長的時間跨度內(nèi)逐步獲得、更新、積累和遷移知識。

與人工智能中研究的大多數(shù)其他游戲不同，《我的世界》沒有強加一個預定的最終目標或固定的故事情節(jié)，而是提供了一個具有無限可能性的獨特游樂場。一個高效的終身學習智能體應該具有與人類玩家類似的能力：

（1）根據(jù)其當前的技能水平和世界狀態(tài)提出合適的任務，例如，如果它發(fā)現(xiàn)自己處于沙漠而不是森林，就會在打鐵前學會獲取沙子和仙人掌；

（2）根據(jù)環(huán)境反饋完善技能，并將掌握的技能存入記憶，以便將來在類似情況下重復使用（例如，打僵尸與打蜘蛛類似）；

（3）不斷探索世界，以自驅(qū)動的方式尋找新任務。

VOYAGER 是第一個由 LLM 驅(qū)動的體現(xiàn)終身學習的智能體，可以在《我的世界》中驅(qū)動探索，掌握廣泛的技能，并在沒有人類干預的情況下不斷地做出新的發(fā)現(xiàn)。

研究者使用了代碼作為行動空間，而不是低級的運動指令，因為程序可以自然地表示時間上的擴展和組合行動，這對于《我的世界》中的許多長線任務是至關(guān)重要的。

VOYAGER 通過 prompt 和上下文學習與黑盒子 LLM（GPT-4）互動。值得注意的是，該方法避開了對模型參數(shù)訪問和明確的基于梯度的訓練或微調(diào)的需要。

具體地說，VOYAGER 試圖解決由自動課程提出的逐漸困難的任務。該課程是由 GPT-4 根據(jù) 「盡可能多發(fā)現(xiàn)不同的東西」的總體目標生成的。這種方法可以被看作是一種上下文式的新穎性搜索。通過存儲有助于成功解決某個任務的行動程序，VOYAGER 逐步建立起一個技能庫。每個程序都由其描述的嵌入來索引，未來可以在類似情況下進行檢索。復雜的技能則可以通過組成更簡單的程序來合成，這使 VOYAGER 的能力隨著時間的推移迅速變得「復合」，緩解了其他持續(xù)學習方法中的「災難性遺忘」。

方法

VOYAGER 由三個新型組件組成： ( 1 ) 自動課程，用于提出開放式探索的目標； ( 2 ) 技能庫，用于開發(fā)越來越復雜的行為； ( 3 ) 迭代 prompt 機制，用于為具身控制生成可執(zhí)行代碼。

自動課程

具身智能體在開放模式下會遇到各種不同復雜程度的目標環(huán)境。自動課程這個組件為開放式探索提供了許多好處，實現(xiàn)了具有挑戰(zhàn)性但可管理的學習過程，培養(yǎng)了好奇心驅(qū)動的內(nèi)在動機，供智能體學習和探索，并鼓勵開發(fā)通用和靈活的問題解決策略。

自動課程組件利用互聯(lián)網(wǎng)規(guī)模的知識，通過促使 GPT-4 提供源源不斷的新任務或挑戰(zhàn)，提供非常強大的適應性和響應能力。自動課程會根據(jù)探索進度和智能體的狀態(tài)使探索最大化。該課程由 GPT-4 基于「發(fā)現(xiàn)盡可能多的不同事物」的總體目標生成。

技能庫

隨著自動課程不斷提出越來越復雜的任務，VOYAGER 需要有一個技能庫，作為學習和進化的基礎(chǔ)。受程序的通用性、可解釋性和普遍性的啟發(fā)，研究團隊用可執(zhí)行代碼表示每項技能，這些代碼支持臨時擴展，以完成自動課程提出的特定任務。

具體來說，技能庫的頂部用于添加新技能。每個技能都通過其描述的嵌入進行索引，將來可以在類似情況下檢索到。

技能庫的底部是技能檢索。當自動課程提出新任務時，技能庫會執(zhí)行查詢以確定最相關(guān)的 5 項技能。復雜的技能可以通過編寫更簡單的程序來合成。這種做法讓 VOYAGER 的能力隨著時間的推移迅速增強，并緩解了「災難性遺忘」問題。

迭代 prompt 機制

研究團隊通過三種類型的反饋引入自我提升的迭代 prompt 機制，包括環(huán)境反饋、執(zhí)行錯誤、檢查任務成功與否的自我驗證。

下圖（左）是一個環(huán)境反饋的例子：GPT-4 意識到在制作木棍之前還需要 2 個木板。執(zhí)行錯誤的例子如下圖（右）所示， GPT-4 意識到它應該制作木斧而不是灌木斧，因為《我的世界》中沒有灌木斧。

下圖是一個自我驗證的例子。通過向 GPT-4 提供智能體的當前狀態(tài)和任務，GPT-4 會充當「評論者」并通知程序是否完成了任務。此外，如果任務失敗，它會「批評」智能體并提供如何完成任務的建議。

實驗

在實驗中，研究者系統(tǒng)對比了 VOYAGER 和基線的探索性能、技術(shù)樹的掌握情況、地圖覆蓋率以及對新世界中新任務的零樣本泛化能力。

他們利用 OpenAI 的 gpt-4-0314 和 gpt-3.5-turbo-0301 的 API 來完成文本，同時利用 text-embedding-ada-002 API 進行文本嵌入。所有的溫度設(shè)置為 0，除了 automatic curriculum 需要使用溫度 = 0.1 來鼓勵任務多樣性。模擬環(huán)境建立在 MineDojo 的基礎(chǔ)上，并利用 Mineflayer 的 JavaScript APIs 進行電機控制。

評估結(jié)果如下：

明顯更強的探索能力

VOYAGER 的優(yōu)勢體現(xiàn)在它能夠不斷取得新的進展（如圖 1），比如能在 160 次 prompt 迭代中發(fā)現(xiàn)了 63 個獨特的項目，數(shù)量是同類的 3.3 倍。另一方面，AutoGPT 在發(fā)現(xiàn)新項目方面明顯滯后，而 ReAct 和 Reflexion 則難以取得重大進展。

科技樹的掌握

《我的世界》中技術(shù)樹測試的是智能體制作和使用工具層次的能力。通過這棵樹（木制工具→石制工具→鐵制工具→鉆石工具）的進展需要智能體掌握系統(tǒng)性和構(gòu)成性的技能。

在表 1 中，分數(shù)表示三次總運行中的成功試驗次數(shù)。數(shù)字是三次試驗中平均的 prompt 迭代次數(shù)，迭代次數(shù)越少，方法就越有效。與基線相比，VOYAGER 解鎖木質(zhì)等級的速度快了 15.3 倍（就 prompt 迭代而言），解鎖石質(zhì)等級快了 8.5 倍，解鎖鐵質(zhì)等級快了 6.4 倍，VOYAGER 是唯一能解鎖科技樹中鉆石等級的模型。

廣泛的地圖遍歷

與基線相比，VOYAGER 的行動范圍能夠覆蓋 2.3 倍的距離，可穿越各種地形，而基線智能體往往發(fā)現(xiàn)自己被限制在本地，這大大阻礙了他們發(fā)現(xiàn)新知識的能力（圖 7）。

對未見任務的零樣本泛化能力

為了評估零樣本泛化能力，研究者清除了智能體的庫，將其重置到一個的實例化的世界，并用未見過的任務來測試。對于 VOYAGER 和 AutoGPT，他們利用 GPT-4 將任務分解為一系列的子目標。

如表 2 和圖 8 所示，VOYAGER 可以持續(xù)地解決所有的任務，而基線不能在 50 次 prompt 迭代內(nèi)解決任何任務。值得注意的是，從終身學習中構(gòu)建的技能庫不僅增強了 VOYAGER 的性能，而且也給 AutoGPT 帶來了提升。這表明，技能庫是一個多功能的工具，可以隨時被其他方法所采用，有效地作為一種即插即用的資產(chǎn)來提高性能。

消融研究

研究者在 VOYAGER 中消融了 6 個設(shè)計選擇（自動課程、技能庫、環(huán)境反饋、執(zhí)行錯誤、自我驗證和用于代碼生成的 GPT-4），并研究它們對探索性能的影響，結(jié)果如圖 9 所示。

VOYAGER 的性能優(yōu)于所有替代方案，表明了每個組件的關(guān)鍵作用。此外，GPT-4 在代碼生成方面明顯優(yōu)于 GPT-3.5。

最后，英偉達的研究者也指出了一些局限性和未來的工作方向。

首先是成本問題。GPT-4 API 導致了巨大的成本。它比 GPT-3.5 的成本高 15 倍。然而，VOYAGER 需要 GPT-4 實現(xiàn)代碼生成質(zhì)量的飛躍，這是 GPT-3.5 和開源的 LLM 都無法提供的。

其次，盡管有迭代 prompt 機制，但仍有智能體卡住而無法生成正確技能的情況。自動課程有靈活性，可以在以后的時間里重新嘗試這項任務。自我驗證模塊偶爾也可能失敗，例如不能識別出蜘蛛串正是打倒蜘蛛的成功信號。

然后是大模型的「幻覺」問題。自動課程偶爾會提出無法完成的任務，例如可能要求智能體制作游戲中并不存在的「銅劍」或「銅胸甲」?；糜X也會發(fā)生在代碼生成過程中，例如 GPT-4 傾向于使用鵝卵石作為燃料輸入，這在游戲中是一個無效的燃料來源。此外，它可能會調(diào)用所提供的控制原始 API 中沒有的函數(shù)，導致代碼執(zhí)行錯誤。研究者認為，GPT API 模型的改進以及微調(diào)開源 LLM 的新技術(shù)將在未來克服這些限制。

更多研究細節(jié)，可參考原論文。

THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com

關(guān)鍵詞：

總投資278億元，中國石化洛陽百萬噸乙烯項目開工_環(huán)球頭條

頭條 23-05-27
環(huán)球快資訊：聚焦“多實惠+好服務”，拼多多今年一季度總營收376.371億元

頭條 23-05-27
河南山東部分地區(qū)或現(xiàn)同期少見降雨江南華南提前體驗盛夏悶熱今日播報

頭條 23-05-27
國家統(tǒng)計局：1～4月份全國規(guī)上工業(yè)企業(yè)利潤下降20.6％

頭條 23-05-27
【快播報】隔夜歐美·5月27日

頭條 23-05-27
全球看熱訊：商務部部長王文濤會見美國貿(mào)易代表戴琪

頭條 23-05-27
商務部部長王文濤會見世貿(mào)組織總干事伊維拉快看

頭條 23-05-27
立方風控鳥·早報（5月27日）

頭條 23-05-27
國際貨幣基金組織略微調(diào)高2023年全球增長預期

頭條 23-05-27
房貸利率會上調(diào)？業(yè)內(nèi)人士：誤讀|環(huán)球微速訊

頭條 23-05-27
加速基建！鄭州新國際會展中心、鄭州國際文化交流中心，今明兩年將相繼落成

頭條 23-05-26
直面解答新規(guī)要點！鄭東新區(qū)龍子湖智慧島基金備案合規(guī)講座順利舉行_天天簡訊

頭條 23-05-26
利率2.75％！北京銀行再發(fā)100億元小微金融債_天天快播報

頭條 23-05-26
上交所：調(diào)整上證50、上證180、科創(chuàng)50等指數(shù)樣本-每日速看

頭條 23-05-26
環(huán)球百事通！中證指數(shù)公司公布滬深300等指數(shù)樣本定期調(diào)整方案

頭條 23-05-26
全球資訊：上期所舉行商品期權(quán)研討會，積極推進更多期權(quán)品種上市

頭條 23-05-26
環(huán)球百事通！剛剛發(fā)文！中央財政獎補油茶產(chǎn)業(yè)發(fā)展，單個項目最高6億元

頭條 23-05-26
立方風控鳥·晚報（5月26日）

頭條 23-05-26
新規(guī)出臺！整治“霸王條款”等不公平格式條款_當前滾動

頭條 23-05-26
逾三百位專家企業(yè)家齊聚鄭州，共話中原鋼材產(chǎn)業(yè)發(fā)展

頭條 23-05-26
天天速訊：布局風電裝備產(chǎn)業(yè)，中信重工擬參設(shè)重工戴卡（洛陽）新能源公司

頭條 23-05-26
6·18之后百億補貼持續(xù)，促銷常態(tài)化之下低價如何可持續(xù)？全球微動態(tài)

頭條 23-05-26
財政部：前4個月國企利潤總額14388.1億元，同比增長15.1％

頭條 23-05-26
西安市人才發(fā)展基金啟動首期規(guī)模5億元

頭條 23-05-26
華蘭疫苗：河南驊盈擬減持不超2％股份|當前報道

頭條 23-05-26
剛剛！河南公布728家省定重點上市后備企業(yè) | 名單

頭條 23-05-26
豫地科技集團所屬36家二級公司揭牌|每日熱文

頭條 23-05-26
4月我國外匯市場總計成交20.14萬億元人民幣

頭條 23-05-26
最新數(shù)據(jù)！前4月新增退減緩稅費4689億，誰受益最大？_天天日報

頭條 23-05-26
鄭州交運集團等24家高風險運輸企業(yè)被約談-世界熱點評

頭條 23-05-26
世界快資訊：鄭州至南陽高速新進展！鄭許段施工圖獲批，預算121億元

頭條 23-05-26
【當前熱聞】華福證券擬引入多家戰(zhàn)略投資者，持股比例合計不超過20％

頭條 23-05-26
5311家！河南最新一批入庫科技型中小企業(yè)名單公布

頭條 23-05-26
天天速看：聚焦戰(zhàn)略配售核心命題，專精特新豫企與一線投資機構(gòu)面對面

頭條 23-05-26
【環(huán)球聚看點】董事長雇人拉高股票，辯稱是“市值管理”？證監(jiān)會出手，罰沒近億元

頭條 23-05-26
1209套！鄭州新一批人才公寓5月27日上線配租通訊

頭條 23-05-26
總規(guī)模5億元，“鄭好融”資金池管理新規(guī)出爐，支持對象及補償標準明確|全球快資訊

頭條 23-05-26
興業(yè)銀行鄭州分行：以金融之筆添彩美麗河南

頭條 23-05-26
觀速訊丨大連萬達商管就四大市場傳聞發(fā)布澄清說明

頭條 23-05-26
仰韶酒業(yè)董事長侯建光：“融合思維”打造高質(zhì)量黃淮白酒產(chǎn)業(yè)集群

頭條 23-05-26
鄭州市二七區(qū)戰(zhàn)略簽約中交投資，未來五年合作規(guī)模不低于300億焦點熱聞

頭條 23-05-26
方正證券：“方正聯(lián)合交易終端APP”是假冒方正證券的APP

頭條 23-05-26
法院判了！特斯拉車頂維權(quán)女車主，敗訴！

頭條 23-05-26
河南省政府新任免一批干部動態(tài)焦點

頭條 23-05-26
全球最資訊丨上市銀行擬發(fā)行250億元金融債，公開選聘主承銷商

頭條 23-05-26
張占倉：凝聚合力促進河南超硬材料產(chǎn)業(yè)高質(zhì)量發(fā)展_環(huán)球快看

頭條 23-05-26
世界微動態(tài)丨王紀年被查！涉嫌嚴重違紀違法

頭條 23-05-26
河南首單！南陽產(chǎn)投集團成功發(fā)行8億元“雙創(chuàng)債”

頭條 23-05-26
【天天新要聞】張文宏：出現(xiàn)第二波疫情是科學規(guī)律

頭條 23-05-26
1200余套！鄭州市第二批人才公寓配租方案公布

頭條 23-05-26
北京路演受追捧！河南9個專精特新項目擬融資3.45億元

頭條 23-05-26
搶抓北交所機遇，這場培訓會干貨滿滿

頭條 23-05-26
杭州首次總部企業(yè)認定將啟動，排除壟斷行業(yè)和省市屬國企

頭條 23-05-26
雄安新區(qū)印發(fā)企業(yè)跨省市遷移行動方案，助力北京疏解企業(yè)高效落戶_環(huán)球播報

頭條 23-05-26
三部門擬確定海綿城市建設(shè)15個示范城市，河南一地入選 | 名單_每日精選

頭條 23-05-26

英偉達把 GPT-4 塞進我的世界，打游戲快2023-05-27
全球觀天下！這個 618，兩個女人的戰(zhàn)爭2023-05-27
揚州召開“好網(wǎng)角”工程暨網(wǎng)絡綜合治理體系2023-05-27
重慶高新區(qū)：讓“雙減”在科學教育中擲地有2023-05-27
視焦點訊！泉州泉港發(fā)布涉詐重點人員懲戒措2023-05-27
加速比拼超越奔馳，星途凌云怎么做到的？2023-05-27
視訊！dnf破魔石在哪里獲得_dnf破魔石2023-05-27
聚焦：南方電網(wǎng)織金供電局：戰(zhàn)暴雨保供電2023-05-27
江西發(fā)布高溫黃色預警部分地區(qū)日最高氣溫2023-05-27
大暴雨“霸榜”！安徽多地紅色預警，啟動應2023-05-27
暴雨藍色預警！四川河南安徽等地局地有大暴2023-05-27
國寶“卸妝”什么樣？罕見白色野生大熊貓完2023-05-27
今亮點！李家超：有信心更多港商開拓內(nèi)地市2023-05-27
連續(xù)兩天發(fā)布暴雨預警！四川局地大暴雨來襲2023-05-27
環(huán)球播報:若本賽季西甲沒有VAR，皇馬將反超2023-05-27
國家水稻全產(chǎn)業(yè)鏈大數(shù)據(jù)平臺已上線，推動產(chǎn)2023-05-27
李彥宏：大模型即將改變世界，教育要教孩子2023-05-27
美民調(diào)：超八成民眾對美國家經(jīng)濟持負面看法2023-05-27
在蘇州河畔，上一堂生動的 “城市課堂”2023-05-27
微動態(tài)丨鐵人三項起源在哪里？比賽順序有什2023-05-27
孟州市槐樹鄉(xiāng)：保護傳統(tǒng)村落守住鄉(xiāng)愁記憶2023-05-27
總投資278億元，中國石化洛陽百萬噸乙烯項2023-05-27
環(huán)球快資訊：聚焦“多實惠+好服務”，拼多2023-05-27
世界觀察：日媒社論：民眾疑慮未消政府不2023-05-27
6月1日起，21省區(qū)市試點婚姻登記“跨省通辦2023-05-27
國家統(tǒng)計局：工業(yè)企業(yè)4月營收增長加快裝2023-05-27
中央網(wǎng)信辦：從嚴整治“自媒體”亂象專項行2023-05-27
當前熱點-中央網(wǎng)信辦：處置違規(guī)自媒體賬號92023-05-27
天空之眼瞰珠峰：在海拔8000米高空遠眺珠峰2023-05-27
【天天時快訊】萬噸海上巨無霸，來了！2023-05-27

精彩推薦

閱讀排行

要聞

“大學生掏鳥案”當事人閆嘯天已經(jīng)

河南“大學生掏鳥案”當事人出獄，

全球新資訊：大學生掏鳥案當事人閆

頭條

總投資278億元，中國石化洛陽百萬噸乙烯項

商業(yè)

網(wǎng)站簡介網(wǎng)站團隊本網(wǎng)動態(tài) 友情鏈接版權(quán)聲明我要投稿

Copyright? 2014-2020 中原網(wǎng)視臺(ju8hn6.cn) All rights reserved.

<td id="whwd9"></td>

<address id="whwd9"></address><strike id="whwd9"><tbody id="whwd9"><table id="whwd9"></table></tbody></strike>