2022-09-21 1:41 LJY2345   评论关闭   0 

DeepMind 又對雅達利遊戲下手了!

這次,他們最新推出的智能體 MEME,在效果不變的前提下,比兩年前的 Agent57 提速了 200 倍

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

Agent57,是 DeepMind 在 2020 年搞的一個智能體,史上首次在所有 57 個雅達利遊戲中超過了人類基準表現。

但它有一個致命缺陷是效率低:需要近 800 億幀的數據訓練才能實現。

現在,MEME 的出現完美解決了這一問題。

有網友看完表示:這就是真正的樣本高效吧。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

話不多說,趕緊來一睹為快吧。

新的智能體:MEME

Agent57,作為首個在所有雅達利遊戲中超越人類基準表現的智能體,性能上已足夠先進。

但問題是,要想達到這一目標,背後需要 780 億幀的龐大的經驗訓練,這在時間和成本上都是一筆大開支。

因此,以 Agent57 為起點,DeepMind 採用了一系列不同的策略,來實現訓練效率上的提升。

他們調查了在減少數據制度時遇到的一系列不穩定因素和瓶頸,並提出了有效的解決方案,最後建立一個更加強大和高效的智能體:MEME。

新的 MEME 智能體主要針對 Agent57 的 4 個方面進行改善,分別是:

A.實現與罕見事件相關的學習信號的快速傳播

B.在不同的價值尺度下穩定學習

C.改進神經網絡結構

D.在快速變化的政策下使更新更加穩健

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

為了達到這四個目標,DeepMind 採取了以下方法,與上述四點相對應。

A1.用在線網絡進行引導;

A2.有公差的目標計算;

B1.損失和優先權歸一化;

B2.交叉混合訓練;

C1.無歸一化的軀幹網絡;

C2.帶有綜合損失的共享軀幹;

D.通過策略提煉的魯棒行為。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

這些方法旨在提高 Agent57 的數據效率,但這種效率的提高不能以犧牲終端性能為代價。

因此,為了檢驗經過上述步驟的智能體 MEME 的效率和性能,研究團隊分別在 2 億、10 億、200 億、900 億幀環境進行了訓練。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

通過下圖可以直觀的看出,新智能體 MEME 在 3.9 億幀時就超過了人類基準,比 Agent57 快了兩個數量級,並且在將參數量從 90B 減少到 1B 的情況下,取得了類似的最終表現。

可以說相比 Agent57 而言,MEME 既提升了效率,又保持了性能。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

研究團隊

MEME 的研究團隊來自 DeepMind。

其中三位 Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell 也是之前 Agent57 的論文作者。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

值得一提的是,Steven Kapturowski 在兩篇論文中都是一作。

他畢業於美國科羅拉多大學博爾德分校,曾在蘋果、微軟、Glassdoor 等公司工作過,現在是 DeepMind 的一名高級研究工程師。

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達利遊戲上勝過人類

參考

  • [1]https://arxiv.org/pdf/2209.07550.pdf

  • [2]https://arxiv.org/pdf/2003.13350.pdf

  • [3]https://www.linkedin.cn/incareer/in/stevenkapturowski

🌙
😃

切换注册
忘记密码 ?

×

您也可以使用第三方帐号快捷登录

切换登录

×
扫一扫二维码分享
下载海报
  切换主题 | SCHEME TOOL