李飛飛提出深度進(jìn)化強(qiáng)化學(xué)習(xí)新框架：創(chuàng)建具身代理學(xué)習(xí)動(dòng)物進(jìn)化規(guī)律

發(fā)布日期： 2021-10-28 點(diǎn)擊： 555

【新智苑導(dǎo)讀】在6億多年的進(jìn)化過(guò)程中，動(dòng)物表現(xiàn)出了非凡的具身智能，利用進(jìn)化來(lái)學(xué)習(xí)復(fù)雜的任務(wù)。研究人員表示，AI 代理可以快速學(xué)習(xí)動(dòng)物的這種智能行為，但在促進(jìn)具身認(rèn)知方面存在許多挑戰(zhàn)。近日，斯坦福大學(xué)李飛飛教授等人在“深度進(jìn)化強(qiáng)化學(xué)習(xí)”研究上取得突破，首次證明了“鮑德溫效應(yīng)”。

Agent是人工智能領(lǐng)域的一個(gè)主要研究課題，可分為非具身智能和具身智能。

具身智能體的創(chuàng)建是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)，因此當(dāng)前人工智能領(lǐng)域更加關(guān)注“非具身認(rèn)知”。

最近，李飛飛等幾位學(xué)者提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí)（DERL）?；谶@個(gè)框架，實(shí)體代理可以在多個(gè)復(fù)雜環(huán)境中執(zhí)行多個(gè)任務(wù)。.

此外，這項(xiàng)研究還首次通過(guò)“形態(tài)學(xué)習(xí)”證明了進(jìn)化生物學(xué)中的“鮑德溫效應(yīng)”。

1953年，美國(guó)古生物學(xué)家喬治·蓋洛德·辛普森（George Gaylord Simpson）創(chuàng)造了“鮑德溫效應(yīng)”一詞，它指的是美國(guó)哲學(xué)家和心理學(xué)家JM鮑德溫1896年的論文中的一種新的進(jìn)化因素。

在進(jìn)化生物學(xué)中，鮑德溫效應(yīng)提出，在進(jìn)化過(guò)程的早期幾代人的生活中最初學(xué)會(huì)的行為將逐漸成為本能，甚至可能傳遞給后代。

智能檢具_(dá)廣州微勝智能牌具_(dá)幼兒園智能晨檢機(jī)

在過(guò)去的 6 億年里，進(jìn)化帶來(lái)了無(wú)數(shù)形式的美：從古代雙邊對(duì)稱的昆蟲到各種動(dòng)物形態(tài)。

這些動(dòng)物還表現(xiàn)出非凡的具身智能，利用進(jìn)化來(lái)學(xué)習(xí)復(fù)雜的任務(wù)。

具身認(rèn)知研究人員認(rèn)為智能檢具，AI智能體可以快速學(xué)習(xí)這種智能行為，而且它們的形狀也能很好地適應(yīng)環(huán)境。

然而，人工智能領(lǐng)域更注重“非身體認(rèn)知”，例如語(yǔ)言、視覺或游戲。

當(dāng) AI 代理能夠很好地適應(yīng)環(huán)境時(shí)，它們就可以學(xué)習(xí)各種復(fù)雜環(huán)境中的控制任務(wù)。但是，由于以下原因，創(chuàng)建這樣的代理非常具有挑戰(zhàn)性。

這需要在大量潛在模式中進(jìn)行搜索。通過(guò)終身學(xué)習(xí)評(píng)估代理的適應(yīng)性需要大量的計(jì)算時(shí)間。

因此，之前的研究要么是讓agent在極其有限的形態(tài)搜索空間中進(jìn)化，要么是在給定的人工設(shè)計(jì)形態(tài)下尋找最優(yōu)參數(shù)。

評(píng)估適應(yīng)性的困難使得先前的研究避免直接根據(jù)原始感官觀察學(xué)習(xí)適應(yīng)性控制器；

學(xué)會(huì)使用少量參數(shù)（≤100) 手動(dòng)設(shè)計(jì)控制器；學(xué)會(huì)預(yù)測(cè)一種適應(yīng)性；

幼兒園智能晨檢機(jī)_廣州微勝智能牌具_(dá)智能檢具

模仿拉馬克的進(jìn)化而不是達(dá)爾文的進(jìn)化，將學(xué)習(xí)的信息直接跨代傳遞。

此外，之前的研究主要局限于在地面上移動(dòng)的簡(jiǎn)單任務(wù)。

代理具有較少的自由度（DoF）或由多個(gè)立方體組成，這進(jìn)一步簡(jiǎn)化了控制器的學(xué)習(xí)問題。

三個(gè)維度：環(huán)境、形式和控制。實(shí)體代理可以執(zhí)行哪些任務(wù)？

斯坦福大學(xué)李飛飛和 Agrim Gupta、Silvio Savarese 和 Surya Ganguli 的研究人員提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí) (DERL)，可以在環(huán)境、形式和控制三個(gè)復(fù)雜維度同時(shí)擴(kuò)展創(chuàng)建具身代理的規(guī)模.

DERL 為計(jì)算機(jī)模擬實(shí)驗(yàn)中的大規(guī)模具身代理創(chuàng)建活動(dòng)打開了大門，這有助于獲取有關(guān)學(xué)習(xí)和進(jìn)化如何協(xié)作以在環(huán)境復(fù)雜性、形態(tài)智能和控制可學(xué)習(xí)性之間建立復(fù)雜性的信息。對(duì)關(guān)系的科學(xué)見解。

此外，DERL 還降低了強(qiáng)化學(xué)習(xí)的樣本效率低下。創(chuàng)建代理不僅可以使用更少的數(shù)據(jù)，還可以泛化和解決各種新任務(wù)。

DERL通過(guò)模仿達(dá)爾文進(jìn)化論中錯(cuò)綜復(fù)雜的代際進(jìn)化過(guò)程來(lái)搜索形態(tài)空間，通過(guò)終身神經(jīng)學(xué)習(xí)的智能控制，通過(guò)解決復(fù)雜任務(wù)來(lái)評(píng)估給定形態(tài)的速度和質(zhì)量。

廣州微勝智能牌具_(dá)幼兒園智能晨檢機(jī)_智能檢具

斯坦福大學(xué)教授、論文作者李飛飛說(shuō)：“這項(xiàng)研究不僅提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí)（DERL），而且首次通過(guò)形態(tài)學(xué)證明了達(dá)爾文-鮑德溫效應(yīng)。學(xué)習(xí)。形態(tài)學(xué)學(xué)習(xí)在本質(zhì)上是有用的。動(dòng)物的進(jìn)化至關(guān)重要，現(xiàn)在已經(jīng)在我們創(chuàng)建的 AI 代理中得到了證明?！?/p>

本研究中創(chuàng)建的實(shí)體代理可以在平坦地面 (FT)、可變地形 (VT) 和可變地形的非抓取操作 (MVT) 中執(zhí)行巡邏、點(diǎn)導(dǎo)航和避讓。障礙、探索、逃生、傾斜、推箱傾斜和操縱球任務(wù)。

DERL：用于創(chuàng)建具身代理的計(jì)算框架，通用動(dòng)物表單設(shè)計(jì)空間

為了學(xué)習(xí)，每個(gè)智能體僅通過(guò)接收低層次的自我感知和外部感知觀察來(lái)感知世界，并通過(guò)由深度神經(jīng)網(wǎng)絡(luò)的參數(shù)確定的隨機(jī)策略來(lái)選擇其動(dòng)作。

隨機(jī)策略是通過(guò)近端深度神經(jīng)網(wǎng)絡(luò)的參數(shù)策略優(yōu)化（PPO）來(lái)學(xué)習(xí)的。

一般來(lái)說(shuō)，DERL 允許研究人員在 1152 個(gè) CPU 上進(jìn)行大規(guī)模實(shí)驗(yàn)，平均涉及 10 代進(jìn)化，搜索和訓(xùn)練 4000 種形式，每個(gè)形式有 500 萬(wàn)次代理與環(huán)境的交互（即學(xué)習(xí)迭代） .

智能檢具_(dá)幼兒園智能晨檢機(jī)_廣州微勝智能牌具

多種形式的進(jìn)化動(dòng)力學(xué)

該研究可以在并行異步比賽中訓(xùn)練288種形式，因此在任何給定時(shí)刻，整個(gè)學(xué)習(xí)和進(jìn)化過(guò)程都可以在16小時(shí)內(nèi)完成。

可以理解，這是迄今為止最大的形態(tài)進(jìn)化和RL同時(shí)模擬。

為了克服以往形態(tài)搜索空間表達(dá)能力的局限性，本研究引入了通用動(dòng)物（UNIMAL）設(shè)計(jì)空間。

本研究中的基因型是一個(gè)運(yùn)動(dòng)樹，對(duì)應(yīng)于由電機(jī)驅(qū)動(dòng)鉸鏈連接的 3D 剛性部件的層次結(jié)構(gòu)。

運(yùn)動(dòng)樹的節(jié)點(diǎn)由兩種類型的組件組成：代表代理頭部（樹的根）的球體和代表四肢的圓柱體。

進(jìn)化通過(guò)三種變異算子進(jìn)行無(wú)性繁殖：

1 通過(guò)增加或減少肢體來(lái)收縮或生長(zhǎng)運(yùn)動(dòng)樹

2 改變現(xiàn)有肢體的物理特征，如長(zhǎng)度和密度

3 修改肢體間關(guān)節(jié)的屬性，包括自由度、旋轉(zhuǎn)角度限制和齒輪比

智能檢具_(dá)廣州微勝智能牌具_(dá)幼兒園智能晨檢機(jī)

最重要的是，該研究只允許保持雙邊對(duì)稱性的成對(duì)突變，這是進(jìn)化過(guò)程中動(dòng)物身體結(jié)構(gòu)最古老的特征（起源于 6 億年前）。

一個(gè)關(guān)鍵的物理結(jié)果是每個(gè)代理的質(zhì)心位于矢狀面，從而降低了學(xué)習(xí)左右平衡所需的控制程度。

盡管有這個(gè)限制智能檢具，但這項(xiàng)研究提出的形態(tài)設(shè)計(jì)空間非常具有表現(xiàn)力，包括大約 1018 種獨(dú)特形式的智能體，至少有 10 條肢體。

研究團(tuán)隊(duì)表明，DERL 的使用證明了環(huán)境復(fù)雜性、形式智能和控制可學(xué)習(xí)性之間的關(guān)系：

首先，環(huán)境復(fù)雜性促進(jìn)了形態(tài)智能的進(jìn)化，這可以通過(guò)形態(tài)促進(jìn)新任務(wù)學(xué)習(xí)的能力來(lái)量化。

其次，進(jìn)化迅速選擇學(xué)習(xí)速度更快的形式，以便在早期祖先生活中后期學(xué)習(xí)的行為在其后代生活中更早地表現(xiàn)出來(lái)。

第三，實(shí)驗(yàn)表明，通過(guò)進(jìn)化更穩(wěn)定、更節(jié)能的形式來(lái)促進(jìn)學(xué)習(xí)和控制，鮑德溫效應(yīng)和形式智能的出現(xiàn)有機(jī)制基礎(chǔ)。

紙：

本文網(wǎng)址：www.ks-wbt.vip/wenti/4726.html

上一篇：二元江北影像測(cè)量?jī)x報(bào)價(jià)**
下一篇：檢具標(biāo)準(zhǔn)-汽車檢具快速原型工裝夾具自動(dòng)化設(shè)備上海久前實(shí)業(yè)有限公司

人妻无码免费视频一区二区,久久亚洲a片com人成人,日韩不卡1卡2卡三卡2021免费网站 ,日韩视频免费高清在线视频

- 產(chǎn)品分類 -

熱門產(chǎn)品

新聞中心

李飛飛提出深度進(jìn)化強(qiáng)化學(xué)習(xí)新框架：創(chuàng)建具身代理學(xué)習(xí)動(dòng)物進(jìn)化規(guī)律

發(fā)布日期： 2021-10-28 點(diǎn)擊： 555

本文網(wǎng)址：www.ks-wbt.vip/wenti/4726.html

相關(guān)產(chǎn)品：

半自動(dòng)-天窗導(dǎo)軌-曲率檢具

鈑金件-綜合檢具

鈑金件-綜合檢具（不同類型）

鈑金件-綜合檢具（不同類型）

鈑金件-綜合檢具（不同類型）

相關(guān)新聞：