李飛飛提出深度進(jìn)化強(qiáng)化學(xué)習(xí)新框架:創(chuàng)建具身代理學(xué)習(xí)動(dòng)物進(jìn)化規(guī)律
【新智苑導(dǎo)讀】在6億多年的進(jìn)化過(guò)程中,動(dòng)物表現(xiàn)出了非凡的具身智能,利用進(jìn)化來(lái)學(xué)習(xí)復(fù)雜的任務(wù)。研究人員表示,AI 代理可以快速學(xué)習(xí)動(dòng)物的這種智能行為,但在促進(jìn)具身認(rèn)知方面存在許多挑戰(zhàn)。近日,斯坦福大學(xué)李飛飛教授等人在“深度進(jìn)化強(qiáng)化學(xué)習(xí)”研究上取得突破,首次證明了“鮑德溫效應(yīng)”。
Agent是人工智能領(lǐng)域的一個(gè)主要研究課題,可分為非具身智能和具身智能。
具身智能體的創(chuàng)建是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),因此當(dāng)前人工智能領(lǐng)域更加關(guān)注“非具身認(rèn)知”。
最近,李飛飛等幾位學(xué)者提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí)(DERL)?;谶@個(gè)框架,實(shí)體代理可以在多個(gè)復(fù)雜環(huán)境中執(zhí)行多個(gè)任務(wù)。.
此外,這項(xiàng)研究還首次通過(guò)“形態(tài)學(xué)習(xí)”證明了進(jìn)化生物學(xué)中的“鮑德溫效應(yīng)”。
1953年,美國(guó)古生物學(xué)家喬治·蓋洛德·辛普森(George Gaylord Simpson)創(chuàng)造了“鮑德溫效應(yīng)”一詞,它指的是美國(guó)哲學(xué)家和心理學(xué)家JM鮑德溫1896年的論文中的一種新的進(jìn)化因素。
在進(jìn)化生物學(xué)中,鮑德溫效應(yīng)提出,在進(jìn)化過(guò)程的早期幾代人的生活中最初學(xué)會(huì)的行為將逐漸成為本能,甚至可能傳遞給后代。

在過(guò)去的 6 億年里,進(jìn)化帶來(lái)了無(wú)數(shù)形式的美:從古代雙邊對(duì)稱的昆蟲到各種動(dòng)物形態(tài)。
這些動(dòng)物還表現(xiàn)出非凡的具身智能,利用進(jìn)化來(lái)學(xué)習(xí)復(fù)雜的任務(wù)。
具身認(rèn)知研究人員認(rèn)為智能檢具,AI智能體可以快速學(xué)習(xí)這種智能行為,而且它們的形狀也能很好地適應(yīng)環(huán)境。
然而,人工智能領(lǐng)域更注重“非身體認(rèn)知”,例如語(yǔ)言、視覺或游戲。
當(dāng) AI 代理能夠很好地適應(yīng)環(huán)境時(shí),它們就可以學(xué)習(xí)各種復(fù)雜環(huán)境中的控制任務(wù)。但是,由于以下原因,創(chuàng)建這樣的代理非常具有挑戰(zhàn)性。
這需要在大量潛在模式中進(jìn)行搜索。通過(guò)終身學(xué)習(xí)評(píng)估代理的適應(yīng)性需要大量的計(jì)算時(shí)間。
因此,之前的研究要么是讓agent在極其有限的形態(tài)搜索空間中進(jìn)化,要么是在給定的人工設(shè)計(jì)形態(tài)下尋找最優(yōu)參數(shù)。
評(píng)估適應(yīng)性的困難使得先前的研究避免直接根據(jù)原始感官觀察學(xué)習(xí)適應(yīng)性控制器;
學(xué)會(huì)使用少量參數(shù)(≤100) 手動(dòng)設(shè)計(jì)控制器;學(xué)會(huì)預(yù)測(cè)一種適應(yīng)性;

模仿拉馬克的進(jìn)化而不是達(dá)爾文的進(jìn)化,將學(xué)習(xí)的信息直接跨代傳遞。
此外,之前的研究主要局限于在地面上移動(dòng)的簡(jiǎn)單任務(wù)。
代理具有較少的自由度(DoF)或由多個(gè)立方體組成,這進(jìn)一步簡(jiǎn)化了控制器的學(xué)習(xí)問題。
三個(gè)維度:環(huán)境、形式和控制。實(shí)體代理可以執(zhí)行哪些任務(wù)?
斯坦福大學(xué)李飛飛和 Agrim Gupta、Silvio Savarese 和 Surya Ganguli 的研究人員提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí) (DERL),可以在環(huán)境、形式和控制三個(gè)復(fù)雜維度同時(shí)擴(kuò)展創(chuàng)建具身代理的規(guī)模.
DERL 為計(jì)算機(jī)模擬實(shí)驗(yàn)中的大規(guī)模具身代理創(chuàng)建活動(dòng)打開了大門,這有助于獲取有關(guān)學(xué)習(xí)和進(jìn)化如何協(xié)作以在環(huán)境復(fù)雜性、形態(tài)智能和控制可學(xué)習(xí)性之間建立復(fù)雜性的信息。對(duì)關(guān)系的科學(xué)見解。
此外,DERL 還降低了強(qiáng)化學(xué)習(xí)的樣本效率低下。創(chuàng)建代理不僅可以使用更少的數(shù)據(jù),還可以泛化和解決各種新任務(wù)。
DERL通過(guò)模仿達(dá)爾文進(jìn)化論中錯(cuò)綜復(fù)雜的代際進(jìn)化過(guò)程來(lái)搜索形態(tài)空間,通過(guò)終身神經(jīng)學(xué)習(xí)的智能控制,通過(guò)解決復(fù)雜任務(wù)來(lái)評(píng)估給定形態(tài)的速度和質(zhì)量。

斯坦福大學(xué)教授、論文作者李飛飛說(shuō):“這項(xiàng)研究不僅提出了一種新的計(jì)算框架——深度進(jìn)化強(qiáng)化學(xué)習(xí)(DERL),而且首次通過(guò)形態(tài)學(xué)證明了達(dá)爾文-鮑德溫效應(yīng)。學(xué)習(xí)。形態(tài)學(xué)學(xué)習(xí)在本質(zhì)上是有用的。動(dòng)物的進(jìn)化至關(guān)重要,現(xiàn)在已經(jīng)在我們創(chuàng)建的 AI 代理中得到了證明?!?/p>
本研究中創(chuàng)建的實(shí)體代理可以在平坦地面 (FT)、可變地形 (VT) 和可變地形的非抓取操作 (MVT) 中執(zhí)行巡邏、點(diǎn)導(dǎo)航和避讓。障礙、探索、逃生、傾斜、推箱傾斜和操縱球任務(wù)。
DERL:用于創(chuàng)建具身代理的計(jì)算框架,通用動(dòng)物表單設(shè)計(jì)空間
為了學(xué)習(xí),每個(gè)智能體僅通過(guò)接收低層次的自我感知和外部感知觀察來(lái)感知世界,并通過(guò)由深度神經(jīng)網(wǎng)絡(luò)的參數(shù)確定的隨機(jī)策略來(lái)選擇其動(dòng)作。
隨機(jī)策略是通過(guò)近端深度神經(jīng)網(wǎng)絡(luò)的參數(shù)策略優(yōu)化(PPO)來(lái)學(xué)習(xí)的。
一般來(lái)說(shuō),DERL 允許研究人員在 1152 個(gè) CPU 上進(jìn)行大規(guī)模實(shí)驗(yàn),平均涉及 10 代進(jìn)化,搜索和訓(xùn)練 4000 種形式,每個(gè)形式有 500 萬(wàn)次代理與環(huán)境的交互(即學(xué)習(xí)迭代) .

多種形式的進(jìn)化動(dòng)力學(xué)
該研究可以在并行異步比賽中訓(xùn)練288種形式,因此在任何給定時(shí)刻,整個(gè)學(xué)習(xí)和進(jìn)化過(guò)程都可以在16小時(shí)內(nèi)完成。
可以理解,這是迄今為止最大的形態(tài)進(jìn)化和RL同時(shí)模擬。
為了克服以往形態(tài)搜索空間表達(dá)能力的局限性,本研究引入了通用動(dòng)物(UNIMAL)設(shè)計(jì)空間。
本研究中的基因型是一個(gè)運(yùn)動(dòng)樹,對(duì)應(yīng)于由電機(jī)驅(qū)動(dòng)鉸鏈連接的 3D 剛性部件的層次結(jié)構(gòu)。
運(yùn)動(dòng)樹的節(jié)點(diǎn)由兩種類型的組件組成:代表代理頭部(樹的根)的球體和代表四肢的圓柱體。
進(jìn)化通過(guò)三種變異算子進(jìn)行無(wú)性繁殖:
1 通過(guò)增加或減少肢體來(lái)收縮或生長(zhǎng)運(yùn)動(dòng)樹
2 改變現(xiàn)有肢體的物理特征,如長(zhǎng)度和密度
3 修改肢體間關(guān)節(jié)的屬性,包括自由度、旋轉(zhuǎn)角度限制和齒輪比

最重要的是,該研究只允許保持雙邊對(duì)稱性的成對(duì)突變,這是進(jìn)化過(guò)程中動(dòng)物身體結(jié)構(gòu)最古老的特征(起源于 6 億年前)。
一個(gè)關(guān)鍵的物理結(jié)果是每個(gè)代理的質(zhì)心位于矢狀面,從而降低了學(xué)習(xí)左右平衡所需的控制程度。
盡管有這個(gè)限制智能檢具,但這項(xiàng)研究提出的形態(tài)設(shè)計(jì)空間非常具有表現(xiàn)力,包括大約 1018 種獨(dú)特形式的智能體,至少有 10 條肢體。
研究團(tuán)隊(duì)表明,DERL 的使用證明了環(huán)境復(fù)雜性、形式智能和控制可學(xué)習(xí)性之間的關(guān)系:
首先,環(huán)境復(fù)雜性促進(jìn)了形態(tài)智能的進(jìn)化,這可以通過(guò)形態(tài)促進(jìn)新任務(wù)學(xué)習(xí)的能力來(lái)量化。
其次,進(jìn)化迅速選擇學(xué)習(xí)速度更快的形式,以便在早期祖先生活中后期學(xué)習(xí)的行為在其后代生活中更早地表現(xiàn)出來(lái)。
第三,實(shí)驗(yàn)表明,通過(guò)進(jìn)化更穩(wěn)定、更節(jié)能的形式來(lái)促進(jìn)學(xué)習(xí)和控制,鮑德溫效應(yīng)和形式智能的出現(xiàn)有機(jī)制基礎(chǔ)。
紙: