国产69精品久久久久999_一级毛片在线播放免费观看_一级毛片特级毛片免费的_日本一本在线视频网站

您的位置:首頁>關注 >
  • 南棲仙策提出新型環境特征編碼器學習算法,有效提升環境識別的泛化能力

    2024-01-29 16:04:37 來源: 實況網

基于上下文的離線元強化學(Context-based OMRL)通過構建一個上下文編碼器,將收集到的上下文數據映射到任務表征,進一步基于任務表征來自適應的在多個環境中進行決策。然而,在離線的情形下,任務表征的編碼器極大的依賴于用于訓練的離線數據的豐富程度。當數據采集有限,以至于與特定采樣策略的特點耦合時,學的任務編碼器通常會難以獲得較好的泛化能力,進而影響元強化學能。

基于此,南京大學&南棲仙策團隊合作提出了一種基于模型對抗樣本增強的環境特征編碼器學,task Representation learning via adversarial Data Augmentation (ReDA)算法,并發表在AAMAS24會議上。這一方法可以應用于元強化學的環境特征識別上,緩解了以往算法中環境特征和采樣策略耦合的影響,從而使得我們在樣本受限的實際場景中可以提升環境特征編碼器的泛化能力,進而提高元學策略的表現,推進強化學在現實世界的應用落地。

離線元強化學環境特征耦合問題

離線元強化學(Offline Meta Reinforcement Learning)是一種重要的機器學技術,其結合了離線和元學兩種方法優勢,可以幫助智能系統從以往的多種環境的離線經驗中學,以提高在新環境下的泛化能力。通過離線數據,系統可以更有效地利用以往的經驗,而無需實時與環境進行交互,從而提高數據利用效率。并且,由于在不同的環境下進行學,而不僅僅是在當前環境下,也極大的提高了策略的泛化能力。

在很多實際應用中,實時與多種環境交互收集數據可能會很昂貴或不切實際,離線元強化學為這些場景提供了解決方案。離線元強化學可以使強化學技術更易于應用和部署,在提高泛化能力、數據效率、穩健以及降低成本等方面具有重要意義,尤其是在實際應用中,如機器人控制與路徑規劃、自動駕駛系統、智能游戲角色、智能物流和倉儲以及工業自動化等方面具有廣泛的用途。

離線元強化學中,主要的方法是基于上下文的離線元強化學。該類方法將策略建模為兩部分:第一部分是環境特征提取器,可以將歷史收集到的上下文數據映射到環境特征上;第二部分是基于環境特征的條件策略,在給定的當前狀態和得到的環境特征的條件下進行決策。第一部分的任務編碼器是非常重要的,提取的環境特征將直接決定了下游的元策略的學質量和泛化能力。

然而,以往的環境特征編碼學需要依賴非常豐富且多樣的數據進行學,這在很多真實的物理場景中是不現實甚至存在一定危險的,比如機器人等。以往的工作中,環境特征提取是基于對比學直接在離線數據集上進行訓練的:

由于對比學直觀上就是減小相同任務的上下文表征的距離,增大不同環境的上下文表征的距離,通常需要收集到非常豐富的離線數據集來獲得一個魯棒且可泛化的環境表征,例如CORRO[1]需要使用整個訓練期間的所有策略檢查點來收集數據,這在真實場景中是不現實的,顯然整個訓練流程中的數據對于現實任務例如機器人控制任務是很難獲取的,甚至獲取過程中存在一定的不安全因素。因為很多時候我們無法獲取如此豐富的樣本來訓練一個好的環境特征編碼器,所以我們需要去關注數據集有限時環境編碼器的學問題。

簡單以倒立桿任務(InvertedPendulum)為例,我們的訓練數據是重力1.0下的高質量數據和重力2.0下的低質量數據,然后使用上下文數據是1.0倍重力下的低質量的數據進行測試(圖1-a),對數據集的分布進行降維可視化展示(圖1-b),發現測試數據到同樣環境下的訓練數據的距離,并沒有相對其他環境的訓練數據的距離更加接(圖1-c),這樣的情況下,僅僅依賴于數據集的對比學,由于缺少足以代表環境任務特征的樣本,將很難保證任務表征的泛化能力。

圖1. (a). 訓練數據和測試數據 (b). 數據分布的可視化 (c). 測試數據到不同任務的訓練數據的相對距離

基于模型的對抗樣本增強

為了讓環境特征編碼器更好地捕捉到環境特征而非采樣策略本身的特征,我們提出了一種基于模型的對抗樣本增強的方法,產生更多的不同于數據集的數據來訓練環境特征編碼器。

首先我們基于每個任務的數據集,分別學各個任務上的轉移模型:

在學好可以用來交互的環境模型后,接下來我們需要面臨的問題是:1.采集什么樣的樣本來有效增強任務編碼器的能力?2.如何緩解環境模型誤差帶來的影響?

對于這兩個問題,我們引入了一個對抗采樣策略,該策略的優化目標主要由三部分組成:

·最小辨識度的樣本:我們需要采集讓任務編碼最難區分的樣本,即該樣本到相同任務的距離和到其他任務的距離差距不大。所以我們考慮這樣的樣本需要具備的特點是,當它被加入上下文之后,會導致基于上下文的對比學的損失函數上升。所以我們使用該損失函數變化的程度來作為優化的獎勵信號,如果對比損失上升越大,說明該樣本的引入使得任務編碼器更加難以識別環境了。定義該樣本加入前的任務表征為z_t,加入該樣本后的任務表征為z_t+1,單步的獎勵定義為:

·模型不確定懲罰:我們并不希望對抗策略去搜索模型中誤差過于大的區域,所以參考MOPO我們基于不確定度量給出對樣本的懲罰。

·任務相關獎勵:我們使用了任務的獎勵函數來避免對抗策略去搜索和任務無關的樣本。

綜上所述,我們最終得到了在模型上搜索對抗樣本的對抗策略的優化目標:

基于該對抗策略搜索到的增強樣本,我們得到了新的環境特征編碼器的優化目標:

該目標是一個標準的強化學的定義,所以可以使用SAC等算法求解。

整體的算法流程如下圖所示,首先基于離線數據集學轉移模型,然后在轉移模型上獲得對抗策略,并產生對抗數據訓練任務編碼器,再基于任務編碼器訓練最終的元策略。

圖2. 算法流程

整體訓練的算法描述如下:

技術驗證

基于倒立桿的環境與數據集,我們對我們的方法進行了簡單的驗證,首先定義相對距離:

該距離描述了相同任務下訓練集和測試集的距離與不同任務下訓練集和測試集的距離的差異,如果該距離越小,說明我們的表征訓練的泛化能力越好,通過和FOCAL[2]等基礎算法進行對比,我們發現ReDA顯著的提升了表征的泛化能力(圖3-b),并且取得了更好的測試能(圖3-a)。這一結果表明,我們學到的環境表征解耦了采樣的策略特征,從而更好的泛化到了更多數據上。

圖3. 倒立桿多種方法下的表征與

整體

我們設計了兩種模式進行測試,第一種是on-policy模式,上下文的樣本來源于當前策略的采樣;另一種是off-policy模式,策略來源于數據集以外的其他樣本。這兩者都是在實際部署時最常需要使用的上下文樣本,并且都存在和訓練集存在一定的偏差。我們參考以往的工作構建了MuJoCo上的多任務數據集,包括HalfCheetah、Hopper、Walker2d、Ant在Gravity、Dof-Damping等模擬器參數變化下的多任務數據集。在訓練過程中我們只使用幾個檢查點的數據,然后使用其他檢查點的數據作為off-policy模式下的測試數據。實驗結果如下:

圖4. on-policy模式下的

其中[任務] [參數類型]-[數字]的格式表示使用的訓練數據集是哪個任務的哪類參數,共使用了幾個檢查點的數據去訓練。

圖5. off-policy模式下的

其中[任務] [參數類型]-[數字]的格式表示使用的訓練數據集是哪個任務的哪類參數,共使用了幾個檢查點的數據去訓練。

可以看到,通過引入基于模型的方法,學一個泛化能力更強的環境特征提取器,極大地提高了元策略的表現,使離線元強化學得以在樣本受限的情況下仍然取得一個不錯的能。

本文關注低數據情境下的離線元強化學(OMRL),強調了環境表示學與數據收集策略分離的重要,并提出了對抗數據增強的實際解決方案;訓練了轉移模型和對抗策略來增強離線數據集,以應對數據集受限的情況。希望這項研究能夠激發對數據采樣策略在元強化學中的影響,以及OMRL測試基準標準化的進一步探索。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

關鍵詞:

免責聲明:本網站所有信息,并不代表本站贊同其觀點和對其真實性負責,投資者據此操作,風險請自擔。

相關閱讀
国产69精品久久久久999_一级毛片在线播放免费观看_一级毛片特级毛片免费的_日本一本在线视频网站

    成人一区二区三区| 亚洲午夜一二三区视频| 五月婷婷欧美视频| 精品sm在线观看| 一区二区免费看| 成人中文字幕在线| 洋洋av久久久久久久一区| 91精品国产欧美一区二区成人| 国产精品另类一区| 久久99久久精品欧美| 国产日韩精品一区二区浪潮av| 亚欧色一区w666天堂| 精品sm捆绑视频| 日韩高清国产一区在线| 久久亚区不卡日本| 欧美亚洲一区二区在线| 国产精品全国免费观看高清 | 韩国欧美国产一区| 亚洲欧洲av在线| 91精品国产综合久久香蕉麻豆| 一区二区三区丝袜| 99热这里都是精品| 午夜av一区二区三区| 国产免费成人在线视频| 国产综合久久久久影院| 亚洲乱码日产精品bd| 精品播放一区二区| 男人的天堂亚洲一区| 国产精品视频线看| 日韩欧美成人午夜| 日韩综合在线视频| 国产精品对白交换视频| 日韩欧美视频在线| 日韩av在线免费观看不卡| 国产精品网曝门| 欧美成人三级电影在线| 欧美a一区二区| 综合久久久久久| 久久久一区二区三区捆绑**| 久久精品99国产国产精| 亚洲免费观看视频| 国产亚洲精品超碰| 国产剧情一区二区| 午夜成人免费电影| 亚洲欧美另类图片小说| 99精品国产91久久久久久| 欧美日韩一区二区电影| 亚洲国产精品久久人人爱| 国产午夜亚洲精品理论片色戒| 欧美肥大bbwbbw高潮| 日本亚洲欧美天堂免费| 中文字幕一区三区| 久久久99精品久久| 成人蜜臀av电影| 欧美性色综合网| 香蕉av福利精品导航| 综合中文字幕亚洲| 中文字幕久久午夜不卡| av在线播放不卡| 538在线一区二区精品国产| 奇米影视一区二区三区| 亚洲一区在线观看免费观看电影高清| 国产精品视频一二三区| 99免费精品在线| 午夜伦欧美伦电影理论片| 精品国产乱码91久久久久久网站| 亚洲精品久久久蜜桃| 成人免费毛片a| 欧美三级在线播放| 日韩av高清在线观看| 亚洲精选视频免费看| 国产精品国产成人国产三级| www久久精品| 精品久久国产97色综合| 国产精品18久久久久久vr| 欧美性xxxxxxxx| 欧美a级理论片| 五月天欧美精品| 亚洲电影一级片| 亚洲蜜臀av乱码久久精品蜜桃| 国产精品嫩草久久久久| 久久久久国产精品人| 久久伊人中文字幕| av网站免费线看精品| 欧美一级理论性理论a| 国产精品一区二区在线观看不卡 | 亚洲自拍偷拍av| 亚洲制服丝袜在线| 亚洲欧美日本韩国| 亚洲卡通欧美制服中文| 亚洲天堂精品在线观看| 亚洲乱码国产乱码精品精小说| 国产精品久久久久久亚洲毛片 | 一级女性全黄久久生活片免费| 亚洲狠狠丁香婷婷综合久久久| 中文字幕一区二区三区av| 亚洲日本丝袜连裤袜办公室| 中文字幕在线不卡| 一个色妞综合视频在线观看| 亚洲精品水蜜桃| 午夜日韩在线电影| 一本高清dvd不卡在线观看| 日韩av电影天堂| 欧美性大战久久久久久久蜜臀 | 精品成人一区二区三区| 91小视频免费观看| 国产三级精品三级| 国产精品亲子伦对白| 亚洲精品自拍动漫在线| 亚洲精品乱码久久久久久黑人 | 国产精品女同互慰在线看| 亚洲欧美一区二区三区久本道91 | 精品午夜久久福利影院| 欧美情侣在线播放| 成人综合日日夜夜| 国产亚洲欧美一区在线观看| 国产视频在线观看一区二区三区| 亚洲色欲色欲www| 一区二区在线免费观看| 日韩国产在线观看| 欧美日韩国产高清一区二区三区| 国产不卡免费视频| 久久精品一二三| 中文字幕在线播放不卡一区| 午夜视频久久久久久| 精品污污网站免费看| www.亚洲在线| 国产精品国产精品国产专区不蜜| 亚洲色图欧美激情| 视频在线观看91| 3d成人h动漫网站入口| 91亚洲国产成人精品一区二区三 | 亚洲欧美自拍偷拍色图| 午夜精品在线看| 欧美猛男男办公室激情| 99精品1区2区| 亚洲美女少妇撒尿| 色88888久久久久久影院按摩 | 麻豆一区二区99久久久久| 欧美一区二区三区精品| 久久久久国产免费免费| 一区二区三区四区不卡在线| 日本高清不卡aⅴ免费网站| 成人午夜激情影院| 亚洲欧美综合网| 午夜成人免费电影| 粉嫩嫩av羞羞动漫久久久| 国产精品乱人伦| 91久久人澡人人添人人爽欧美| 岛国精品在线播放| 亚洲同性gay激情无套| 色婷婷亚洲一区二区三区| 99久久综合色| 亚洲一区二区三区四区中文字幕 | 国产一区二区网址| 国产亚洲欧美色| 亚洲成va人在线观看| av福利精品导航| 国产视频视频一区| 一区二区欧美国产| 粉嫩绯色av一区二区在线观看| 国产精品久久久久久久久免费桃花| 亚洲成人高清在线| av不卡免费电影| 午夜一区二区三区在线观看| 日韩视频一区二区在线观看| 自拍av一区二区三区| 韩国毛片一区二区三区| 中文字幕不卡在线| 91黄色免费版| 国产色一区二区| 奇米综合一区二区三区精品视频| 久久免费美女视频| 色婷婷久久久亚洲一区二区三区| 91丨九色丨蝌蚪富婆spa| 亚洲成人动漫一区| 久久影音资源网| 午夜精品久久一牛影视| 91麻豆文化传媒在线观看| 日本欧美久久久久免费播放网| 久久久www成人免费毛片麻豆| 一本一道久久a久久精品| 久久久激情视频| 麻豆成人久久精品二区三区红| 国产日韩在线不卡| 欧美性欧美巨大黑白大战| 国产清纯白嫩初高生在线观看91 | 国产精品欧美一区喷水| 欧美午夜不卡在线观看免费| 欧美高清一级片在线观看| 黑人巨大精品欧美黑白配亚洲| 亚洲欧美偷拍另类a∨色屁股| 欧美一区二区日韩一区二区| 亚洲激情在线激情| 成人免费视频播放| 日日摸夜夜添夜夜添国产精品| 国产亚洲综合在线| 欧美视频一区二区在线观看| 18成人在线视频| 成人午夜看片网址|