可定制算法和環(huán)境，這個(gè)開源強(qiáng)化學(xué)習(xí)框架火了

2021-11-20 18:38

來源：澎湃新聞·澎湃號(hào)·湃客

機(jī)器之心報(bào)道

機(jī)器之心編輯部

強(qiáng)化學(xué)習(xí)框架怎么選？不如自己定制一個(gè)。

強(qiáng)化學(xué)習(xí)（reinforcement learning，RL）是近年來最受關(guān)注的人工智能研究方向之一，在機(jī)器人、游戲等領(lǐng)域應(yīng)用甚廣?，F(xiàn)有的強(qiáng)化學(xué)習(xí)框架往往無法支持高效、定制化的訓(xùn)練場景的問題。

近日，GitHub 上一個(gè)名為 JORLDY 的開源、可定制強(qiáng)化學(xué)習(xí)（RL）框架引發(fā)關(guān)注。

項(xiàng)目地址：https://github.com/kakaoenterprise/JORLDY

JORLDY 的主要優(yōu)點(diǎn)是提供多種分布式強(qiáng)化學(xué)習(xí)算法，并且易于定制。由于 JORLDY 目前還是 beta 版本，與現(xiàn)有框架相比存在一些不足。

開發(fā)團(tuán)隊(duì)表示未來將繼續(xù)提高 JORLDY 的可用性。此外，他們還計(jì)劃添加新的強(qiáng)化學(xué)習(xí)環(huán)境和算法，例如基于模型的強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)和元強(qiáng)化學(xué)習(xí)。

該開源 RL 框架具有以下特性：

提供 20 + 種強(qiáng)化學(xué)習(xí)算法和多種強(qiáng)化學(xué)習(xí)環(huán)境；

算法和環(huán)境可定制；

可以添加新的算法和環(huán)境；

使用 ray 提供分布式 RL 算法；

算法的基準(zhǔn)測試是在許多 RL 環(huán)境中進(jìn)行的。

分布式架構(gòu)

為了實(shí)現(xiàn)分布式強(qiáng)化學(xué)習(xí)，該項(xiàng)目使用 ray（允許參與者并行交互）和多進(jìn)程，支持單個(gè)參與者（actor）訓(xùn)練、同步分布式訓(xùn)練和異步分布式訓(xùn)練。

單個(gè)參與者訓(xùn)練

單個(gè)參與者訓(xùn)練腳本中包含主進(jìn)程和管理進(jìn)程。在主進(jìn)程中，單個(gè)智能體與環(huán)境交互以收集轉(zhuǎn)移（transition）數(shù)據(jù)，并借助這些數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。在管理進(jìn)程中，使用最新的網(wǎng)絡(luò)進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù)，并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示：

同步分布式訓(xùn)練

同步分布式訓(xùn)練腳本和單個(gè)參與者訓(xùn)練腳本類似，也是包含主進(jìn)程和管理進(jìn)程。在主進(jìn)程中，多個(gè)參與者同時(shí)并行交互以收集轉(zhuǎn)移數(shù)據(jù)，并借助這些數(shù)據(jù)訓(xùn)練模型。在管理進(jìn)程中，用最新的模型進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù)，并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示：

異步分布式訓(xùn)練

異步分布式訓(xùn)練腳本中包含交互進(jìn)程、主進(jìn)程和管理進(jìn)程。在交互進(jìn)程中，多個(gè)參與者并行交互以收集轉(zhuǎn)移數(shù)據(jù)。與同步分布式訓(xùn)練腳本不同，每個(gè)參與者都是異步交互的。更具體地說，在異步分布式訓(xùn)練腳本中，參與者交互時(shí)，僅為在特定時(shí)間內(nèi)已完成的參與者傳輸數(shù)據(jù)。在主進(jìn)程中借助轉(zhuǎn)移數(shù)據(jù)訓(xùn)練模型。在管理進(jìn)程中使用最新的模型進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù)，并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示。

安裝與使用

安裝代碼如下：

git clone https://github.com/kakaoenterprise/JORLDY.git cd JORLDYpip install -r requirements.txt

# linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0 # for opencvapt-get -y install gifsicle # for gif optimize

使用以下代碼開始使用 JORLDY：

cd jorldy

# Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault

# Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8

感興趣的小伙伴快去試試吧！

參考鏈接：

https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/

? THE END

原標(biāo)題：《可定制算法和環(huán)境，這個(gè)開源強(qiáng)化學(xué)習(xí)框架火了》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#強(qiáng)化學(xué)習(xí)