- +1
可定制算法和環(huán)境,這個(gè)開源強(qiáng)化學(xué)習(xí)框架火了
機(jī)器之心報(bào)道
機(jī)器之心編輯部
強(qiáng)化學(xué)習(xí)框架怎么選?不如自己定制一個(gè)。
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是近年來最受關(guān)注的人工智能研究方向之一,在機(jī)器人、游戲等領(lǐng)域應(yīng)用甚廣?,F(xiàn)有的強(qiáng)化學(xué)習(xí)框架往往無法支持高效、定制化的訓(xùn)練場景的問題。
近日,GitHub 上一個(gè)名為 JORLDY 的開源、可定制強(qiáng)化學(xué)習(xí)(RL)框架引發(fā)關(guān)注。

項(xiàng)目地址:https://github.com/kakaoenterprise/JORLDY
JORLDY 的主要優(yōu)點(diǎn)是提供多種分布式強(qiáng)化學(xué)習(xí)算法,并且易于定制。由于 JORLDY 目前還是 beta 版本,與現(xiàn)有框架相比存在一些不足。
開發(fā)團(tuán)隊(duì)表示未來將繼續(xù)提高 JORLDY 的可用性。此外,他們還計(jì)劃添加新的強(qiáng)化學(xué)習(xí)環(huán)境和算法,例如基于模型的強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)和元強(qiáng)化學(xué)習(xí)。
該開源 RL 框架具有以下特性:
提供 20 + 種強(qiáng)化學(xué)習(xí)算法和多種強(qiáng)化學(xué)習(xí)環(huán)境;
算法和環(huán)境可定制;
可以添加新的算法和環(huán)境;
使用 ray 提供分布式 RL 算法;
算法的基準(zhǔn)測試是在許多 RL 環(huán)境中進(jìn)行的。
分布式架構(gòu)
為了實(shí)現(xiàn)分布式強(qiáng)化學(xué)習(xí),該項(xiàng)目使用 ray(允許參與者并行交互)和多進(jìn)程,支持單個(gè)參與者(actor)訓(xùn)練、同步分布式訓(xùn)練和異步分布式訓(xùn)練。
單個(gè)參與者訓(xùn)練
單個(gè)參與者訓(xùn)練腳本中包含主進(jìn)程和管理進(jìn)程。在主進(jìn)程中,單個(gè)智能體與環(huán)境交互以收集轉(zhuǎn)移(transition)數(shù)據(jù),并借助這些數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。在管理進(jìn)程中,使用最新的網(wǎng)絡(luò)進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù),并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示:

同步分布式訓(xùn)練
同步分布式訓(xùn)練腳本和單個(gè)參與者訓(xùn)練腳本類似,也是包含主進(jìn)程和管理進(jìn)程。在主進(jìn)程中,多個(gè)參與者同時(shí)并行交互以收集轉(zhuǎn)移數(shù)據(jù),并借助這些數(shù)據(jù)訓(xùn)練模型。在管理進(jìn)程中,用最新的模型進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù),并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示:

異步分布式訓(xùn)練
異步分布式訓(xùn)練腳本中包含交互進(jìn)程、主進(jìn)程和管理進(jìn)程。在交互進(jìn)程中,多個(gè)參與者并行交互以收集轉(zhuǎn)移數(shù)據(jù)。與同步分布式訓(xùn)練腳本不同,每個(gè)參與者都是異步交互的。更具體地說,在異步分布式訓(xùn)練腳本中,參與者交互時(shí),僅為在特定時(shí)間內(nèi)已完成的參與者傳輸數(shù)據(jù)。在主進(jìn)程中借助轉(zhuǎn)移數(shù)據(jù)訓(xùn)練模型。在管理進(jìn)程中使用最新的模型進(jìn)行評(píng)估得到一個(gè)分?jǐn)?shù),并在主進(jìn)程中記錄這個(gè)分?jǐn)?shù)和訓(xùn)練結(jié)果。訓(xùn)練流程如下圖所示。

安裝與使用

安裝代碼如下:
git clone https://github.com/kakaoenterprise/JORLDY.git cd JORLDYpip install -r requirements.txt
# linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0 # for opencvapt-get -y install gifsicle # for gif optimize
使用以下代碼開始使用 JORLDY:
cd jorldy
# Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault
# Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8
感興趣的小伙伴快去試試吧!
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/
? THE END
原標(biāo)題:《可定制算法和環(huán)境,這個(gè)開源強(qiáng)化學(xué)習(xí)框架火了》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




