1.監(jiān)督學(xué)習(xí)
現(xiàn)代強化學(xué)習(xí)幾乎完全集中在深度強化學(xué)習(xí)上。深度強化學(xué)習(xí)中的“深”一詞意味著在算法的核心方面使用神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中進(jìn)行一些高維近似。話雖如此,該模型并不需要具有許多層和特征,這是一個普遍的誤解,深層暗示了許多層。
幾乎所有的課程和教程都假定你可以微調(diào)簡單的神經(jīng)網(wǎng)絡(luò)以近似狀態(tài)值或創(chuàng)建最終策略。從歷史上看,這些模型對以下所有訓(xùn)練參數(shù)高度敏感:學(xué)習(xí)率,批量大小,模型參數(shù),數(shù)據(jù)規(guī)范化等等。RL學(xué)習(xí)中有許多問題,最好的方法是學(xué)習(xí)監(jiān)督學(xué)習(xí),然后讓AutoML工具為你完成工作。
從學(xué)習(xí)一些代碼開始,理解代碼所有內(nèi)容,然后重新構(gòu)建。這樣做幾次,你會學(xué)的很好。監(jiān)督學(xué)習(xí)也是一項技能,在接下來的十年中,它將轉(zhuǎn)化為計算機科學(xué)的大多數(shù)領(lǐng)域,因此請緊跟其后。
2.人工智能中的搜索方法
RL是策略空間中的一個搜索問題。近年來影響最大的論文都是從古老的搜索問題中得到了嚴(yán)重的啟發(fā)。讓我們來看看最近在RL最有影響力的三篇論文:
- 迄今為止最主流的強化學(xué)習(xí)結(jié)果是:Deepmind掌握了許多游戲,并進(jìn)行了大規(guī)模強化學(xué)習(xí)。最近是利用規(guī)劃網(wǎng)絡(luò)來探索的未來行動(https://deepmind.com/research/publications/investigation-model-free-planning)
- 基于模型的RL的研究現(xiàn)狀:基于模型的策略優(yōu)化(MBPO)。MBPO正在狀態(tài)作用空間的附近區(qū)域進(jìn)行搜索,以獲得更完整的知識。這種模擬的知識就像是一種簡單的探索。(https://arxiv.org/abs/1906.08253)
- 無模型的RL研究現(xiàn)狀:Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相結(jié)合而聞名。它通過最大化策略上的熵項來實現(xiàn)這一點。作為一個搜索問題,直接策略搜索是RL最關(guān)鍵的方面。
你可以在加州大學(xué)伯克利分校和麻省理工學(xué)院的人工智能課程學(xué)習(xí),試試做一兩個項目挑戰(zhàn)自己。
https://inst.eecs.berkeley.edu/~cs188/
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-034-artificial-intelligence-fall-2010/
3.理解學(xué)術(shù)論文
注意,我并沒有說閱讀學(xué)術(shù)論文,關(guān)鍵是要能夠理解它們。
學(xué)術(shù)領(lǐng)域變化迅速,每天都有論文在活躍的Twitter社區(qū)中公布(說真的,關(guān)注幾位著名的研究人員——這對你跟上進(jìn)度很有幫助)。你需要學(xué)習(xí)的是把有影響力的論文與噪音區(qū)分開,把進(jìn)步與炒作區(qū)分開。
它不是關(guān)于引用量,盡管我承認(rèn)引用是一個很好的區(qū)別途徑。你應(yīng)該關(guān)注的是實驗:它們是遵循提出問題、實驗、提出解決方案的軌跡,還是只是對另一個方法的漸進(jìn)改進(jìn)?最好的論文尋找的是真理,而不是數(shù)字。
最好的研究是尋找最重要的問題,而不管學(xué)術(shù)討論的浪潮。學(xué)會辨別這些信號,你就能跟上這個領(lǐng)域的步伐,成為未來十年有價值的人才。
結(jié)尾
我寫了很多關(guān)于強化學(xué)習(xí)的基本技能的教程,之后會發(fā)布出來。
- 什么是馬爾科夫決策過程?
- 強化學(xué)習(xí)的線性代數(shù)。
- 強化學(xué)習(xí)的基本迭代方法。






