「像動物一樣適應的機器人(This Robot Adapts Like Animals )」論文提出一種智能試錯法算法,算法允許機器人快速適應破壞,完全不需要自我診斷或是提前準備應急措施。
對于人類而言,有很多危險的工作,例如撲滅森林火災,尋找地震廢墟下的幸存者,或者是關閉福島核電站等等。如果這些高危工作能讓 AI 來完成,那該有多好!
本期介紹的論文中出現了兩個機器人:一個六組機器人和一個機械手臂,以此來展示動作方面的智能試錯算法。這是是一種快速有效的損壞恢復算法,可以使機器人更加高效和可靠地運行。
與傳統強化學習(RL)方法相比,本期介紹的論文更加有效率,機器人上只需要花上幾分鐘和幾次物理試驗,而 RL 算法通常必須進行數百次測試才能學會如何完成任務。論文介紹了機器人有一個「模擬童年」(simulated childhood),在這里它學習了移動身體的不同方式,在經過幾次測試和大約兩分鐘后就可以適應。
本期論文跟之前的研究有兩個主要區別:
(1)機器人不需要知道損傷是什么,它只需要一種方法來衡量其性能;
(2)我們沒有一個大型資料庫來指導,遭受各種類型的損害之后應該怎么做。相反,我們的機器人可以像動物那樣,自行學會應對各種損害的場景。
在這項研究中,機器人使用自己的模擬,找到成千上萬種不同的行走方式。一旦損壞,機器人會進行體驗并更新其關于每種可能行為的性能的知識(該更新將通過機器學習算法完成:高斯過程回歸)。之前所習得的 13,000 種行為統統變得不管用了,因此,機器人必須利用之前的知識進行下一步操作的可行性測試:在大多數情況下,它會測試少于 10 種行為,以找到一個盡管受到損害仍能正常工作的行為。