Algoritms, kas apguva 'Pong' Now Excellent '' 'Flappy Bird', Still Single

$config[ads_kvadrat] not found

Aktualitātes mācību saturā: Datorika

Aktualitātes mācību saturā: Datorika
Anonim

Par dziļās mācīšanās metodes uzlabošanu, kas tika īstenota Pong, Kosmosa iebrucēji un citas Atari spēles, Stanfordas universitātes datorzinātņu students Kevins Čens ir izveidojis algoritmu, kas ir diezgan labs klasiskajā 2014. gada sānu ritinātājā Flappy Bird. Chen ir izmantojis jēdzienu, kas pazīstams kā “q-learning”, kurā aģents cenšas uzlabot savu atalgojuma punktu ar katru atskaņošanas iterāciju, lai pilnveidotu gandrīz neiespējamu un neiespējamu atkarību.

Chen izveidoja sistēmu, kurā viņa algoritms tika optimizēts, lai meklētu trīs atlīdzības: nelielu pozitīvu atlīdzību par katru rāmi, kas palika dzīvs, lielu atlīdzību par cauri cauruļvadam un tikpat lielu (bet negatīvu) atlīdzību par miršanu. Tādējādi motivēts, tā sauktais dziļais tīkls var pārspēt cilvēkus, saskaņā ar ziņojumu, ko autors Chen: „Mēs spējām veiksmīgi spēlēt spēli Flappy Bird mācoties tieši no pikseļiem un rezultātu, sasniedzot super-cilvēka rezultātus. ”

Sākotnējais Atari papīrs, kas publicēts 2015. T Daba, nāca no Google īpašumā esošās DeepMind kompānijas (kas tagad ir slavena ar senās ķīniešu galda spēles Go) meistarību. DeepMind sasniegums bija izrāviens, jo tā ieguva vismaz vizuālo vai pikseļu informāciju, un ar minimālu ieguldījumu varēja palielināt atalgojumu. Šāda atlīdzības sistēma ir pielīdzināta smadzeņu dopamīnerģiskajai reakcijai, tikai vienkāršota.

Tā nav pirmā reize, kad algoritms ir iekarojis strauju putnu: Agrākā Stanfordas universitātes datorzinātņu studentu grupa izveidoja programmu, kas, mācoties pa nakti, ir uzlabojusies no 0 caurulēm, kas nokļuvušas līdz 1600.

$config[ads_kvadrat] not found