Dziļa “stiprināšanas mācīšanās” ir mācīšanas roboti, kas ir ātrākas nekā jebkad

$config[ads_kvadrat] not found

МЕКАРД - НОВЫЕ РОБОТЫ ТРАНСФОРМЕРЫ //ROBOTS TRANSFORMERS MECARD // Ki Fill boys

МЕКАРД - НОВЫЕ РОБОТЫ ТРАНСФОРМЕРЫ //ROBOTS TRANSFORMERS MECARD // Ki Fill boys
Anonim

Roboti mācās, kā pabeigt uzdevumus paātrinātajās virtuālajās pasaulēs, attīstot prasmes stundās, kas citādi varētu ilgt mēnešus. Simulēta dziļa pastiprinājuma mācīšanās (vai Deep RL) ir prasme, kas parasti A.I. mācīties reālajā pasaulē aizņem tikai dienu hiperpasāktajā klasē.

"Tas ir potenciāls, lai patiešām revolucionizētu to, ko mēs varam darīt robotikas jomā," ceturtdien Londonā Re-Work Deep Learning sammitā teica Raia Hadsell, Google DeepMind pētniece. „Mēs varam mācīties cilvēka līmeņa prasmes.”

Tas var likties pretēji intuitīvi, jo, protams, viss robotu punkts ir programmētāji, kas var iemācīt viņiem darīt lietas, vai ne? Izstrādājot mašīnu, kas darbojas reālajā pasaulē, robotiem ir nepieciešams daudz datu, lai saprastu, kā veikt uzdevumu nepazīstamā situācijā. A.I. var izmantot šos datus, lai “apgūtu” prasmes, pamatojoties uz visiem iepriekšējiem gadījumiem.

Dziļa pastiprinājuma mācīšanās apkopo šos datus līdzīgi kā cilvēki mācās: robots atkārtoti veiks uzdevumu, piemēram, noķerot bumbu, un ierakstīs datus, lai izveidotu priekšstatu par to, kā vislabāk noķert bumbu jaunā situācijā. Kad DeepMind 2013. gadā izmantoja modeli, lai mācītu robotu, kā apgūt Atari spēles, vienkārši, sēžot to pie ekrāna un pasakot gala mērķi, zinātniskā kopiena to mīlēja.

Problēma ir tā, ka tas notiek uz visiem laikiem. Jums ir nepieciešams vairākkārt iemest bumbiņas robotā vai Atari gadījumā, atstājiet robotu tikai savā guļamistabā uz brīdi. Darbojoties ar MuJoCo simulāciju, apvienojumā ar progresējošu neironu tīklu, treneri var palaist programmu, kas atdarina robotu, nodod apgūtās uzvedības robotam un kartē virtuālās kustības reālajā pasaulē.

"Mēs varam darbināt šos simulatorus visu dienu un visu nakti," teica Hadels.

Rezultāti runā paši par sevi. Šis robots, kurš ieguvis savu diplomu ķeršanā, tagad var sekot virtuālām bumbām, it kā tās būtu reālas, to uzspiežot uz lielo dienu, kad tiek prasīts noķert īstu bumbu:

$config[ads_kvadrat] not found