Kā DeepMind izstrādāja gudri pašmācības A.I. Tas var pārspēt cilvēkus

$config[ads_kvadrat] not found

Agent57: Outperforming the Atari Human Benchmark

Agent57: Outperforming the Atari Human Benchmark

Satura rādītājs:

Anonim

Datori jau vairākus gadu desmitus ir spokojuši mūsu trauslus cilvēka ēzeļus šahā. Pirmo reizi tas notika 1996. gadā, kad IBM Deep Blue spēja uzņemt pasaules čempionu Gary Kasperov. Bet jauns Alphabet pētījums A.I. apģērbs DeepMind izgaismo tikai to, cik ierobežots ir tas, ka agrīnā uzvara patiešām bija.

Par vienu, Kasperov atlekšanas tiesības atpakaļ, uzvarot trīs spēles un zīmēšanas divas reizes sešu spēle playoff, par vecu Dienas ziņas ziņojumu.

Bet vēl jo vairāk, kā stāsta DeepMind pētnieks Julian Schrittwieser Apgrieztā lietojumprogrammas, piemēram, Deep Blue, tika programmētas arī manuāli. Tas nozīmē, ka cilvēkiem bija jāmāca A.I. viss, kas vajadzīgs, lai uzzinātu par to, kā rīkoties ar katru iedomājamo ārkārtas situāciju. Citiem vārdiem sakot, tas varētu būt tikai tikpat labs, kā to plāno cilvēki. Un, lai gan Deep Blue acīmredzot spēja sakaut šahā; dod tam citu, līdzīgu spēli, piemēram, Go, un tas būtu bijis neveikls.

Alpha Zero ir pilnīgi atšķirīgs. Jaunajā pētījumā, kas šodien publicēts žurnālā Zinātne autori atklāj, kā viņi varēja ne tikai mācīt Alpha Zero, kā uzvarēt cilvēkus šahā, bet arī to, kā mācīt Alfa Zero, kā mācīt sevi apgūt vairākas spēles.

Kā mācīt A.I. Mācīt sevi

Alpha Zero tika izstrādāta, izmantojot tehniku, ko sauc par dziļu pastiprināšanas mācīšanos. Būtībā tas nozīmē A.I. kaut kas ļoti vienkāršs, piemēram, šahu pamatnoteikumi, un pēc tam atkal un atkal dara to vienkāršu, līdz tas uzzina sarežģītākas, interesantas lietas, piemēram, stratēģijas un metodes.

„Tradicionāli… cilvēki zinās par spēli un mēģinās to kodēt,” saka Schrittwieser, kurš strādā pie Alpha Zero gandrīz četrus gadus. „Mūsu pieeja ir nejaušība, un tad ļaujiet tai spēlēt spēles pret sevi, un no šīm spēlēm tā var uzzināt, kādas stratēģijas darbojas.”

Visi Alpha Zero ir pamatnoteikumi, un no tā mācās, kā uzvarēt, spēlējot sevi. Saskaņā ar jaunajiem konstatējumiem, Alfa Zero spēja apgūt šahu, tikai 12 stundas, lai vadītu Šogi, un aptuveni 13 dienas, lai vadītu Go. Tā kā tā spēlē sevi, tā būtībā ir pašmācība. Tas ir pagājis visu pasaules čempiona cilvēka vadīto algoritmu gaļas izstrādājumos, pārspējot 2017. gada pasaules čempionu Šogi 91% no laika.

„Tā var patstāvīgi atklāt interesantas zināšanas par spēli,” saka Schrittwieser. „Tas noved pie programmām, kas spēlē vairāk cilvēku līdzīgu.”

Lai gan tās stils ir cilvēka līdzīgs un radošs, tas, iespējams, ir arī optimāls, lai gan Alpha Zero ir jāspēj dominēt jebkurā spēlē, kurā ir pieejama visa pieejamā informācija. Faktiski, Alpha Zero ir tik sarežģīta, mums var būt nepieciešams pāriet uz pilnīgi citu klasi, lai saglabātu A.I. atrisina problēmas.

Kāpēc Alpa Zero ir tik laba

A.I. pētnieki mīl izmantot šīs spēles kā izmēģinājuma pamatu arvien sarežģītākiem algoritmu veidiem dažu iemeslu dēļ. Tie ir eleganti, un cilvēki tos spēlē jau simtiem gadu, un tas nozīmē, ka jums ir daudz potenciālo izaicinājumu, lai pārbaudītu jūsu algoritmu. Bet arī tie ir sarežģīti un sarežģīti, kas nozīmē, ka viņi var kalpot kā atspēriena punkts A.I. kas var atrisināt problēmas reālajā pasaulē. Schrittwieser saka, ka nākamā pētniecības joma ir tāds algoritms kā Alpha Zero, kas joprojām var pieņemt optimālus lēmumus ar nepilnīgu informāciju.

„Visās šajās spēlēs jūs zināt visu, kas notiek,” viņš saka. „Reālajā pasaulē jūs varētu zināt tikai daļu informācijas. Jūs varētu zināt savas kartes, bet jūs nezināt savu pretinieku, jums ir daļēja informācija."

Joprojām ir daži galda spēles, kas spēj sniegt tādus algoritmus kā Alpha Zero šāda veida izaicinājums - arī Schrittwieser minēja Strato, kurā spēlētāji slēpj savu kustību no viena no otras - un Starcraft, kas ir vēl viena interesanta joma DeepMind spēļu pētniekiem.

„Mēs vēlamies padarīt problēmas, ar kurām mēs saskaramies arvien sarežģītāk,” viņš saka. "Bet tas vienmēr ir viena dimensija."

Tajā pašā laikā Deep Mind nākamās paaudzes datorizētās problēmu risinātāji jau parāda potenciālu pāriet no spēļu pasaules uz reālo pasauli. Šonedēļ tā paziņoja par citu algoritmu, ko sauc par AlphaFold, kas spēj ekstrapolēt proteīnu secību precīzā tās 3D struktūras prognozēšanā.Tā ir problēma, kas jau vairākus gadu desmitus ir nonākusi zinātnieku vidū un varētu palīdzēt atvērt slimības, sākot no Alcheimera slimības līdz cistiskai fibrozei.

$config[ads_kvadrat] not found