Nová AI DeepMind dokáže vykonávať viac ako 600 úloh, od hrania hier až po ovládanie robotov – TechCrunch

Konečným úspechom pre niektorých v priemysle AI je vytvorenie systému s umelou všeobecnou inteligenciou (AGI) alebo schopnosťou pochopiť a naučiť sa akúkoľvek úlohu, ktorú človek dokáže. Dlho odsunuté do oblasti sci-fi sa predpokladalo, že AGI prinesie systémy so schopnosťou uvažovať, plánovať, učiť sa, reprezentovať vedomosti a komunikovať v prirodzenom jazyku.

Nie každý odborník je presvedčený, že AGI je reálny cieľ – či dokonca možný. Dalo by sa však tvrdiť, že DeepMind, výskumné laboratórium podporované Alphabet, urobilo tento týždeň krok smerom k vydaniu systému AI s názvom Cat.

Gato je to, čo DeepMind opisuje ako „univerzálny“ systém, systém, ktorý sa dá naučiť vykonávať mnoho rôznych typov úloh. Výskumníci z DeepMind vycvičili Gata, aby dokončil 604, aby som bol presný, vrátane popisovania obrázkov, zapojenia sa do dialógu, skladania blokov pomocou skutočného robotického ramena a hrania hier Atari.

Jack Hessel, výskumník z Allenovho inštitútu pre AI, poukazuje na to, že jediný systém AI, ktorý dokáže vyriešiť mnoho úloh, nie je novinkou. Napríklad Google nedávno začal vo Vyhľadávaní Google používať systém s názvom multitask unified model, príp MUM, ktorá dokáže spracovať text, obrázky a videá na vykonávanie úloh, od nájdenia medzijazykových variácií v pravopise slova až po spojenie vyhľadávacieho dopytu s obrázkom. Ale čo je potenciálne novšia je tu, hovorí Hessel, rozmanitosť úloh, ktoré sa riešia, a metódy školenia.

Architektúra Gato od DeepMind. Poďakovanie za obrázok: DeepMind

„Už sme videli dôkazy, že jednotlivé modely dokážu zvládnuť prekvapivo rôznorodé súbory vstupov,“ povedal Hessel pre TechCrunch prostredníctvom e-mailu. „Podľa môjho názoru je kľúčovou otázkou, pokiaľ ide o multitaskingové učenie, či sa úlohy navzájom dopĺňajú alebo nie. Môžete si predstaviť nudnejší prípad, ak model implicitne oddeľuje úlohy pred ich riešením, napr.: „Ak zistím úlohu A ako vstup, použijem podsieť A. Ak namiesto toho zistím úlohu B, použijem inú podsieť B. ‘ Pre túto nulovú hypotézu by sa podobný výkon mohol dosiahnuť samostatným tréningom A a B, čo je ohromujúce. Na rozdiel od toho, ak tréning A a B spoločne vedie k zlepšeniu jedného (alebo oboch!), potom sú veci vzrušujúcejšie.

Ako všetky systémy umelej inteligencie, aj Gato sa učil príkladom, trávil miliardy slov, obrázky zo skutočného a simulovaného prostredia, stláčanie tlačidiel, krútiaci moment kĺbov a ďalšie vo forme žetónov. Tieto tokeny slúžili na reprezentáciu údajov spôsobom, ktorému Gato porozumel, čo umožnilo systému napríklad odhaliť mechaniku Breakout alebo to, ktorá kombinácia slov vo vete môže dávať gramatický zmysel.

Gato tieto úlohy nevyhnutne nerobí dobre. Napríklad pri chatovaní s osobou systém často odpovedá povrchnou alebo vecne nesprávnou odpoveďou (napr. „Marseille“ ako odpoveď na otázku „Aké je hlavné mesto Francúzska?“). V titulkoch k obrázkom Gato mýli ľudí. A systém správne ukladá bloky pomocou robota v reálnom svete iba v 60 % prípadov.

Ale pri 450 zo 604 vyššie uvedených úloh DeepMind tvrdí, že Gato má lepší výkon ako odborník viac ako polovicu času.

„Ak si myslíš, že potrebujeme generála [systems]čo je veľa ľudí v oblasti AI a strojového učenia [Gato is] veľká vec, “Matthew Guzdial, odborný asistent výpočtovej techniky na University of Alberta, povedal TechCrunch e-mailom. „Myslím si, že ľudia, ktorí hovoria, že ide o významný krok smerom k AGI, to trochu preháňajú, pretože stále nie sme na úrovni ľudskej inteligencie a pravdepodobne sa tam čoskoro nedostaneme (podľa môjho názoru). Ja osobne som skôr v tábore mnohých malých modelov [and systems] sú užitočnejšie, ale tieto všeobecné modely majú určite výhody, pokiaľ ide o ich výkon pri úlohách mimo ich tréningových údajov.

Je zvláštne, že z architektonického hľadiska sa Gato dramaticky nelíši od mnohých systémov AI, ktoré sa dnes vyrábajú. Zdieľa charakteristiky spoločné s GPT-3 OpenAI v tom zmysle, že ide o „transformátor“. Od roku 2017 sa Transformer stal preferovanou architektúrou pre komplexné logické úlohy, demonštruje schopnosť sumarizovať dokumenty, generovať hudbu, klasifikovať objekty na obrázkoch a analyzovať proteínové sekvencie.

DeepMind Gato

Rôzne úlohy, ktoré sa Gato naučil plniť. Poďakovanie za obrázok: DeepMind

Možno ešte pozoruhodnejšie je, že Gato je rádovo menší ako jednoúlohové systémy, vrátane GPT-3, pokiaľ ide o počet parametrov. Parametre sú časti systému získané z tréningových údajov a v podstate definujú zručnosť systému pri riešení problémov, ako je napríklad generovanie textu. Gato má len 1,2 miliardy, zatiaľ čo GPT-3 má viac ako 170 miliárd.

Výskumníci z DeepMind držali Gato zámerne malé, aby systém mohol ovládať rameno robota v reálnom čase. Predpokladajú však, že ak by sa Gato zväčšil, mohol by zvládnuť akúkoľvek „úlohu, správanie a stelesnenie záujmu“.

Za predpokladu, že je to tak, bolo by potrebné prekonať niekoľko ďalších prekážok, aby sa Gato stal lepším v špecifických úlohách oproti špičkovým jednoúlohovým systémom, ako je Gatova neschopnosť neustále sa učiť. Ako väčšina systémov založených na Transformeroch, Gatove znalosti sveta sú založené na tréningových údajoch a zostávajú statické. Ak položíte Gatovi otázku citlivú na dátum, ako napríklad súčasný prezident USA, je pravdepodobné, že bude zodpovedaná nesprávne.

Transformer – a v rozšírení Gato – má ďalšie obmedzenie v kontextovom okne, alebo v množstve informácií, ktoré si systém dokáže „zapamätať“ v kontexte danej úlohy. Ani tie najlepšie jazykové modely založené na Transformeroch nedokážu napísať zdĺhavú esej, tým menej knihu, bez toho, aby si nezapamätali kľúčové detaily, a tak stratili prehľad o zápletke. K zabúdaniu dochádza pri akejkoľvek úlohe, či už ide o písanie alebo ovládanie robota, čo je dôvod, prečo niektorí odborníci áno volal je to „Achilova päta“ strojového učenia.

Z týchto a iných dôvodov Mike Cook, člen výskumného kolektívu Knives & Paintbrushs, varuje pred domnienkou, že Gato je cestou k skutočne univerzálnej AI.

„Myslím si, že výsledok je do istej miery otvorený nesprávnej interpretácii. Znie to vzrušujúco, že AI je schopná vykonávať všetky tieto úlohy, ktoré znejú veľmi odlišne, pretože nám to znie, ako keby písanie textu bolo veľmi odlišné od ovládania robota. Ale v skutočnosti sa to príliš nelíši od toho, ako GPT-3 chápe rozdiel medzi obyčajným anglickým textom a kódom Python, “povedal Cook pre TechCrunch e-mailom. „Gato dostáva špecifické tréningové údaje o týchto úlohách, rovnako ako každá iná AI svojho typu, a učí sa, ako vzory v údajoch súvisia s inou, vrátane učenia sa spájať určité druhy vstupov s určitými druhmi výstupov. Neznamená to, že je to jednoduché, ale pre vonkajšieho pozorovateľa tento mocný zvuk pripomína, že AI môže tiež uvariť šálku čaju alebo sa ľahko naučiť ďalších desať alebo päťdesiat iných úloh, a to nedokáže. Vieme, že súčasné prístupy k modelovaniu vo veľkom meradle mu umožňujú naučiť sa viacero úloh naraz. Myslím si, že je to pekná práca, ale nepripadá mi to ako zásadný odrazový mostík na ceste k čomukoľvek.“

Leave a Comment