azok az adatok, amelyek átalakították az AI–kutatást-és valószínűleg a világot

2006-ban Fei-Fei Li elkezdett egy ötleten gondolkodni.

Li, az Illinoisi Urbana-Champaign Egyetem újonnan vert számítástechnikai professzora látta, hogy kollégái az egyetemek és az AI-ipar között ugyanazt a koncepciót ütik el: egy jobb algoritmus jobb döntéseket hozna, függetlenül az adatoktól.

de rájött ennek a megközelítésnek a korlátozására—a legjobb algoritmus nem működne jól, ha az adatok, amelyekből tanult, nem tükröznék a valós világot.

megoldása: jobb adatkészlet létrehozása.

“úgy döntöttünk, hogy valamit akarunk tenni, ami történelmileg teljesen példátlan” – mondta Li, utalva egy kis csapatra, aki kezdetben vele fog dolgozni. “Feltérképezzük a tárgyak teljes világát.”

a kapott adatkészletet ImageNet-nek hívták. Eredetileg 2009-ben jelent meg, mint egy kutatási poszter, amely egy Miami Beach-i konferencia központ sarkába ragadt, az adatkészlet gyorsan éves versenyré fejlődött, hogy megnézze, mely algoritmusok képesek azonosítani az adatkészlet képeiben lévő objektumokat a legalacsonyabb hibaaránnyal. Sokan úgy tekintik, mint az AI boom katalizátorát, amelyet a világ ma tapasztal.

az IMAGEnet challenge öregdiákjai megtalálhatók a tech világ minden sarkában. A verseny első nyertesei 2010-ben a Baidu, a Google és a Huawei vezető szerepet töltöttek be. Matthew Zeiler a Clarifai-t a 2013-as ImageNet-győzelme alapján építette fel, és most 40 millió dolláros VC-finanszírozással támogatja. 2014-ben a Google megosztotta a győztes címet két Oxfordi kutatóval, akiket gyorsan felkaptak és felvettek a nemrégiben megszerzett DeepMind laborba.Li jelenleg a Google Cloud vezető tudósa, a Stanford professzora és az egyetem AI laboratóriumának igazgatója.

ma a cvpr színpadára lép, hogy utoljára beszéljen az ImageNet éves eredményeiről—2017 volt a verseny utolsó éve. Mindössze hét év alatt 71,8% – ról 97,3% – ra nőtt az objektumok osztályozásának győztes pontossága, felülmúlva az emberi képességeket, és hatékonyan bizonyítva, hogy a nagyobb adatok jobb döntéseket eredményeznek.

még akkor is, ha a verseny véget ér, öröksége már formálódik. 2009 óta több tucat új AI kutatási adatkészlet került bevezetésre olyan almezőkben, mint a számítógépes látás, a természetes nyelvfeldolgozás és a hangfelismerés.

“az ImageNet gondolkodásának paradigmaváltása az, hogy míg sokan figyelnek a modellekre, figyeljünk az adatokra” – mondta Li. “Az adatok újradefiniálják, hogyan gondolkodunk a modellekről.”

mi az az ImageNet?

Az 1980-as évek végén George Miller Princetoni pszichológus elindította a WordNet nevű projektet azzal a céllal, hogy hierarchikus struktúrát építsen az angol nyelv számára. Olyan lenne, mint egy szótár, de a szavakat más szavakkal, nem pedig ábécé sorrendben mutatják be. Például a WordNet-en belül a “kutya” szó a “kutya” alá lenne beágyazva, amely az “emlős” alá lenne beágyazva stb. Ez egy olyan módszer volt a nyelv megszervezésére, amely géppel olvasható logikára támaszkodott, és több mint 155 000 indexelt szót gyűjtött össze.

ImageNet

a WordNet-ből származó ImageNet hierarchia.

Li az UIUC-nál végzett első tanári munkája során a gépi tanulás egyik alapvető feszültségével küzdött: a túltöltéssel és az általánosítással. Ha egy algoritmus csak olyan adatokkal tud dolgozni, amelyek közel állnak ahhoz, amit korábban láttak, akkor a modell túlteljesül az adatokhoz; nem tud megérteni semmi általánosabbat ezeken a példákon túl. Másrészt, ha egy modell nem veszi fel a megfelelő mintákat az adatok között, akkor túlgeneralizálódik.

a tökéletes algoritmus megtalálása távolinak tűnt, mondja Li. Látta, hogy a korábbi adatkészletek nem rögzítették, mennyire változó lehet a világ—még a macskák képeinek azonosítása is végtelenül összetett. De azáltal, hogy az algoritmusok több példát, hogy milyen összetett a világ lehet, ez tette matematikai értelme tudtak boldogulni jobb. Ha csak öt képet látna macskákról, akkor csak öt kameraállással, fényviszonyokkal és talán sokféle macskával rendelkezne. De ha látott 500 képet macskákról, még sok más példa van arra, hogy közös vonásokat vonjunk le.

Li elkezdett olvasni arról, hogy mások hogyan próbálták a világ tisztességes ábrázolását adatokkal katalogizálni. A keresés során megtalálta a WordNet-et.

miután elolvasta a WordNet megközelítését, Li találkozott Christiane Fellbaum professzorral, a WordNet folyamatos munkájában befolyásos kutatóval egy 2006-os Princetoni látogatás során. Fellbaumnak az volt az ötlete, hogy a WordNet-nek lehet egy kép társítva az egyes szavakhoz, inkább referenciaként, mint számítógépes látási adatkészletként. Ebből a találkozóból Li valami nagyszerűbbet képzelt el-egy nagyszabású adatkészletet, amely minden szóra sok példát tartalmaz.

hónapokkal később Li csatlakozott a Princetoni karhoz, az alma materhez, és 2007 elején elkezdte az ImageNet projektet. Elkezdett egy csapatot építeni, hogy segítsen a kihívásban, először egy professzort, Kai Li-t toborzott, aki aztán meggyőzte Jia Deng Ph.D hallgatót, hogy lépjen át Li laboratóriumába. Deng segített futtatni a ImageNet projekt keresztül 2017.

“egyértelmű volt számomra, hogy ez valami nagyon különbözik attól, amit más emberek csinálnak, összpontosítottak abban az időben” – mondta Deng. “Világos elképzelésem volt arról, hogy ez megváltoztatja a játékot a látáskutatásban, de nem tudtam, hogyan fog változni.”

az adathalmaz objektumai a konkrét tárgyaktól, például pandáktól vagy templomoktól az elvont eszmékig, például a szeretetig terjednének.

Li első ötlete az volt, hogy egyetemi hallgatókat béreljen fel óránként 10 dollárért, hogy manuálisan megtalálják a képeket, és hozzáadják őket az adatkészlethez. De a szalvéta matematika gyorsan ráébresztette Li-t, hogy az egyetemisták képgyűjtési sebességénél 90 évbe telik.

Miután az undergrad munkacsoportot feloszlatták, Li és a csapat visszament a rajztáblára. Mi lenne, ha a számítógépes látás algoritmusok kiválaszthatnák a képeket az internetről, és az emberek csak kurátorként kezelnék a képeket? De néhány hónapos algoritmusok bütykölése után a csapat arra a következtetésre jutott, hogy ez a technika sem fenntartható—a jövőbeli algoritmusok csak arra korlátozódnak, hogy megítéljék, milyen algoritmusok képesek felismerni az adatkészlet összeállításakor.

az egyetemisták időigényesek voltak, az algoritmusok hibásak voltak, és a csapatnak nem volt pénze-Li azt mondta, hogy a projekt nem nyert meg egyetlen szövetségi támogatást sem, amelyre pályázott, megjegyzéseket kapott olyan javaslatokról, amelyek szerint szégyenletes, hogy Princeton kutatja ezt a témát, és hogy a javaslat egyetlen erőssége az volt, hogy Li nő volt.

egy megoldás végül felszínre került egy véletlen folyosón folytatott beszélgetés során egy végzős hallgatóval, aki megkérdezte Li-t, hogy hallott-e az Amazon Mechanical Turk-ról, egy olyan szolgáltatásról, ahol a számítógépeken ülő emberek hordái szerte a világon apró online feladatokat végeznek fillérekért.

“megmutatta nekem a weboldalt, és szó szerint elmondhatom, hogy aznap tudtam, hogy az ImageNet projekt meg fog történni” – mondta. “Hirtelen találtunk egy olyan eszközt, amely skálázható, amiről nem is álmodhattunk a Princetoni egyetemisták felvételével.”

ImageNet

az Amazon Mechanical Turk háttérrendszer a képek osztályozásához.

a Mechanical Turk saját akadályokat hozott, a munka nagy részét Li két PhD-hallgatója, Jia Deng és Olga Russakovsky végezte . Például hány Turkernek kellett megnéznie az egyes képeket? Lehet, hogy két ember meg tudja állapítani, hogy egy macska macska, de egy miniatűr husky képe 10 érvényesítési kört igényelhet. Mi van, ha néhány Turkers megpróbálta játszani vagy megcsalni a rendszert? Li csapata végül statisztikai modelleket készített Turker viselkedéséhez, hogy biztosítsa, hogy az adatkészlet csak helyes képeket tartalmazzon.

az adatkészlet még a mechanikus Turk megtalálása után is két és fél évig tartott. 3,2 millió címkézett képből állt, 5247 kategóriába sorolva, 12 részfára rendezve, mint az “emlős”, a “jármű” és a “bútor”.”

2009—ben Li és csapata közzétette az ImageNet papírt az adatkészlettel-kevés rajongással. Li emlékeztet arra, hogy a cvpr, a számítógépes látáskutatás vezető konferenciája, csak posztert engedélyezett, szóbeli előadás helyett, a csapat pedig ImageNet márkájú tollakat adott ki, hogy felkeltse az érdeklődést. Az emberek szkeptikusak voltak az alapötlettel kapcsolatban, miszerint több adat segítene nekik jobb algoritmusok kidolgozásában.

“voltak olyan megjegyzések, mint” ha még egy objektumot sem tudsz jól csinálni, miért csinálnál több ezer vagy több tízezer objektumot?”Deng mondta.

Ha az adatok az új olaj, akkor még dinoszaurusz csontok voltak 2009-ben.

az ImageNet Challenge

később, 2009-ben, egy kiotói számítógépes látás konferencián egy Alex Berg nevű kutató megkereste Li-t, hogy javasoljon egy további szempont hozzáadását a versenyhez, ahol az algoritmusoknak is meg kell találniuk a képen látható objektum helyét, nem csak azt, hogy létezik. Li ellenezte: Gyere velem dolgozni.

Li, Berg és Deng öt tanulmányt írtak együtt az adatkészlet alapján, feltárva, hogy az algoritmusok hogyan értelmezik az ilyen hatalmas mennyiségű adatot. Az első cikk mércévé válna annak, hogy egy algoritmus hogyan reagálna több ezer képosztályra, az ImageNet verseny elődjére.

“rájöttünk, hogy demokratizáljuk ezt az elképzelést, amit tovább kell elérnünk” – mondta Li az első papíron.

Li ezután felkereste a PASCAL VOC nevű jól ismert európai képfelismerő versenyt, amely beleegyezett, hogy együttműködnek és közösen márkázzák a versenyt az ImageNet-tel. A PASCAL challenge egy elismert verseny és adatkészlet volt, de a korábbi gondolkodásmódot reprezentálta. A versenynek csak 20 osztálya volt, szemben az ImageNet 1000-ével.

mivel a verseny 2011-ben és 2012-ben is folytatódott, hamarosan mércévé vált annak, hogy a képosztályozási algoritmusok milyen jól teljesítettek az akkor összeállított legösszetettebb vizuális adatkészlettel szemben.

ImageNet

az ImageNet online adatbázisának képernyőképe

de a kutatók azt is észrevették, hogy valami több történik, mint egy verseny—algoritmusaik jobban működtek, amikor az IMAGEnet adatkészlet segítségével edzettek.

“a kellemes meglepetés az volt, hogy azok az emberek, akik modelljeiket az ImageNet-en képezték ki, felhasználhatták őket más felismerési feladatok modelljeinek elindításához. Az ImageNet modellel kezdené, majd finomhangolná egy másik feladathoz ” – mondta Berg. “Ez áttörést jelentett mind a neurális hálók, mind pedig általában az elismerés szempontjából.”

két évvel az első ImageNet verseny után, 2012-ben valami még nagyobb történt. Valójában, ha a mesterséges intelligencia fellendülése, amelyet ma látunk, egyetlen eseménynek tulajdonítható, akkor ez a 2012-es ImageNet challenge eredmények bejelentése lenne.

Geoffrey Hinton, Ilya Sutskever és Alex Krizhevsky a Torontói Egyetemről benyújtottak egy mély konvolúciós neurális hálózati architektúrát, az úgynevezett AlexNet—et—amelyet a mai napig használnak a kutatásokban -, amely óriási 10,8 százalékpontos különbséggel verte meg a mezőnyt, ami 41% – kal jobb volt, mint a következő legjobb.

az ImageNet nem jött volna jobb időben Hinton és két tanítványa számára. Hinton az 1980-as évek óta dolgozik mesterséges neurális hálózatokon, és míg egyesek, mint Yann LeCun, a Bell Labs hatására képesek voltak a technológiát ATM-ellenőrző olvasókba dolgozni, Hinton kutatása nem talált ilyen otthont. Néhány évvel korábban az Nvidia grafikus kártya gyártójának kutatása gyorsabbá tette ezeket a hálózatokat, de még mindig nem jobb, mint más technikák.

Hinton és csapata bebizonyította, hogy hálózataik kisebb feladatokat is el tudnak végezni kisebb adathalmazokon, mint például a kézírás-felismerés, de sokkal több adatra volt szükségük ahhoz, hogy hasznosak legyenek a Való Világban.

“annyira egyértelmű volt, hogy ha igazán jót teszel az ImageNet-en, megoldhatod a képfelismerést” – mondta Sutskever.

manapság ezek a konvolúciós neurális hálózatok mindenütt megtalálhatók-a Facebook, ahol LeCun az AI kutatás igazgatója, ezeket használja a fényképek címkézésére; az önvezető autók objektumok észlelésére használják őket; alapvetően bármi, ami tudja, mi van egy képen vagy videóban, használja őket. Meg tudják mondani, mi van egy képen, ha mintákat találnak a képpontok között az absztrakció növekvő szintjein, ezer-millió apró számítás felhasználásával minden szinten. Új képek kerülnek át a folyamaton, hogy megfeleljenek a mintáiknak a megtanult mintákhoz. Hinton évtizedek óta szorgalmazta kollégáit, hogy vegyék komolyan őket, de most bizonyítéka volt arra, hogy képesek legyőzni más korszerű technikákat.

“ami még csodálatosabb, hogy az emberek képesek voltak tovább javítani a mély tanulással” – mondta Sutskever, utalva arra a módszerre, amely a neurális hálózatokat rétegezi, hogy összetettebb mintákat dolgozzanak fel, most a mesterséges intelligencia legnépszerűbb javára. “A mély tanulás csak a megfelelő dolog.”

a 2012-es ImageNet eredmények számítógépes látáskutatókat küldtek a folyamat megismétlésére. Matthew Zeiler, egy NYU Ph.D hallgató, aki Hinton alatt tanult, megtudta az ImageNet eredményeit, és a Torontói Egyetem kapcsolatán keresztül korai hozzáférést kapott a papírhoz és a kódhoz. Rob Fergus-szal kezdett dolgozni, egy NYU professzor, aki szintén neurális hálózatokon dolgozott. Mindketten elkezdték kidolgozni a 2013-as kihívásra való jelentkezésüket, Zeiler pedig végül hetekkel korábban otthagyta a Google szakmai gyakorlatát, hogy a beadványra összpontosítson.

Zeiler és Fergus nyert abban az évben, és 2014-re az összes magas pontszámú versenyző mély neurális hálózatok lesznek, mondta Li.

“Ez az Imagenet 2012 esemény határozottan kiváltotta az AI nagy robbanását ma” – írta Zeiler a Quartznak küldött e-mailben. “Határozottan voltak nagyon ígéretes eredmények a beszédfelismerés terén röviddel ez előtt (ismét sokakat Toronto váltott ki), de nem indultak el annyira nyilvánosan, mint az ImageNet győzelme 2012-ben és a következő években.”

ma sokan úgy vélik, hogy az ImageNet megoldódott—a hibaarány hihetetlenül alacsony, körülbelül 2%. De ez osztályozásra vagy annak azonosítására szolgál, hogy melyik objektum van a képen. Ez nem azt jelenti, hogy egy algoritmus ismeri az objektum tulajdonságait, honnan származik, mire használják, ki készítette, vagy hogyan lép kölcsönhatásba a környezetével. Röviden, valójában nem érti, mit lát. Ez tükröződik a beszédfelismerésben, sőt a természetes nyelvfeldolgozás nagy részében is. Míg az AI ma fantasztikusan tudja, mi a helyzet, ezeknek a tárgyaknak a megértése a világ összefüggésében a következő. Még mindig nem világos, hogy az AI kutatók hogyan jutnak oda.

az ImageNet után

amíg a verseny véget ér, az ImageNet adatkészlet—amelyet az évek során frissítettek, és most több mint 13 millió kép erős—tovább él.

Berg szerint a csapat 2014-ben megpróbálta visszavonni a kihívás egyik aspektusát, de olyan cégek, mint a Google és a Facebook, akik szerették a központosított referenciaértéket. Az iparág rámutathat egy számra, és azt mondhatja: “ilyen jók vagyunk.”

2010 óta számos más nagy horderejű adatkészlet került bevezetésre a Google, a Microsoft és a Canadian Institute for Advanced Research által, mivel a deep learning bebizonyította, hogy olyan hatalmas adatokra van szükség, mint amit az ImageNet biztosított.

az adatkészletek haute lettek. A Startup alapítók és a kockázatitőke-befektetők közepes bejegyzéseket írnak, amelyek a legfrissebb adatkészleteket kiabálják, és hogyan jártak algoritmusaik az ImageNet-en. Az olyan internetes cégek, mint a Google, a Facebook és az Amazon elkezdték létrehozni saját belső adatkészleteiket, amelyek a platformjaikon naponta bevitt és megosztott képek, hangklipek és szövegrészletek millióin alapulnak. Még a startupok is kezdik összeállítani saját adatkészleteiket—a TwentyBN, a videó megértésére összpontosító AI cég az Amazon Mechanical Turk segítségével gyűjtötte össze a videókon egyszerű kézmozdulatokat és műveleteket végző Turkers videókat. A vállalat két adatkészletet bocsátott ki ingyenes tudományos használatra, mindegyik több mint 100 000 videóval.

“nagyon sok gombásodás és virágzás van mindenféle adatkészletben, a videóktól a beszéden át a játékokon át mindenig” – mondta Li.

néha magától értetődőnek veszik, hogy ezek az adatkészletek, amelyek intenzívek a gyűjtéshez, összeszereléshez és vethez, ingyenesek. A nyitottság és a szabad használat az ImageNet eredeti tétele, amely túléli a kihívást, és valószínűleg még az adatkészletet is.

2016-ban a Google kiadta az Open Images adatbázist, amely 9 millió képet tartalmaz 6000 kategóriában. A Google nemrégiben frissítette az adatkészletet, hogy címkéket tartalmazzon arra vonatkozóan, hogy az egyes képeken hol találhatók bizonyos objektumok, ami az ImageNet challenge 2014 utáni alapvető eleme. A londoni székhelyű DeepMind, amelyet a Google vásárolt meg, és saját Alphabet cégévé alakult, nemrégiben kiadta saját videoadatkészletét az emberekről, akik különféle műveleteket hajtanak végre.

“az egyik dolog, amit az ImageNet megváltoztatott az AI területén, hirtelen az emberek rájöttek, hogy az adatkészlet készítésének hálátlan munkája az AI kutatás középpontjában áll” – mondta Li. “Az emberek valóban felismerik, hogy az adatkészlet ugyanolyan fontos a kutatásban, mint az algoritmusok.”

javítás (július 26.): A cikk egy korábbi változata helytelenül írta Olga Russakovsky nevét.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.