a WordNet-ből származó ImageNet hierarchia. Li az UIUC-nál végzett első tanári munkája során a gépi tanulás egyik alapvető feszültségével küzdött: a túltöltéssel és az általánosítással. Ha egy algoritmus csak olyan adatokkal tud dolgozni, amelyek közel állnak ahhoz, amit korábban láttak, akkor a modell túlteljesül az adatokhoz; nem tud megérteni semmi általánosabbat ezeken a példákon túl. Másrészt, ha egy modell nem veszi fel a megfelelő mintákat az adatok között, akkor túlgeneralizálódik.
a tökéletes algoritmus megtalálása távolinak tűnt, mondja Li. Látta, hogy a korábbi adatkészletek nem rögzítették, mennyire változó lehet a világ—még a macskák képeinek azonosítása is végtelenül összetett. De azáltal, hogy az algoritmusok több példát, hogy milyen összetett a világ lehet, ez tette matematikai értelme tudtak boldogulni jobb. Ha csak öt képet látna macskákról, akkor csak öt kameraállással, fényviszonyokkal és talán sokféle macskával rendelkezne. De ha látott 500 képet macskákról, még sok más példa van arra, hogy közös vonásokat vonjunk le.
Li elkezdett olvasni arról, hogy mások hogyan próbálták a világ tisztességes ábrázolását adatokkal katalogizálni. A keresés során megtalálta a WordNet-et.
miután elolvasta a WordNet megközelítését, Li találkozott Christiane Fellbaum professzorral, a WordNet folyamatos munkájában befolyásos kutatóval egy 2006-os Princetoni látogatás során. Fellbaumnak az volt az ötlete, hogy a WordNet-nek lehet egy kép társítva az egyes szavakhoz, inkább referenciaként, mint számítógépes látási adatkészletként. Ebből a találkozóból Li valami nagyszerűbbet képzelt el-egy nagyszabású adatkészletet, amely minden szóra sok példát tartalmaz.
hónapokkal később Li csatlakozott a Princetoni karhoz, az alma materhez, és 2007 elején elkezdte az ImageNet projektet. Elkezdett egy csapatot építeni, hogy segítsen a kihívásban, először egy professzort, Kai Li-t toborzott, aki aztán meggyőzte Jia Deng Ph.D hallgatót, hogy lépjen át Li laboratóriumába. Deng segített futtatni a ImageNet projekt keresztül 2017.
“egyértelmű volt számomra, hogy ez valami nagyon különbözik attól, amit más emberek csinálnak, összpontosítottak abban az időben” – mondta Deng. “Világos elképzelésem volt arról, hogy ez megváltoztatja a játékot a látáskutatásban, de nem tudtam, hogyan fog változni.”
az adathalmaz objektumai a konkrét tárgyaktól, például pandáktól vagy templomoktól az elvont eszmékig, például a szeretetig terjednének.
Li első ötlete az volt, hogy egyetemi hallgatókat béreljen fel óránként 10 dollárért, hogy manuálisan megtalálják a képeket, és hozzáadják őket az adatkészlethez. De a szalvéta matematika gyorsan ráébresztette Li-t, hogy az egyetemisták képgyűjtési sebességénél 90 évbe telik.
Miután az undergrad munkacsoportot feloszlatták, Li és a csapat visszament a rajztáblára. Mi lenne, ha a számítógépes látás algoritmusok kiválaszthatnák a képeket az internetről, és az emberek csak kurátorként kezelnék a képeket? De néhány hónapos algoritmusok bütykölése után a csapat arra a következtetésre jutott, hogy ez a technika sem fenntartható—a jövőbeli algoritmusok csak arra korlátozódnak, hogy megítéljék, milyen algoritmusok képesek felismerni az adatkészlet összeállításakor.
az egyetemisták időigényesek voltak, az algoritmusok hibásak voltak, és a csapatnak nem volt pénze-Li azt mondta, hogy a projekt nem nyert meg egyetlen szövetségi támogatást sem, amelyre pályázott, megjegyzéseket kapott olyan javaslatokról, amelyek szerint szégyenletes, hogy Princeton kutatja ezt a témát, és hogy a javaslat egyetlen erőssége az volt, hogy Li nő volt.
egy megoldás végül felszínre került egy véletlen folyosón folytatott beszélgetés során egy végzős hallgatóval, aki megkérdezte Li-t, hogy hallott-e az Amazon Mechanical Turk-ról, egy olyan szolgáltatásról, ahol a számítógépeken ülő emberek hordái szerte a világon apró online feladatokat végeznek fillérekért.
“megmutatta nekem a weboldalt, és szó szerint elmondhatom, hogy aznap tudtam, hogy az ImageNet projekt meg fog történni” – mondta. “Hirtelen találtunk egy olyan eszközt, amely skálázható, amiről nem is álmodhattunk a Princetoni egyetemisták felvételével.”
az Amazon Mechanical Turk háttérrendszer a képek osztályozásához.
a Mechanical Turk saját akadályokat hozott, a munka nagy részét Li két PhD-hallgatója, Jia Deng és Olga Russakovsky végezte . Például hány Turkernek kellett megnéznie az egyes képeket? Lehet, hogy két ember meg tudja állapítani, hogy egy macska macska, de egy miniatűr husky képe 10 érvényesítési kört igényelhet. Mi van, ha néhány Turkers megpróbálta játszani vagy megcsalni a rendszert? Li csapata végül statisztikai modelleket készített Turker viselkedéséhez, hogy biztosítsa, hogy az adatkészlet csak helyes képeket tartalmazzon.
az adatkészlet még a mechanikus Turk megtalálása után is két és fél évig tartott. 3,2 millió címkézett képből állt, 5247 kategóriába sorolva, 12 részfára rendezve, mint az “emlős”, a “jármű” és a “bútor”.”
2009—ben Li és csapata közzétette az ImageNet papírt az adatkészlettel-kevés rajongással. Li emlékeztet arra, hogy a cvpr, a számítógépes látáskutatás vezető konferenciája, csak posztert engedélyezett, szóbeli előadás helyett, a csapat pedig ImageNet márkájú tollakat adott ki, hogy felkeltse az érdeklődést. Az emberek szkeptikusak voltak az alapötlettel kapcsolatban, miszerint több adat segítene nekik jobb algoritmusok kidolgozásában.
“voltak olyan megjegyzések, mint” ha még egy objektumot sem tudsz jól csinálni, miért csinálnál több ezer vagy több tízezer objektumot?”Deng mondta.
Ha az adatok az új olaj, akkor még dinoszaurusz csontok voltak 2009-ben.
az ImageNet Challenge
később, 2009-ben, egy kiotói számítógépes látás konferencián egy Alex Berg nevű kutató megkereste Li-t, hogy javasoljon egy további szempont hozzáadását a versenyhez, ahol az algoritmusoknak is meg kell találniuk a képen látható objektum helyét, nem csak azt, hogy létezik. Li ellenezte: Gyere velem dolgozni.
Li, Berg és Deng öt tanulmányt írtak együtt az adatkészlet alapján, feltárva, hogy az algoritmusok hogyan értelmezik az ilyen hatalmas mennyiségű adatot. Az első cikk mércévé válna annak, hogy egy algoritmus hogyan reagálna több ezer képosztályra, az ImageNet verseny elődjére.
“rájöttünk, hogy demokratizáljuk ezt az elképzelést, amit tovább kell elérnünk” – mondta Li az első papíron.
Li ezután felkereste a PASCAL VOC nevű jól ismert európai képfelismerő versenyt, amely beleegyezett, hogy együttműködnek és közösen márkázzák a versenyt az ImageNet-tel. A PASCAL challenge egy elismert verseny és adatkészlet volt, de a korábbi gondolkodásmódot reprezentálta. A versenynek csak 20 osztálya volt, szemben az ImageNet 1000-ével.
mivel a verseny 2011-ben és 2012-ben is folytatódott, hamarosan mércévé vált annak, hogy a képosztályozási algoritmusok milyen jól teljesítettek az akkor összeállított legösszetettebb vizuális adatkészlettel szemben.
az ImageNet online adatbázisának képernyőképe de a kutatók azt is észrevették, hogy valami több történik, mint egy verseny—algoritmusaik jobban működtek, amikor az IMAGEnet adatkészlet segítségével edzettek.
“a kellemes meglepetés az volt, hogy azok az emberek, akik modelljeiket az ImageNet-en képezték ki, felhasználhatták őket más felismerési feladatok modelljeinek elindításához. Az ImageNet modellel kezdené, majd finomhangolná egy másik feladathoz ” – mondta Berg. “Ez áttörést jelentett mind a neurális hálók, mind pedig általában az elismerés szempontjából.”
két évvel az első ImageNet verseny után, 2012-ben valami még nagyobb történt. Valójában, ha a mesterséges intelligencia fellendülése, amelyet ma látunk, egyetlen eseménynek tulajdonítható, akkor ez a 2012-es ImageNet challenge eredmények bejelentése lenne.
Geoffrey Hinton, Ilya Sutskever és Alex Krizhevsky a Torontói Egyetemről benyújtottak egy mély konvolúciós neurális hálózati architektúrát, az úgynevezett AlexNet—et—amelyet a mai napig használnak a kutatásokban -, amely óriási 10,8 százalékpontos különbséggel verte meg a mezőnyt, ami 41% – kal jobb volt, mint a következő legjobb.
az ImageNet nem jött volna jobb időben Hinton és két tanítványa számára. Hinton az 1980-as évek óta dolgozik mesterséges neurális hálózatokon, és míg egyesek, mint Yann LeCun, a Bell Labs hatására képesek voltak a technológiát ATM-ellenőrző olvasókba dolgozni, Hinton kutatása nem talált ilyen otthont. Néhány évvel korábban az Nvidia grafikus kártya gyártójának kutatása gyorsabbá tette ezeket a hálózatokat, de még mindig nem jobb, mint más technikák.
Hinton és csapata bebizonyította, hogy hálózataik kisebb feladatokat is el tudnak végezni kisebb adathalmazokon, mint például a kézírás-felismerés, de sokkal több adatra volt szükségük ahhoz, hogy hasznosak legyenek a Való Világban.
“annyira egyértelmű volt, hogy ha igazán jót teszel az ImageNet-en, megoldhatod a képfelismerést” – mondta Sutskever.
manapság ezek a konvolúciós neurális hálózatok mindenütt megtalálhatók-a Facebook, ahol LeCun az AI kutatás igazgatója, ezeket használja a fényképek címkézésére; az önvezető autók objektumok észlelésére használják őket; alapvetően bármi, ami tudja, mi van egy képen vagy videóban, használja őket. Meg tudják mondani, mi van egy képen, ha mintákat találnak a képpontok között az absztrakció növekvő szintjein, ezer-millió apró számítás felhasználásával minden szinten. Új képek kerülnek át a folyamaton, hogy megfeleljenek a mintáiknak a megtanult mintákhoz. Hinton évtizedek óta szorgalmazta kollégáit, hogy vegyék komolyan őket, de most bizonyítéka volt arra, hogy képesek legyőzni más korszerű technikákat.
“ami még csodálatosabb, hogy az emberek képesek voltak tovább javítani a mély tanulással” – mondta Sutskever, utalva arra a módszerre, amely a neurális hálózatokat rétegezi, hogy összetettebb mintákat dolgozzanak fel, most a mesterséges intelligencia legnépszerűbb javára. “A mély tanulás csak a megfelelő dolog.”
a 2012-es ImageNet eredmények számítógépes látáskutatókat küldtek a folyamat megismétlésére. Matthew Zeiler, egy NYU Ph.D hallgató, aki Hinton alatt tanult, megtudta az ImageNet eredményeit, és a Torontói Egyetem kapcsolatán keresztül korai hozzáférést kapott a papírhoz és a kódhoz. Rob Fergus-szal kezdett dolgozni, egy NYU professzor, aki szintén neurális hálózatokon dolgozott. Mindketten elkezdték kidolgozni a 2013-as kihívásra való jelentkezésüket, Zeiler pedig végül hetekkel korábban otthagyta a Google szakmai gyakorlatát, hogy a beadványra összpontosítson.
Zeiler és Fergus nyert abban az évben, és 2014-re az összes magas pontszámú versenyző mély neurális hálózatok lesznek, mondta Li.
“Ez az Imagenet 2012 esemény határozottan kiváltotta az AI nagy robbanását ma” – írta Zeiler a Quartznak küldött e-mailben. “Határozottan voltak nagyon ígéretes eredmények a beszédfelismerés terén röviddel ez előtt (ismét sokakat Toronto váltott ki), de nem indultak el annyira nyilvánosan, mint az ImageNet győzelme 2012-ben és a következő években.”
ma sokan úgy vélik, hogy az ImageNet megoldódott—a hibaarány hihetetlenül alacsony, körülbelül 2%. De ez osztályozásra vagy annak azonosítására szolgál, hogy melyik objektum van a képen. Ez nem azt jelenti, hogy egy algoritmus ismeri az objektum tulajdonságait, honnan származik, mire használják, ki készítette, vagy hogyan lép kölcsönhatásba a környezetével. Röviden, valójában nem érti, mit lát. Ez tükröződik a beszédfelismerésben, sőt a természetes nyelvfeldolgozás nagy részében is. Míg az AI ma fantasztikusan tudja, mi a helyzet, ezeknek a tárgyaknak a megértése a világ összefüggésében a következő. Még mindig nem világos, hogy az AI kutatók hogyan jutnak oda.
az ImageNet után
amíg a verseny véget ér, az ImageNet adatkészlet—amelyet az évek során frissítettek, és most több mint 13 millió kép erős—tovább él.
Berg szerint a csapat 2014-ben megpróbálta visszavonni a kihívás egyik aspektusát, de olyan cégek, mint a Google és a Facebook, akik szerették a központosított referenciaértéket. Az iparág rámutathat egy számra, és azt mondhatja: “ilyen jók vagyunk.”
2010 óta számos más nagy horderejű adatkészlet került bevezetésre a Google, a Microsoft és a Canadian Institute for Advanced Research által, mivel a deep learning bebizonyította, hogy olyan hatalmas adatokra van szükség, mint amit az ImageNet biztosított.
az adatkészletek haute lettek. A Startup alapítók és a kockázatitőke-befektetők közepes bejegyzéseket írnak, amelyek a legfrissebb adatkészleteket kiabálják, és hogyan jártak algoritmusaik az ImageNet-en. Az olyan internetes cégek, mint a Google, a Facebook és az Amazon elkezdték létrehozni saját belső adatkészleteiket, amelyek a platformjaikon naponta bevitt és megosztott képek, hangklipek és szövegrészletek millióin alapulnak. Még a startupok is kezdik összeállítani saját adatkészleteiket—a TwentyBN, a videó megértésére összpontosító AI cég az Amazon Mechanical Turk segítségével gyűjtötte össze a videókon egyszerű kézmozdulatokat és műveleteket végző Turkers videókat. A vállalat két adatkészletet bocsátott ki ingyenes tudományos használatra, mindegyik több mint 100 000 videóval.
“nagyon sok gombásodás és virágzás van mindenféle adatkészletben, a videóktól a beszéden át a játékokon át mindenig” – mondta Li.
néha magától értetődőnek veszik, hogy ezek az adatkészletek, amelyek intenzívek a gyűjtéshez, összeszereléshez és vethez, ingyenesek. A nyitottság és a szabad használat az ImageNet eredeti tétele, amely túléli a kihívást, és valószínűleg még az adatkészletet is.
2016-ban a Google kiadta az Open Images adatbázist, amely 9 millió képet tartalmaz 6000 kategóriában. A Google nemrégiben frissítette az adatkészletet, hogy címkéket tartalmazzon arra vonatkozóan, hogy az egyes képeken hol találhatók bizonyos objektumok, ami az ImageNet challenge 2014 utáni alapvető eleme. A londoni székhelyű DeepMind, amelyet a Google vásárolt meg, és saját Alphabet cégévé alakult, nemrégiben kiadta saját videoadatkészletét az emberekről, akik különféle műveleteket hajtanak végre.
“az egyik dolog, amit az ImageNet megváltoztatott az AI területén, hirtelen az emberek rájöttek, hogy az adatkészlet készítésének hálátlan munkája az AI kutatás középpontjában áll” – mondta Li. “Az emberek valóban felismerik, hogy az adatkészlet ugyanolyan fontos a kutatásban, mint az algoritmusok.”
javítás (július 26.): A cikk egy korábbi változata helytelenül írta Olga Russakovsky nevét.