În 2006, Fei-Fei Li a început să rumegă o idee.Li, un nou profesor de informatică la Universitatea din Illinois Urbana-Champaign, și-a văzut colegii din mediul academic și din industria AI lovind același concept: un algoritm mai bun ar lua decizii mai bune, indiferent de date.
dar a realizat o limitare a acestei abordări—cel mai bun algoritm nu ar funcționa bine dacă datele din care a învățat nu ar reflecta lumea reală.
soluția ei: construiți un set de date mai bun.”am decis că vrem să facem ceva care a fost complet fără precedent din punct de vedere istoric”, a spus Li, referindu-se la o echipă mică care ar lucra inițial cu ea. „Vom cartografia întreaga lume a obiectelor.”
setul de date rezultat a fost numit ImageNet. Publicat inițial în 2009 ca un poster de cercetare blocat în colțul unui centru de conferințe Miami Beach, setul de date a evoluat rapid într-o competiție anuală pentru a vedea ce algoritmi ar putea identifica obiectele din imaginile setului de date cu cea mai mică rată de eroare. Mulți îl văd ca pe un catalizator pentru boom-ul AI pe care lumea îl trăiește astăzi.
absolvenții provocării ImageNet pot fi găsiți în fiecare colț al lumii tehnologice. Primii câștigători ai concursului în 2010 au continuat să ocupe roluri principale la Baidu, Google și Huawei. Matthew Zeiler a construit Clarifai pe baza câștigului său ImageNet din 2013 și este acum susținut de 40 de milioane de dolari în finanțare VC. În 2014, Google a împărțit titlul câștigător cu doi cercetători de la Oxford, care au fost rapid recuperați și adăugați la laboratorul său recent achiziționat DeepMind.Li însăși este acum om de știință șef la Google Cloud, profesor la Stanford și director al Laboratorului AI al Universității.
astăzi va urca pe scenă la CVPR pentru a vorbi despre rezultatele anuale ale ImageNet pentru ultima dată—2017 a fost ultimul an al competiției. În doar șapte ani, precizia câștigătoare în clasificarea obiectelor din setul de date a crescut de la 71,8% la 97,3%, depășind abilitățile umane și dovedind în mod eficient că datele mai mari conduc la decizii mai bune.
chiar dacă competiția se încheie, moștenirea sa Prinde deja contur. Din 2009, zeci de noi seturi de date de cercetare AI au fost introduse în subdomenii precum viziunea pe computer, procesarea limbajului natural și recunoașterea vocii.”schimbarea de paradigmă a gândirii ImageNet este că, în timp ce o mulțime de oameni sunt atenți la modele, să fim atenți la date”, a spus Li. „Datele vor redefini modul în care gândim despre modele.”
ce este ImageNet?
la sfârșitul anilor 1980, psihologul Princeton George Miller a început un proiect numit WordNet, cu scopul de a construi o structură ierarhică pentru limba engleză. Ar fi un fel de dicționar, dar cuvintele ar fi afișate în raport cu alte cuvinte, mai degrabă decât în ordine alfabetică. De exemplu, în WordNet, cuvântul „câine” ar fi imbricat sub „canin”, care ar fi imbricat sub „mamifer” și așa mai departe. A fost o modalitate de organizare a limbajului care s-a bazat pe logica citibilă de mașină și a acumulat peste 155.000 de cuvinte indexate.
Li, în primul său loc de muncă didactic la UIUC, se luptase cu una dintre tensiunile de bază în învățarea automată: suprasolicitarea și generalizarea. Atunci când un algoritm poate funcționa numai cu date apropiate de ceea ce a văzut înainte, modelul este considerat a fi suprapus datelor; nu poate înțelege nimic mai general decât aceste exemple. Pe de altă parte, în cazul în care un model nu ridica dreptul de modele între datele, este overgeneralizing.
găsirea algoritmului perfect părea îndepărtată, spune Li. Ea a văzut că seturile de date anterioare nu surprindeau cât de variabilă ar putea fi lumea—chiar și doar identificarea imaginilor cu pisici este infinit de complexă. Dar, oferind algoritmilor mai multe exemple despre cât de complexă ar putea fi lumea, a avut sens matematic că ar putea merge mai bine. Dacă ai vedea doar cinci poze cu pisici, ai avea doar cinci unghiuri ale camerei, condiții de iluminare și poate varietate de pisici. Dar dacă ați văzut 500 de imagini cu pisici, există multe alte exemple din care să trageți în comun.Li a început să citească despre modul în care alții au încercat să catalogheze o reprezentare corectă a lumii cu date. În timpul acestei căutări, a găsit WordNet.după ce a citit despre abordarea lui WordNet, Li s-a întâlnit cu profesorul Christiane Fellbaum, un cercetător influent în continuarea lucrărilor despre WordNet, în timpul unei vizite din 2006 la Princeton. Fellbaum a avut ideea că WordNet ar putea avea o imagine asociată cu fiecare dintre cuvinte, mai degrabă ca referință decât ca set de date de viziune pe computer. Venind de la acea întâlnire, Li și—a imaginat ceva mai măreț-un set de date la scară largă, cu multe exemple din fiecare cuvânt.
luni mai târziu, Li s-a alăturat Facultății Princeton, alma mater, și a început proiectul ImageNet la începutul anului 2007. A început să construiască o echipă pentru a ajuta la provocare, recrutând mai întâi un coleg profesor, Kai Li, care apoi l-a convins pe doctorandul Jia Deng să se transfere în laboratorul lui Li. Deng a ajutat la derularea proiectului ImageNet până în 2017.
„mi-a fost clar că acest lucru era foarte diferit de ceea ce făceau alți oameni, erau concentrați la acea vreme”, a spus Deng. „Am avut o idee clară că acest lucru ar schimba modul în care jocul a fost jucat în vision research, dar nu știam cum se va schimba.”
obiectele din setul de date ar varia de la obiecte concrete, cum ar fi ursi panda sau biserici, la idei abstracte, cum ar fi dragostea.prima idee a lui Li a fost să angajeze studenți pentru 10 dolari pe oră pentru a găsi manual imagini și a le adăuga la setul de date. Dar matematica din spate a șervețelului l-a făcut rapid pe Li să-și dea seama că, la rata de colectare a imaginilor studenților, ar fi nevoie de 90 de ani pentru a finaliza.
după ce grupul de lucru al studenților a fost desființat, Li și echipa s-au întors la planșă. Ce-ar fi dacă algoritmii computer-vision ar putea alege fotografiile de pe internet, iar oamenii ar alege doar imaginile? Dar, după câteva luni de tinkering cu algoritmi, echipa a ajuns la concluzia că nici această tehnică nu era durabilă—algoritmii viitori ar fi constrânși să judece doar ce algoritmi erau capabili să recunoască la momentul compilării setului de date.studenții au fost consumatoare de timp, algoritmi au fost eronate, iar echipa nu a avut bani—Li a spus că proiectul nu a reușit să câștige oricare dintre subvențiile federale ea a solicitat, primind comentarii cu privire la propunerile pe care a fost rușinos Princeton ar cerceta acest subiect, și că singurul punct forte al propunerii a fost că Li a fost o femeie.
o soluție a apărut în cele din urmă într-o conversație întâmplătoare pe hol cu o studentă absolventă care a întrebat-o pe Li dacă a auzit de Amazon Mechanical Turk, un serviciu în care hoarde de oameni care stau la computere din întreaga lume ar finaliza mici sarcini online pentru bani.
„mi-a arătat site-ul și vă pot spune literalmente în acea zi am știut că proiectul ImageNet urma să se întâmple”, a spus ea. „Dintr-o dată am găsit un instrument care ar putea scala, că nu am putut, eventual, vis de angajarea Princeton studenti.”
Mechanical Turk și-a adus propriile obstacole, cu o mare parte din munca depusă de doi dintre doctoranzii lui Li, Jia Deng și Olga Russakovsky . De exemplu, câți turci au trebuit să privească fiecare imagine? Poate că doi oameni ar putea determina că o pisică era o pisică, dar o imagine a unui husky în miniatură ar putea necesita 10 runde de validare. Ce se întâmplă dacă unii turci au încercat să joace sau să înșele sistemul? Echipa lui Li a ajuns să creeze un lot de modele statistice pentru comportamentele lui Turker pentru a se asigura că setul de date include doar imagini corecte.
chiar și după găsirea Mechanical Turk, setul de date a durat doi ani și jumătate pentru a fi finalizat. Acesta a constat din 3,2 milioane de imagini etichetate, separate în 5.247 de categorii, sortate în 12 subarbore precum „mamifer”, „vehicul” și „mobilier”.”
în 2009, Li și echipa ei au publicat lucrarea ImageNet cu setul de date—la puțină fanfară. Li reamintește că CVPR, o conferință de frunte în cercetarea viziunii pe calculator, a permis doar un poster, în loc de o prezentare orală, iar echipa a înmânat stilouri marca ImageNet pentru a crește interesul. Oamenii au fost sceptici cu privire la ideea de bază că mai multe date i-ar ajuta să dezvolte algoritmi mai buni.
„au existat comentarii de genul” Dacă nu poți face nici măcar un obiect bine, de ce ai face mii sau zeci de mii de obiecte?”A spus Deng.
dacă datele este noul ulei, a fost încă oase de dinozaur în 2009.
provocarea ImageNet
Mai târziu, în 2009, la o conferință de viziune computerizată din Kyoto, un cercetător pe nume Alex Berg l-a abordat pe Li pentru a sugera adăugarea unui aspect suplimentar concursului în care algoritmii ar trebui să localizeze și unde se afla obiectul imaginat, nu doar că a existat. Li contracarat: Vino să lucrezi cu mine.Li, Berg și Deng au scris împreună cinci lucrări bazate pe setul de date, explorând modul în care algoritmii ar interpreta cantități atât de mari de date. Prima lucrare ar deveni un punct de referință pentru modul în care un algoritm ar reacționa la mii de clase de imagini, predecesorul competiției ImageNet.
„ne-am dat seama că pentru a democratiza această idee trebuie să ajungem mai departe”, a spus Li, vorbind în prima lucrare.
Li s-a apropiat apoi de un cunoscut concurs de recunoaștere a imaginilor din Europa numit PASCAL VOC, care a fost de acord să colaboreze și să Co-marcheze competiția lor cu ImageNet. Provocarea PASCAL a fost o competiție și un set de date bine respectate, dar reprezentative pentru metoda anterioară de gândire. Competiția a avut doar 20 de clase, comparativ cu cele 1.000 ale ImageNet.pe măsură ce competiția a continuat în 2011 și în 2012, a devenit în curând un punct de referință pentru cât de bine s-au descurcat algoritmii de clasificare a imaginilor față de cel mai complex set de date vizuale asamblate la acea vreme.
dar cercetătorii au început, de asemenea, să observe ceva mai mult decât o competiție—algoritmii lor au funcționat mai bine atunci când s-au antrenat folosind setul de date IMAGEnet.
„surpriza plăcută a fost că oamenii care și-au instruit modelele pe ImageNet le-ar putea folosi pentru a lansa modele pentru alte sarcini de recunoaștere. Ai începe cu modelul ImageNet și apoi l-ai regla pentru o altă sarcină”, a spus Berg. „Aceasta a fost o descoperire atât pentru rețelele neuronale, cât și pentru recunoaștere în general.”
la doi ani de la prima competiție ImageNet, în 2012, s-a întâmplat ceva și mai mare. Într-adevăr, dacă boom-ul inteligenței artificiale pe care îl vedem astăzi ar putea fi atribuit unui singur eveniment, ar fi anunțul rezultatelor ImageNet challenge din 2012.Geoffrey Hinton, Ilya Sutskever și Alex Krizhevsky de la Universitatea din Toronto au prezentat o arhitectură profundă a rețelei neuronale convoluționale numită AlexNet—încă folosită în cercetare până în prezent—care a depășit câmpul cu o marjă de 10,8 puncte procentuale, care a fost cu 41% mai bună decât următoarea cea mai bună.