datele care au transformat cercetarea ia–și, eventual, lumea

În 2006, Fei-Fei Li a început să rumegă o idee.Li, un nou profesor de informatică la Universitatea din Illinois Urbana-Champaign, și-a văzut colegii din mediul academic și din industria AI lovind același concept: un algoritm mai bun ar lua decizii mai bune, indiferent de date.

dar a realizat o limitare a acestei abordări—cel mai bun algoritm nu ar funcționa bine dacă datele din care a învățat nu ar reflecta lumea reală.

soluția ei: construiți un set de date mai bun.”am decis că vrem să facem ceva care a fost complet fără precedent din punct de vedere istoric”, a spus Li, referindu-se la o echipă mică care ar lucra inițial cu ea. „Vom cartografia întreaga lume a obiectelor.”

setul de date rezultat a fost numit ImageNet. Publicat inițial în 2009 ca un poster de cercetare blocat în colțul unui centru de conferințe Miami Beach, setul de date a evoluat rapid într-o competiție anuală pentru a vedea ce algoritmi ar putea identifica obiectele din imaginile setului de date cu cea mai mică rată de eroare. Mulți îl văd ca pe un catalizator pentru boom-ul AI pe care lumea îl trăiește astăzi.

absolvenții provocării ImageNet pot fi găsiți în fiecare colț al lumii tehnologice. Primii câștigători ai concursului în 2010 au continuat să ocupe roluri principale la Baidu, Google și Huawei. Matthew Zeiler a construit Clarifai pe baza câștigului său ImageNet din 2013 și este acum susținut de 40 de milioane de dolari în finanțare VC. În 2014, Google a împărțit titlul câștigător cu doi cercetători de la Oxford, care au fost rapid recuperați și adăugați la laboratorul său recent achiziționat DeepMind.Li însăși este acum om de știință șef la Google Cloud, profesor la Stanford și director al Laboratorului AI al Universității.

astăzi va urca pe scenă la CVPR pentru a vorbi despre rezultatele anuale ale ImageNet pentru ultima dată—2017 a fost ultimul an al competiției. În doar șapte ani, precizia câștigătoare în clasificarea obiectelor din setul de date a crescut de la 71,8% la 97,3%, depășind abilitățile umane și dovedind în mod eficient că datele mai mari conduc la decizii mai bune.

chiar dacă competiția se încheie, moștenirea sa Prinde deja contur. Din 2009, zeci de noi seturi de date de cercetare AI au fost introduse în subdomenii precum viziunea pe computer, procesarea limbajului natural și recunoașterea vocii.”schimbarea de paradigmă a gândirii ImageNet este că, în timp ce o mulțime de oameni sunt atenți la modele, să fim atenți la date”, a spus Li. „Datele vor redefini modul în care gândim despre modele.”

ce este ImageNet?

la sfârșitul anilor 1980, psihologul Princeton George Miller a început un proiect numit WordNet, cu scopul de a construi o structură ierarhică pentru limba engleză. Ar fi un fel de dicționar, dar cuvintele ar fi afișate în raport cu alte cuvinte, mai degrabă decât în ordine alfabetică. De exemplu, în WordNet, cuvântul „câine” ar fi imbricat sub „canin”, care ar fi imbricat sub „mamifer” și așa mai departe. A fost o modalitate de organizare a limbajului care s-a bazat pe logica citibilă de mașină și a acumulat peste 155.000 de cuvinte indexate.

ImageNet

ierarhia ImageNet derivată din WordNet.

Li, în primul său loc de muncă didactic la UIUC, se luptase cu una dintre tensiunile de bază în învățarea automată: suprasolicitarea și generalizarea. Atunci când un algoritm poate funcționa numai cu date apropiate de ceea ce a văzut înainte, modelul este considerat a fi suprapus datelor; nu poate înțelege nimic mai general decât aceste exemple. Pe de altă parte, în cazul în care un model nu ridica dreptul de modele între datele, este overgeneralizing.

găsirea algoritmului perfect părea îndepărtată, spune Li. Ea a văzut că seturile de date anterioare nu surprindeau cât de variabilă ar putea fi lumea—chiar și doar identificarea imaginilor cu pisici este infinit de complexă. Dar, oferind algoritmilor mai multe exemple despre cât de complexă ar putea fi lumea, a avut sens matematic că ar putea merge mai bine. Dacă ai vedea doar cinci poze cu pisici, ai avea doar cinci unghiuri ale camerei, condiții de iluminare și poate varietate de pisici. Dar dacă ați văzut 500 de imagini cu pisici, există multe alte exemple din care să trageți în comun.Li a început să citească despre modul în care alții au încercat să catalogheze o reprezentare corectă a lumii cu date. În timpul acestei căutări, a găsit WordNet.după ce a citit despre abordarea lui WordNet, Li s-a întâlnit cu profesorul Christiane Fellbaum, un cercetător influent în continuarea lucrărilor despre WordNet, în timpul unei vizite din 2006 la Princeton. Fellbaum a avut ideea că WordNet ar putea avea o imagine asociată cu fiecare dintre cuvinte, mai degrabă ca referință decât ca set de date de viziune pe computer. Venind de la acea întâlnire, Li și—a imaginat ceva mai măreț-un set de date la scară largă, cu multe exemple din fiecare cuvânt.

luni mai târziu, Li s-a alăturat Facultății Princeton, alma mater, și a început proiectul ImageNet la începutul anului 2007. A început să construiască o echipă pentru a ajuta la provocare, recrutând mai întâi un coleg profesor, Kai Li, care apoi l-a convins pe doctorandul Jia Deng să se transfere în laboratorul lui Li. Deng a ajutat la derularea proiectului ImageNet până în 2017.

„mi-a fost clar că acest lucru era foarte diferit de ceea ce făceau alți oameni, erau concentrați la acea vreme”, a spus Deng. „Am avut o idee clară că acest lucru ar schimba modul în care jocul a fost jucat în vision research, dar nu știam cum se va schimba.”

obiectele din setul de date ar varia de la obiecte concrete, cum ar fi ursi panda sau biserici, la idei abstracte, cum ar fi dragostea.prima idee a lui Li a fost să angajeze studenți pentru 10 dolari pe oră pentru a găsi manual imagini și a le adăuga la setul de date. Dar matematica din spate a șervețelului l-a făcut rapid pe Li să-și dea seama că, la rata de colectare a imaginilor studenților, ar fi nevoie de 90 de ani pentru a finaliza.

după ce grupul de lucru al studenților a fost desființat, Li și echipa s-au întors la planșă. Ce-ar fi dacă algoritmii computer-vision ar putea alege fotografiile de pe internet, iar oamenii ar alege doar imaginile? Dar, după câteva luni de tinkering cu algoritmi, echipa a ajuns la concluzia că nici această tehnică nu era durabilă—algoritmii viitori ar fi constrânși să judece doar ce algoritmi erau capabili să recunoască la momentul compilării setului de date.studenții au fost consumatoare de timp, algoritmi au fost eronate, iar echipa nu a avut bani—Li a spus că proiectul nu a reușit să câștige oricare dintre subvențiile federale ea a solicitat, primind comentarii cu privire la propunerile pe care a fost rușinos Princeton ar cerceta acest subiect, și că singurul punct forte al propunerii a fost că Li a fost o femeie.

o soluție a apărut în cele din urmă într-o conversație întâmplătoare pe hol cu o studentă absolventă care a întrebat-o pe Li dacă a auzit de Amazon Mechanical Turk, un serviciu în care hoarde de oameni care stau la computere din întreaga lume ar finaliza mici sarcini online pentru bani.

„mi-a arătat site-ul și vă pot spune literalmente în acea zi am știut că proiectul ImageNet urma să se întâmple”, a spus ea. „Dintr-o dată am găsit un instrument care ar putea scala, că nu am putut, eventual, vis de angajarea Princeton studenti.”

ImageNet

backend-ul Amazon Mechanical Turk pentru clasificarea imaginilor.

Mechanical Turk și-a adus propriile obstacole, cu o mare parte din munca depusă de doi dintre doctoranzii lui Li, Jia Deng și Olga Russakovsky . De exemplu, câți turci au trebuit să privească fiecare imagine? Poate că doi oameni ar putea determina că o pisică era o pisică, dar o imagine a unui husky în miniatură ar putea necesita 10 runde de validare. Ce se întâmplă dacă unii turci au încercat să joace sau să înșele sistemul? Echipa lui Li a ajuns să creeze un lot de modele statistice pentru comportamentele lui Turker pentru a se asigura că setul de date include doar imagini corecte.

chiar și după găsirea Mechanical Turk, setul de date a durat doi ani și jumătate pentru a fi finalizat. Acesta a constat din 3,2 milioane de imagini etichetate, separate în 5.247 de categorii, sortate în 12 subarbore precum „mamifer”, „vehicul” și „mobilier”.”

în 2009, Li și echipa ei au publicat lucrarea ImageNet cu setul de date—la puțină fanfară. Li reamintește că CVPR, o conferință de frunte în cercetarea viziunii pe calculator, a permis doar un poster, în loc de o prezentare orală, iar echipa a înmânat stilouri marca ImageNet pentru a crește interesul. Oamenii au fost sceptici cu privire la ideea de bază că mai multe date i-ar ajuta să dezvolte algoritmi mai buni.

„au existat comentarii de genul” Dacă nu poți face nici măcar un obiect bine, de ce ai face mii sau zeci de mii de obiecte?”A spus Deng.

dacă datele este noul ulei, a fost încă oase de dinozaur în 2009.

provocarea ImageNet

Mai târziu, în 2009, la o conferință de viziune computerizată din Kyoto, un cercetător pe nume Alex Berg l-a abordat pe Li pentru a sugera adăugarea unui aspect suplimentar concursului în care algoritmii ar trebui să localizeze și unde se afla obiectul imaginat, nu doar că a existat. Li contracarat: Vino să lucrezi cu mine.Li, Berg și Deng au scris împreună cinci lucrări bazate pe setul de date, explorând modul în care algoritmii ar interpreta cantități atât de mari de date. Prima lucrare ar deveni un punct de referință pentru modul în care un algoritm ar reacționa la mii de clase de imagini, predecesorul competiției ImageNet.

„ne-am dat seama că pentru a democratiza această idee trebuie să ajungem mai departe”, a spus Li, vorbind în prima lucrare.

Li s-a apropiat apoi de un cunoscut concurs de recunoaștere a imaginilor din Europa numit PASCAL VOC, care a fost de acord să colaboreze și să Co-marcheze competiția lor cu ImageNet. Provocarea PASCAL a fost o competiție și un set de date bine respectate, dar reprezentative pentru metoda anterioară de gândire. Competiția a avut doar 20 de clase, comparativ cu cele 1.000 ale ImageNet.pe măsură ce competiția a continuat în 2011 și în 2012, a devenit în curând un punct de referință pentru cât de bine s-au descurcat algoritmii de clasificare a imaginilor față de cel mai complex set de date vizuale asamblate la acea vreme.

ImageNet

o captură de ecran a bazei de date ImageNet online

dar cercetătorii au început, de asemenea, să observe ceva mai mult decât o competiție—algoritmii lor au funcționat mai bine atunci când s-au antrenat folosind setul de date IMAGEnet.

„surpriza plăcută a fost că oamenii care și-au instruit modelele pe ImageNet le-ar putea folosi pentru a lansa modele pentru alte sarcini de recunoaștere. Ai începe cu modelul ImageNet și apoi l-ai regla pentru o altă sarcină”, a spus Berg. „Aceasta a fost o descoperire atât pentru rețelele neuronale, cât și pentru recunoaștere în general.”

la doi ani de la prima competiție ImageNet, în 2012, s-a întâmplat ceva și mai mare. Într-adevăr, dacă boom-ul inteligenței artificiale pe care îl vedem astăzi ar putea fi atribuit unui singur eveniment, ar fi anunțul rezultatelor ImageNet challenge din 2012.Geoffrey Hinton, Ilya Sutskever și Alex Krizhevsky de la Universitatea din Toronto au prezentat o arhitectură profundă a rețelei neuronale convoluționale numită AlexNet—încă folosită în cercetare până în prezent—care a depășit câmpul cu o marjă de 10,8 puncte procentuale, care a fost cu 41% mai bună decât următoarea cea mai bună.

ImageNet nu a putut veni într-un moment mai bun pentru Hinton și cei doi studenți ai săi. Hinton a lucrat la rețele neuronale artificiale încă din anii 1980 și, în timp ce unii ca Yann LeCun au reușit să lucreze tehnologia în cititoare de verificare ATM prin influența Bell Labs, cercetările lui Hinton nu au găsit acest tip de casă. Cu câțiva ani mai devreme, cercetările producătorului de plăci grafice Nvidia au făcut ca aceste rețele să proceseze mai repede, dar încă nu mai bine decât alte tehnici.

Hinton și echipa sa au demonstrat că rețelele lor ar putea efectua sarcini mai mici pe seturi de date mai mici, cum ar fi detectarea scrierii de mână, dar aveau nevoie de mult mai multe date pentru a fi utile în lumea reală.

„a fost atât de clar că, dacă faci un lucru foarte bun pe ImageNet, ai putea rezolva recunoașterea imaginii”, a spus Sutskever.

astăzi, aceste rețele neuronale convoluționale sunt peste tot—Facebook, unde LeCun este director de cercetare AI, le folosește pentru a vă eticheta fotografiile; mașinile cu conducere automată le folosesc pentru a detecta obiecte; practic orice știe ce este într-o imagine sau video le folosește. Ei pot spune ce este într-o imagine găsind modele între pixeli pe niveluri ascendente de abstractizare, folosind mii până la milioane de calcule minuscule la fiecare nivel. Noi imagini sunt puse prin procesul de a se potrivi modelele lor de modele învățate. Hinton își împingea colegii să le ia în serios de zeci de ani, dar acum avea dovezi că ar putea bate alte tehnici de ultimă oră.”ceea ce este mai uimitor este că oamenii au reușit să-l îmbunătățească în continuare cu învățarea profundă”, a spus Sutskever, referindu-se la metoda prin care straturile de rețele neuronale permit procesarea unor modele mai complexe, acum cea mai populară favoare a inteligenței artificiale. „Învățarea profundă este doar lucrurile potrivite.”

rezultatele ImageNet din 2012 i-au trimis pe cercetătorii de viziune computerizată să se amestece pentru a reproduce procesul. Matthew Zeiler, un NYU Ph.D student care a studiat sub Hinton, a aflat despre rezultatele ImageNet și, prin intermediul universității din Toronto connection, a obținut acces timpuriu la hârtie și cod. A început să lucreze cu Rob Fergus, un profesor NYU care și-a construit o carieră lucrând pe rețele neuronale. Cei doi au început să-și dezvolte depunerea pentru provocarea din 2013, iar Zeiler a părăsit în cele din urmă un stagiu Google cu câteva săptămâni mai devreme pentru a se concentra asupra depunerii.

Zeiler și Fergus au câștigat în acel an, iar până în 2014 toți concurenții cu scoruri mari vor fi rețele neuronale profunde, a spus Li.

„acest eveniment Imagenet 2012 a fost cu siguranță ceea ce a declanșat Marea explozie a AI astăzi”, a scris Zeiler într-un e-mail către Quartz. „Au existat cu siguranță câteva rezultate foarte promițătoare în recunoașterea vorbirii cu puțin timp înainte (din nou multe dintre ele declanșate de Toronto), dar nu au decolat public la fel de mult ca acea victorie ImageNet în 2012 și în anii următori.”

astăzi, mulți consideră ImageNet rezolvat—rata de eroare este incredibil de scăzută la aproximativ 2%. Dar asta e pentru clasificare, sau identificarea obiectului care este într-o imagine. Acest lucru nu înseamnă că un algoritm cunoaște proprietățile acelui obiect, de unde provine, pentru ce este folosit, cine l-a făcut sau cum interacționează cu împrejurimile sale. Pe scurt, nu înțelege de fapt ce vede. Acest lucru se reflectă în recunoașterea vorbirii și chiar în mare parte din procesarea limbajului natural. În timp ce AI-ul nostru de astăzi este fantastic în a ști ce sunt lucrurile, înțelegerea acestor obiecte în contextul lumii este următoarea. Modul în care cercetătorii AI vor ajunge acolo este încă neclar.

după ImageNet

în timp ce competiția se încheie, setul de date ImageNet—actualizat de—a lungul anilor și acum mai mult de 13 milioane de imagini puternice-va trăi.Berg spune că echipa a încercat să retragă un aspect al provocării în 2014, dar s-a confruntat cu împingeri din partea companiilor, inclusiv Google și Facebook, cărora le-a plăcut benchmark-ul centralizat. Industria ar putea indica un număr și ar spune: „Suntem atât de buni.”

Din 2010 au existat o serie de alte seturi de date de profil înalt introduse de Google, Microsoft și Institutul Canadian pentru Cercetări Avansate, deoarece învățarea profundă s-a dovedit a necesita date la fel de vaste ca cele furnizate de ImageNet.

seturile de date au devenit haute. Fondatorii de pornire și capitaliștii de risc vor scrie postări medii care vor striga cele mai recente seturi de date și modul în care algoritmii lor s-au descurcat pe ImageNet. Companii de Internet precum Google, Facebook și Amazon au început să-și creeze propriile seturi de date interne, pe baza milioanelor de imagini, clipuri vocale și fragmente de text introduse și partajate pe platformele lor în fiecare zi. Chiar și startup—urile încep să-și asambleze propriile seturi de date-TwentyBN, o companie AI axată pe înțelegerea video, a folosit Amazon Mechanical Turk pentru a colecta videoclipuri ale turcilor care efectuează gesturi simple de mână și acțiuni pe video. Compania a lansat două seturi de date gratuite pentru utilizare academică, fiecare cu peste 100.000 de videoclipuri.”există o mulțime de ciuperci și înflorire a tuturor tipurilor de seturi de date, de la videoclipuri la vorbire la jocuri la tot”, a spus Li.

uneori este de la sine înțeles că aceste seturi de date, care sunt intensive pentru a colecta, asambla și vet, sunt gratuite. A fi deschis și liber de utilizat este un principiu original al ImageNet care va supraviețui provocării și probabil chiar setului de date.în 2016, Google a lansat baza de date open Images, care conține 9 milioane de imagini în 6.000 de categorii. Google a actualizat recent setul de date pentru a include etichete pentru locul în care au fost localizate obiecte specifice în fiecare imagine, o bază a provocării ImageNet după 2014. DeepMind din Londra, cumpărat de Google și transformat în propria companie Alphabet, a lansat recent propriul set de date video despre oameni care efectuează o varietate de acțiuni.”un lucru pe care ImageNet l-a schimbat în domeniul IA este că oamenii și-au dat seama brusc că munca ingrată de a face un set de date a fost în centrul cercetării ia”, a spus Li. „Oamenii recunosc cu adevărat importanța setului de date în fața și centrul cercetării, la fel de mult ca și algoritmii.”

corecție (26 iulie): o versiune anterioară a acestui articol a scris greșit numele Olga Russakovsky.

Lasă un răspuns

Adresa ta de email nu va fi publicată.