I dati che hanno trasformato la ricerca AI–e forse il mondo

Nel 2006, Fei-Fei Li ha iniziato a ruminare su un’idea.

Li, un professore di informatica di recente conio presso l’Università dell’Illinois Urbana-Champaign, ha visto i suoi colleghi in tutto il mondo accademico e l’industria AI martellare via allo stesso concetto: un algoritmo migliore sarebbe prendere decisioni migliori, indipendentemente dai dati.

Ma ha realizzato una limitazione a questo approccio: il miglior algoritmo non funzionerebbe bene se i dati da cui ha imparato non riflettessero il mondo reale.

La sua soluzione: costruire un set di dati migliore.

“Abbiamo deciso che volevamo fare qualcosa che fosse completamente senza precedenti storicamente”, ha detto Li, riferendosi a un piccolo team che inizialmente avrebbe lavorato con lei. “Stiamo andando a mappare l’intero mondo degli oggetti.”

Il set di dati risultante è stato chiamato ImageNet. Originariamente pubblicato nel 2009 come poster di ricerca bloccato in un angolo di un centro conferenze di Miami Beach, il set di dati si è rapidamente evoluto in una competizione annuale per vedere quali algoritmi potrebbero identificare gli oggetti nelle immagini del set di dati con il più basso tasso di errore. Molti lo vedono come il catalizzatore per il boom dell’IA che il mondo sta vivendo oggi.

Gli alumni della sfida ImageNet possono essere trovati in ogni angolo del mondo tecnologico. I primi vincitori del concorso nel 2010 hanno assunto ruoli senior presso Baidu, Google e Huawei. Matthew Zeiler ha costruito Clarifai in base alla sua vittoria ImageNet 2013 ed è ora supportato da funding 40 milioni in finanziamenti VC. Nel 2014, Google ha diviso il titolo vincente con due ricercatori di Oxford, che sono stati rapidamente schioccati e aggiunti al suo laboratorio DeepMind recentemente acquisito.

Li stessa è ora chief scientist presso Google Cloud, professore a Stanford e direttore del laboratorio di intelligenza artificiale dell’università.

Oggi salirà sul palco del CVPR per parlare dei risultati annuali di ImageNet per l’ultima volta—il 2017 è stato l’ultimo anno della competizione. In soli sette anni, la precisione vincente nella classificazione degli oggetti nel set di dati è passata dal 71,8% al 97,3%, superando le capacità umane e dimostrando efficacemente che dati più grandi portano a decisioni migliori.

Anche al termine della competizione, la sua eredità sta già prendendo forma. Dal 2009, decine di nuovi set di dati di ricerca AI sono stati introdotti in sottocampi come la visione artificiale, l’elaborazione del linguaggio naturale e il riconoscimento vocale.

“Il cambio di paradigma del pensiero di ImageNet è che mentre molte persone prestano attenzione ai modelli, prestiamo attenzione ai dati”, ha detto Li. “I dati ridefiniranno il modo in cui pensiamo ai modelli.”

Che cos’è ImageNet?

Alla fine degli anni 1980, lo psicologo di Princeton George Miller ha iniziato un progetto chiamato WordNet, con l’obiettivo di costruire una struttura gerarchica per la lingua inglese. Sarebbe un po ‘ come un dizionario, ma le parole sarebbero mostrate in relazione ad altre parole piuttosto che in ordine alfabetico. Ad esempio, all’interno di WordNet, la parola “cane” sarebbe annidata sotto “cane”, che sarebbe annidata sotto “mammifero” e così via. Era un modo per organizzare il linguaggio che si basava sulla logica leggibile dalla macchina e accumulava più di 155.000 parole indicizzate.

ImageNet

La gerarchia ImageNet derivata da WordNet.

Li, nel suo primo lavoro di insegnamento presso UIUC, era stato alle prese con una delle tensioni principali nel machine learning: overfitting e generalizzazione. Quando un algoritmo può funzionare solo con dati che sono vicini a quelli visti prima, il modello è considerato overfitting ai dati; non può capire nulla di più generale oltre quegli esempi. D’altra parte, se un modello non raccoglie i modelli giusti tra i dati, è overgeneralizzante.

Trovare l’algoritmo perfetto sembrava distante, dice Li. Ha visto che i set di dati precedenti non catturavano quanto variabile potesse essere il mondo—anche solo identificare le immagini dei gatti è infinitamente complesso. Ma dando agli algoritmi più esempi di quanto complesso potrebbe essere il mondo, ha fatto matematicamente senso che potrebbero cavarsela meglio. Se hai visto solo cinque foto di gatti, avresti solo cinque angoli di ripresa, condizioni di illuminazione e forse varietà di gatti. Ma se hai visto 500 immagini di gatti, ci sono molti altri esempi da cui trarre punti in comune.

Li ha iniziato a leggere di come altri avevano tentato di catalogare una rappresentazione equa del mondo con i dati. Durante quella ricerca, ha trovato WordNet.

Dopo aver letto l’approccio di WordNet, Li ha incontrato la professoressa Christiane Fellbaum, una ricercatrice influente nel continuo lavoro su WordNet, durante una visita del 2006 a Princeton. Fellbaum ha avuto l’idea che WordNet potrebbe avere un’immagine associata a ciascuna delle parole, più come riferimento piuttosto che un set di dati di computer vision. Venendo da quell’incontro, Li immaginò qualcosa di più grande: un set di dati su larga scala con molti esempi di ogni parola.

Mesi dopo Li si è unita alla facoltà di Princeton, la sua alma mater, e ha iniziato il progetto ImageNet all’inizio del 2007. Ha iniziato a costruire una squadra per aiutare con la sfida, prima reclutando un collega professore, Kai Li, che poi ha convinto la studentessa di dottorato Jia Deng a trasferirsi nel laboratorio di Li. Deng ha contribuito a gestire il progetto ImageNet attraverso 2017.

“Era chiaro per me che questo era qualcosa che era molto diverso da quello che le altre persone stavano facendo, erano concentrati su al momento,” Deng ha detto. “Avevo un’idea chiara che questo avrebbe cambiato il modo in cui il gioco è stato giocato in vision research, ma non sapevo come sarebbe cambiato.”

Gli oggetti nel set di dati vanno da oggetti concreti, come panda o chiese, a idee astratte come l’amore.

La prima idea di Li era quella di assumere studenti universitari per $10 all’ora per trovare manualmente le immagini e aggiungerle al set di dati. Ma la matematica del back-of-the-napkin ha rapidamente fatto capire a Li che al ritmo degli studenti di raccogliere immagini ci sarebbero voluti 90 anni per completare.

Dopo che la task force undergrad è stata sciolta, Li e il team sono tornati al tavolo da disegno. E se gli algoritmi di computer-vision potessero scegliere le foto da Internet, e gli esseri umani avrebbero poi solo curare le immagini? Ma dopo alcuni mesi di armeggiare con gli algoritmi, il team è giunto alla conclusione che anche questa tecnica non era sostenibile: gli algoritmi futuri sarebbero stati limitati a giudicare solo quali algoritmi erano in grado di riconoscere al momento della compilazione del set di dati.

Gli studenti universitari richiedevano molto tempo, gli algoritmi erano imperfetti e il team non aveva soldi-Li ha detto che il progetto non è riuscito a vincere nessuna delle sovvenzioni federali che ha richiesto, ricevendo commenti sulle proposte che era vergognoso che Princeton avrebbe studiato questo argomento e che l’unica forza della proposta era che Li era una donna.

Una soluzione finalmente emerso in una conversazione corridoio possibilità con uno studente laureato che ha chiesto Li se aveva sentito parlare di Amazon Mechanical Turk, un servizio in cui orde di esseri umani seduti al computer di tutto il mondo avrebbe completato piccole attività online per pochi centesimi.

“Mi ha mostrato il sito web, e posso dirvi letteralmente quel giorno sapevo che il progetto ImageNet stava per accadere”, ha detto. “Improvvisamente abbiamo trovato uno strumento in grado di scalare, che non potevamo sognare assumendo studenti di Princeton.”

ImageNet

Il backend Amazon Mechanical Turk per la classificazione delle immagini.

Mechanical Turk ha portato la propria serie di ostacoli, con gran parte del lavoro messo in campo da due degli studenti di dottorato di Li, Jia Deng e Olga Russakovsky . Ad esempio, quanti Turkers avevano bisogno di guardare ogni immagine? Forse due persone potrebbero determinare che un gatto era un gatto, ma un’immagine di un husky in miniatura potrebbe richiedere 10 round di convalida. Cosa succede se alcuni Turkers hanno provato a giocare o imbrogliare il sistema? Il team di Li ha finito per creare una serie di modelli statistici per i comportamenti di Turker per garantire che il set di dati includesse solo immagini corrette.

Anche dopo aver trovato Mechanical Turk, il set di dati ha richiesto due anni e mezzo per essere completato. Consisteva di 3,2 milioni di immagini etichettate, separate in 5.247 categorie, ordinate in 12 sottoalberi come “mammifero”, “veicolo” e “mobili”.”

Nel 2009, Li e il suo team hanno pubblicato il documento ImageNet con il set di dati—a poca fanfara. Li ricorda che CVPR, una conferenza leader nella ricerca sulla visione artificiale, ha permesso solo un poster, invece di una presentazione orale, e il team ha distribuito penne a marchio ImageNet per attirare l’interesse. Le persone erano scettiche dell’idea di base che più dati li avrebbero aiutati a sviluppare algoritmi migliori.

“C’erano commenti come’ Se non riesci nemmeno a fare bene un oggetto, perché dovresti fare migliaia o decine di migliaia di oggetti?”Ha detto Deng.

Se i dati è il nuovo olio, era ancora ossa di dinosauro nel 2009.

La sfida di ImageNet

Più tardi nel 2009, in una conferenza di computer vision a Kyoto, un ricercatore di nome Alex Berg si è avvicinato a Li per suggerire di aggiungere un aspetto aggiuntivo al concorso in cui gli algoritmi avrebbero anche dovuto individuare dove si trovava l’oggetto raffigurato, non solo che esisteva. Li rispose: Vieni a lavorare con me.

Li, Berg e Deng hanno scritto insieme cinque articoli basati sul set di dati, esplorando come gli algoritmi avrebbero interpretato tali grandi quantità di dati. Il primo documento sarebbe diventato un punto di riferimento per come un algoritmo avrebbe reagito a migliaia di classi di immagini, il predecessore al concorso ImageNet.

“Ci siamo resi conto che per democratizzare questa idea dovevamo raggiungere ulteriormente”, ha detto Li, parlando del primo documento.

Li ha quindi affrontato un noto concorso di riconoscimento delle immagini in Europa chiamato PASCAL VOC, che ha accettato di collaborare e co-brandizzare la loro competizione con ImageNet. La sfida PASCAL era una competizione e un set di dati ben rispettati, ma rappresentativi del precedente metodo di pensiero. La competizione ha avuto solo 20 classi, rispetto alle 1.000 di ImageNet.

Mentre la competizione continuava nel 2011 e nel 2012, divenne presto un punto di riferimento per quanto bene gli algoritmi di classificazione delle immagini se la cavavano contro il set di dati visivi più complesso assemblato all’epoca.

ImageNet

Uno screenshot del ImageNet database online

Ma i ricercatori hanno anche cominciato a notare qualcosa di più di un semplice concorso—i loro algoritmi funzionano meglio quando sono addestrati a usare il ImageNet set di dati.

“La bella sorpresa è stata che le persone che hanno addestrato i loro modelli su ImageNet potrebbero usarli per avviare i modelli per altre attività di riconoscimento. Inizieresti con il modello ImageNet e poi lo metteresti a punto per un altro compito”, ha detto Berg. “Questa è stata una svolta sia per le reti neurali che solo per il riconoscimento in generale.”

Due anni dopo il primo concorso ImageNet, nel 2012, è successo qualcosa di ancora più grande. Infatti, se il boom dell’intelligenza artificiale che vediamo oggi potrebbe essere attribuito a un singolo evento, sarebbe l’annuncio dei risultati della sfida ImageNet 2012.

Geoffrey Hinton, Ilya Sutskever e Alex Krizhevsky dell’Università di Toronto hanno presentato un’architettura di rete neurale convoluzionale profonda chiamata AlexNet—ancora utilizzata nella ricerca fino ad oggi—che ha battuto il campo con un enorme margine di 10,8 punti percentuali, che era il 41% migliore del next best.

ImageNet non poteva venire in un momento migliore per Hinton e i suoi due studenti. Hinton aveva lavorato su reti neurali artificiali dal 1980, e mentre alcuni come Yann LeCun erano stati in grado di lavorare la tecnologia in lettori di controllo ATM attraverso l’influenza di Bell Labs, la ricerca di Hinton non aveva trovato quel tipo di casa. Alcuni anni prima, la ricerca del produttore di schede grafiche Nvidia aveva reso queste reti più veloci, ma non ancora migliori di altre tecniche.

Hinton e il suo team avevano dimostrato che le loro reti potevano eseguire compiti più piccoli su set di dati più piccoli, come il rilevamento della scrittura a mano, ma avevano bisogno di molti più dati per essere utili nel mondo reale.

“Era così chiaro che se fai un ottimo lavoro su ImageNet, potresti risolvere il riconoscimento delle immagini”, ha detto Sutskever.

Oggi, queste reti neurali convoluzionali sono ovunque-Facebook, dove LeCun è direttore della ricerca AI, li usa per taggare le tue foto; le auto a guida autonoma li usano per rilevare oggetti; in pratica tutto ciò che sa cosa c’è in un’immagine o in un video li usa. Possono dire cosa c’è in un’immagine trovando modelli tra pixel su livelli ascendenti di astrazione, usando migliaia a milioni di piccoli calcoli su ogni livello. Nuove immagini vengono messe attraverso il processo per abbinare i loro modelli ai modelli appresi. Hinton aveva spinto i suoi colleghi a prenderli sul serio per decenni, ma ora aveva la prova che potevano battere altre tecniche all’avanguardia.

“La cosa più sorprendente è che le persone sono state in grado di continuare a migliorarlo con l’apprendimento profondo”, ha detto Sutskever, riferendosi al metodo che stratifica le reti neurali per consentire l’elaborazione di modelli più complessi, ora il favore più popolare dell’intelligenza artificiale. “L’apprendimento profondo è la cosa giusta.”

I risultati ImageNet 2012 inviati ricercatori di computer vision rimescolando per replicare il processo. Matthew Zeiler, un Ph NYU.D studente che aveva studiato sotto Hinton, scoperto i risultati ImageNet e, attraverso la connessione Università di Toronto, ha ottenuto l’accesso anticipato alla carta e il codice. Ha iniziato a lavorare con Rob Fergus, un professore della NYU che aveva anche costruito una carriera lavorando su reti neurali. I due hanno iniziato a sviluppare la loro presentazione per la sfida 2013, e Zeiler alla fine ha lasciato uno stage di Google con settimane di anticipo per concentrarsi sulla presentazione.

Zeiler e Fergus hanno vinto quell’anno, e entro il 2014 tutti i concorrenti ad alto punteggio sarebbero reti neurali profonde, Li ha detto.

“Questo evento Imagenet 2012 è stato sicuramente ciò che ha innescato la grande esplosione dell’IA oggi”, ha scritto Zeiler in una e-mail a Quartz. “C’erano sicuramente alcuni risultati molto promettenti nel riconoscimento vocale poco prima di questo (di nuovo molti di loro scatenati da Toronto), ma non decollarono pubblicamente tanto quanto quella vittoria di ImageNet nel 2012 e negli anni successivi.”

Oggi, molti considerano ImageNet risolto—il tasso di errore è incredibilmente basso a circa il 2%. Ma questo è per la classificazione, o identificare quale oggetto è in un’immagine. Questo non significa che un algoritmo conosca le proprietà di quell’oggetto, da dove viene, a cosa serve, chi lo ha creato o come interagisce con l’ambiente circostante. In breve, in realtà non capisce cosa sta vedendo. Questo si riflette nel riconoscimento vocale e anche in gran parte dell’elaborazione del linguaggio naturale. Mentre la nostra IA oggi è fantastica nel sapere quali sono le cose, capire questi oggetti nel contesto del mondo è il prossimo. Come i ricercatori AI ci arriveranno non è ancora chiaro.

Dopo ImageNet

Mentre la competizione sta finendo, il set di dati ImageNet—aggiornato nel corso degli anni e ora più di 13 milioni di immagini forti—continuerà a vivere.

Berg dice che la squadra ha cercato di andare in pensione l’unico aspetto della sfida nel 2014, ma ha affrontato pushback da aziende tra cui Google e Facebook che è piaciuto il punto di riferimento centralizzato. L’industria potrebbe indicare un numero e dire: “Siamo così bravi.”

Dal 2010 ci sono stati una serie di altri set di dati di alto profilo introdotti da Google, Microsoft, e il Canadian Institute for Advanced Research, come deep learning ha dimostrato di richiedere dati così vasto come quello fornito ImageNet.

I set di dati sono diventati haute. Fondatori di startup e venture capitalist scriveranno post medi gridando gli ultimi set di dati, e come i loro algoritmi cavata su ImageNet. Aziende Internet come Google, Facebook, e Amazon hanno iniziato a creare i propri set di dati interni, sulla base dei milioni di immagini, clip vocali, e frammenti di testo inseriti e condivisi sulle loro piattaforme ogni giorno. Anche le startup stanno iniziando a assemblare i propri set di dati: TwentyBN, una società di intelligenza artificiale focalizzata sulla comprensione dei video, ha utilizzato Amazon Mechanical Turk per raccogliere video di Turkers che eseguono semplici gesti e azioni in video. La società ha rilasciato due set di dati gratuiti per uso accademico, ciascuno con più di 100.000 video.

“C’è un sacco di funghi e fioritura di tutti i tipi di set di dati, dai video al discorso ai giochi a tutto”, ha detto Li.

A volte è dato per scontato che questi set di dati, che sono intensivi da raccogliere, assemblare e controllare, siano gratuiti. Essere aperti e liberi da usare è un principio originale di ImageNet che sopravviverà alla sfida e probabilmente anche al set di dati.

Nel 2016, Google ha rilasciato il database Open Images, contenente 9 milioni di immagini in 6.000 categorie. Google ha recentemente aggiornato il set di dati per includere etichette per dove si trovavano oggetti specifici in ogni immagine, un punto fermo della sfida ImageNet dopo il 2014. DeepMind con sede a Londra, acquistato da Google e filata nella propria società Alphabet, ha recentemente rilasciato il proprio set di dati video di esseri umani che eseguono una serie di azioni.

“Una cosa che ImageNet ha cambiato nel campo dell’IA è che improvvisamente le persone si sono rese conto che il lavoro ingrato di creare un set di dati era al centro della ricerca sull’IA”, ha detto Li. “Le persone riconoscono davvero l’importanza che il set di dati è in primo piano nella ricerca tanto quanto gli algoritmi.”

Correzione (26 luglio): Una versione precedente di questo articolo ha scritto male il nome di Olga Russakovsky.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.