data som förvandlade AI-forskning-och möjligen världen

2006 började Fei-Fei Li idissla om en ide.

Li, en nyligen präglad datavetenskapsprofessor vid University of Illinois Urbana-Champaign, såg sina kollegor över hela akademin och AI-industrin hamra bort på samma koncept: en bättre algoritm skulle fatta bättre beslut, oavsett data.men hon insåg en begränsning till detta tillvägagångssätt – den bästa algoritmen skulle inte fungera bra om de data som den lärde sig av inte återspeglade den verkliga världen.

hennes lösning: bygg en bättre dataset.

”vi bestämde oss för att vi ville göra något som var helt historiskt oöverträffat”, sa Li och hänvisade till ett litet team som ursprungligen skulle arbeta med henne. ”Vi kommer att kartlägga hela världen av objekt.”

den resulterande datamängden kallades ImageNet. Ursprungligen publicerad 2009 som en forskningsaffisch som fastnat i hörnet av ett konferenscenter i Miami Beach, utvecklades datasetet snabbt till en årlig tävling för att se vilka algoritmer som kunde identifiera objekt i datasättets bilder med den lägsta felfrekvensen. Många ser det som katalysatorn för den ai-boom som världen upplever idag.

Alumner från ImageNet challenge finns i alla hörn av teknikvärlden. Tävlingens första vinnare 2010 fortsatte med att ta ledande roller på Baidu, Google och Huawei. Matthew Zeiler byggde Clarifai baserat på sin 2013 ImageNet-vinst och stöds nu av 40 miljoner dollar i VC-finansiering. I 2014 delade Google den vinnande titeln med två forskare från Oxford, som snabbt knäpptes upp och lades till i sitt nyligen förvärvade DeepMind lab.

Li själv är nu chefsforskare på Google Cloud, professor vid Stanford, och chef för universitetets AI-lab.

idag tar hon scenen på CVPR för att prata om Imagenets årliga resultat för sista gången—2017 var tävlingens sista år. På bara sju år steg den vinnande noggrannheten i att klassificera objekt i datasetet från 71.8% till 97.3%, överträffade mänskliga förmågor och effektivt bevisade att större data leder till bättre beslut.

även när tävlingen slutar tar dess arv redan form. Sedan 2009 har dussintals nya AI-forskningsdataset introducerats i delfält som datorsyn, naturlig språkbehandling och röstigenkänning.

”paradigmskiftet för ImageNet-tänkandet är att medan många människor uppmärksammar modeller, låt oss vara uppmärksamma på data”, sa Li. ”Data kommer att omdefiniera hur vi tänker på modeller.”

Vad är ImageNet?

i slutet av 1980-talet startade Princetonpsykologen George Miller ett projekt som heter WordNet, i syfte att bygga en hierarkisk struktur för det engelska språket. Det skulle vara ungefär som en ordbok, men ord skulle visas i förhållande till andra ord snarare än alfabetisk ordning. Till exempel inom WordNet skulle ordet ”hund” vara kapslad under ”hund”, som skulle vara kapslad under ”däggdjur” och så vidare. Det var ett sätt att organisera språk som förlitade sig på maskinläsbar logik och samlade mer än 155 000 indexerade ord.

ImageNet

ImageNet-hierarkin härledd från WordNet.

Li, i sitt första lärarjobb vid UIUC, hade kämpat med en av kärnspänningarna i maskininlärning: överfitting och generalisering. När en algoritm bara kan fungera med data som ligger nära vad den har sett tidigare, anses modellen vara överfitting till data; det kan inte förstå något mer allmänt förbi dessa exempel. Å andra sidan, om en modell inte hämtar rätt mönster mellan data, är det övergeneraliserande.

att hitta den perfekta algoritmen verkade avlägsen, säger Li. Hon såg att tidigare dataset inte fångade hur variabel världen kunde vara-även om det bara är att identifiera bilder av katter är oändligt komplex. Men genom att ge algoritmerna fler exempel på hur komplex världen kan vara, gjorde det matematisk mening att de kunde klara sig bättre. Om du bara såg fem bilder av katter, skulle du bara ha fem kameravinklar, ljusförhållanden och kanske olika katt. Men om du har sett 500 bilder av katter finns det många fler exempel att dra gemensamma drag från.

Li började läsa om hur andra hade försökt katalogisera en rättvis representation av världen med data. Under den sökningen hittade hon WordNet.efter att ha läst om Wordnets tillvägagångssätt träffade Li professor Christiane Fellbaum, en forskare som var inflytelserik i det fortsatta arbetet med WordNet, under ett besök i Princeton 2006. Fellbaum hade tanken att WordNet kunde ha en bild associerad med vart och ett av orden, mer som en referens snarare än en datorvisionsdataset. Kommer från det mötet, li föreställde sig något större – en storskalig dataset med många exempel på varje ord.

månader senare gick Li med i Princeton-fakulteten, hennes alma mater, och började på ImageNet-projektet i början av 2007. Hon började bygga ett team för att hjälpa till med utmaningen, först rekrytera en kollega professor, Kai Li, som sedan övertygade doktorand Jia Deng att överföra till Li labb. Deng har hjälpt till att driva ImageNet-projektet fram till 2017.

”det var klart för mig att detta var något som var väldigt annorlunda än vad andra människor gjorde, var fokuserade på vid den tiden”, sa Deng. ”Jag hade en klar uppfattning om att detta skulle förändra hur spelet spelades i vision research, men jag visste inte hur det skulle förändras.”

objekten i datauppsättningen skulle sträcka sig från konkreta föremål, som pandor eller kyrkor, till abstrakta tankar som kärlek.

Li: s första tanke var att anställa studenter för $10 en timme för att manuellt hitta bilder och lägga till dem i datasetet. Men back-of-the-servettmatematiken fick Li snabbt att inse att vid undergrads hastighet att samla bilder skulle det ta 90 år att slutföra.

Efter att undergrad task force upplöstes gick Li och laget tillbaka till ritbordet. Vad händer om datorvisionsalgoritmer kan välja bilderna från internet, och människor skulle då bara kurera bilderna? Men efter några månader av tinkering med algoritmer kom laget till slutsatsen att denna teknik inte heller var hållbar—framtida algoritmer skulle begränsas till att bara bedöma vilka algoritmer som kunde känna igen vid den tidpunkt då datasetet sammanställdes.

Undergrads var tidskrävande, algoritmer var bristfälliga och laget hade inte pengar—Li sa att projektet misslyckades med att vinna några av de federala bidrag hon ansökte om och fick kommentarer om förslag att det var skamligt Princeton skulle undersöka detta ämne och att den enda styrkan i förslaget var att Li var en kvinna.en lösning uppstod äntligen i en chance Hall-konversation med en doktorand som frågade Li om hon hade hört talas om Amazon Mechanical Turk, en tjänst där horder av människor som sitter vid datorer runt om i världen skulle slutföra små onlineuppgifter för pennies.

” Han visade mig webbplatsen, och jag kan säga dig bokstavligen den dagen jag visste att ImageNet-projektet skulle hända,” sa hon. ”Plötsligt hittade vi ett verktyg som kunde skala, som vi omöjligt kunde drömma om genom att anställa Princeton undergrads.”

ImageNet
Amazonas mekaniska Turk-backend för klassificering av bilder.

Mekanisk Turk förde sin egen massa hinder, med mycket av arbetet som ställdes in av två av Li: s doktorander, Jia Deng och Olga Russakovsky . Till exempel, hur många Turkers behövde titta på varje bild? Kanske kunde två personer bestämma att en katt var en katt, men en bild av en miniatyr husky kan kräva 10 valideringsrundor. Vad händer om vissa Turkers försökte spela eller fuska systemet? Li: s team slutade med att skapa ett antal statistiska modeller för Turkers beteenden för att säkerställa att datasetet bara inkluderade korrekta bilder.

även efter att ha hittat Mekanisk Turk tog datasetet två och ett halvt år att slutföra. Den bestod av 3,2 miljoner märkta bilder, uppdelade i 5 247 kategorier, sorterade i 12 underträd som ”däggdjur”, ”fordon” och ”möbler.”

2009 publicerade Li och hennes team ImageNet—papperet med datasetet-till liten fanfare. Li påminner om att CVPR, en ledande konferens inom datorvisionsforskning, endast tillät en affisch istället för en muntlig presentation, och laget delade ut ImageNet-märkta pennor för att trumma upp intresse. Människor var skeptiska till grundtanken att mer data skulle hjälpa dem att utveckla bättre algoritmer.

”det fanns kommentarer som” om du inte ens kan göra ett objekt bra, varför skulle du göra tusentals eller tiotusentals objekt?”Deng sa.

om data är den nya oljan var det fortfarande dinosaurieben 2009.

ImageNet Challenge

senare i 2009, vid en datorvisionskonferens i Kyoto, kontaktade en forskare vid namn Alex Berg Li för att föreslå att lägga till en ytterligare aspekt till tävlingen där algoritmer också skulle behöva lokalisera var det avbildade objektet var, inte bara att det fanns. Li motverkade: kom och jobba med mig.

Li, Berg och Deng författade fem artiklar tillsammans baserat på datasetet och undersökte hur algoritmer skulle tolka så stora mängder data. Det första papperet skulle bli ett riktmärke för hur en algoritm skulle reagera på tusentals klasser av bilder, föregångaren till ImageNet-tävlingen.

”Vi insåg att demokratisera den här tanken vi behövde nå ut längre”, sa Li och talade på den första tidningen.

Li närmade sig sedan en välkänd bildigenkänningstävling i Europa som heter PASCAL VOC, som gick med på att samarbeta och sammärka sin tävling med ImageNet. PASCAL challenge var en väl respekterad tävling och dataset, men representativ för den tidigare tankesättet. Tävlingen hade bara 20 klasser, jämfört med ImageNet 1000.

när tävlingen fortsatte 2011 och in i 2012 blev det snart ett riktmärke för hur bra bildklassificeringsalgoritmer klarade sig mot det mest komplexa visuella dataset som monterades vid den tiden.

ImageNet
en skärmdump av ImageNet—databasen online

men forskare började också märka något mer på gång än bara en tävling-deras algoritmer fungerade bättre när de tränade med ImageNet-datasetet.

” den trevliga överraskningen var att personer som tränade sina modeller på ImageNet kunde använda dem för att starta modeller för andra igenkänningsuppgifter. Du skulle börja med ImageNet-modellen och sedan finjustera den för en annan uppgift,” sa Berg. ”Det var ett genombrott både för neurala nät och bara för erkännande i allmänhet.”

två år efter den första ImageNet-tävlingen, 2012, hände något ännu större. Om den artificiella intelligensbom som vi ser idag kan tillskrivas en enda händelse, skulle det faktiskt vara tillkännagivandet av ImageNet challenge-resultaten 2012.

Geoffrey Hinton, Ilya Sutskever och Alex Krizhevsky från University of Toronto lämnade in en djup konvolutionell neuralnätverksarkitektur som heter AlexNet—som fortfarande används i forskning till denna dag—som slog fältet med en jättestor 10.8 procentenhetsmarginal, vilket var 41% bättre än det näst bästa.

ImageNet kunde inte komma på en bättre tid för Hinton och hans två elever. Hinton hade arbetat med artificiella neurala nätverk sedan 1980-talet, och medan vissa som Yann LeCun hade kunnat arbeta med tekniken i ATM-kontrollläsare genom påverkan av Bell Labs, hade Hintons forskning inte hittat den typen av hem. Några år tidigare hade forskning från grafikkortstillverkaren Nvidia gjort dessa nätverk snabbare, men fortfarande inte bättre än andra tekniker.Hinton och hans team hade visat att deras nätverk kunde utföra mindre uppgifter på mindre dataset, som handskriftsdetektering, men de behövde mycket mer data för att vara användbara i den verkliga världen.

” det var så tydligt att om du gör ett riktigt bra på ImageNet, kan du lösa bildigenkänning,” sa Sutskever.Facebook, där LeCun är chef för AI-forskning, använder dem för att tagga dina foton; självkörande bilar använder dem för att upptäcka objekt; i princip allt som vet vad som finns i en bild eller video använder dem. De kan berätta vad som finns i en bild genom att hitta mönster mellan pixlar på stigande abstraktionsnivåer, med tusentals till miljoner små beräkningar på varje nivå. Nya bilder sätts genom processen för att matcha sina mönster till lärda mönster. Hinton hade drivit sina kollegor att ta dem på allvar i årtionden, men nu hade han bevis på att de kunde slå andra toppmoderna tekniker.

”vad som är mer fantastiskt är att människor kunde fortsätta förbättra det med djupt lärande”, sa Sutskever och hänvisade till metoden som lagrar neurala nätverk för att tillåta mer komplexa mönster att behandlas, nu den mest populära favören av artificiell intelligens. ”Djupt lärande är precis rätt saker.”

2012 ImageNet-resultaten skickade datorvisionsforskare som krypterade för att replikera processen. Matthew Zeiler, en NYU Ph.D student som hade studerat under Hinton, fick reda på ImageNet-resultaten och, genom University of Toronto connection, fick tidig tillgång till papperet och koden. Han började arbeta med Rob Fergus, en NYU-professor som också hade byggt en karriär som arbetar med neurala nätverk. De två började utveckla sin inlämning för 2013-utmaningen, och Zeiler lämnade så småningom en Google-praktikveckor tidigt för att fokusera på inlämningen.

Zeiler och Fergus vann det året, och år 2014 skulle alla höga konkurrenter vara djupa neurala nätverk, sade Li.

”denna Imagenet 2012-händelse var definitivt det som utlöste den stora explosionen av AI idag”, skrev Zeiler i ett mail till Quartz. ”Det fanns definitivt några mycket lovande resultat i taligenkänning strax före detta (igen många av dem utlöstes av Toronto), men de tog inte av offentligt så mycket som ImageNet win gjorde 2012 och de följande åren.”

idag anser många att ImageNet är löst-felfrekvensen är otroligt låg på cirka 2%. Men det är för klassificering eller identifiering av vilket objekt som finns i en bild. Det betyder inte att en algoritm känner till egenskaperna hos det objektet, var det kommer ifrån, vad det används för, vem som gjorde det eller hur det interagerar med omgivningen. Kort sagt, det förstår faktiskt inte vad det ser. Detta speglas i taligenkänning, och även i mycket av naturlig språkbehandling. Medan vår AI idag är fantastisk på att veta vad saker är, är det nästa att förstå dessa objekt i världens sammanhang. Hur AI-forskare kommer dit är fortfarande oklart.

efter ImageNet

medan tävlingen slutar, kommer ImageNet—datasetet—uppdaterat genom åren och nu mer än 13 miljoner bilder starka-att leva vidare.

Berg säger att laget försökte gå i pension den ena aspekten av utmaningen 2014, men mötte pushback från företag som Google och Facebook som gillade det centraliserade riktmärket. Branschen kan peka på ett nummer och säga, ”Vi är så bra.”

sedan 2010 har ett antal andra högprofilerade dataset introducerats av Google, Microsoft och Canadian Institute for Advanced Research, eftersom deep learning har visat sig kräva data så stora som vad ImageNet tillhandahöll.

datamängder har blivit haute. Startup grundare och riskkapitalister kommer att skriva Medium inlägg skrika ut de senaste datamängder, och hur deras algoritmer klarat sig på ImageNet. Internetföretag som Google, Facebook och Amazon har börjat skapa sina egna interna dataset, baserat på de miljoner bilder, röstklipp och textutdrag som skrivs in och delas på sina plattformar varje dag. Även startups börjar montera sina egna dataset—TwentyBN, ett AI-företag fokuserat på videoförståelse, använde Amazon Mechanical Turk för att samla in videor av Turkers som utför enkla handgester och åtgärder på video. Företaget har släppt två datamängder gratis för akademisk användning, var och en med mer än 100 000 videor.

”det finns mycket svamp och blomning av alla typer av dataset, från videor till tal till spel till allt”, sa Li.

det är ibland självklart att dessa dataset, som är intensiva att samla in, montera och vet, är gratis. Att vara öppen och fri att använda är en original grundsats av ImageNet som kommer att överleva utmaningen och sannolikt även dataset.

i 2016 släppte Google Open Images-databasen, som innehåller 9 miljoner bilder i 6000 kategorier. Google uppdaterade nyligen datauppsättningen för att inkludera etiketter för var specifika objekt fanns i varje bild, en häftklammer i ImageNet challenge efter 2014. Londonbaserade DeepMind, köpt av Google och spunnet till sitt eget Alfabetföretag, släppte nyligen sin egen videodata av människor som utför en mängd olika åtgärder.

”en sak ImageNet förändrats inom AI är plötsligt människor insåg otacksamma arbetet med att göra en dataset var kärnan i AI forskning,” Li sade. ”Folk inser verkligen vikten av dataset är front och center i forskningen så mycket som algoritmer.”

korrigering (26 juli): en tidigare version av denna artikel felstavade namnet Olga Russakovsky.

Lämna ett svar

Din e-postadress kommer inte publiceras.