I 2006 begynte Fei-Fei Li å gruble på en ide.Li, en nyutviklet datavitenskapsprofessor ved University Of Illinois Urbana-Champaign, så sine kolleger over akademia og AI-industrien hamre bort på samme konsept: en bedre algoritme ville ta bedre beslutninger, uavhengig av dataene.Men hun innså en begrensning til denne tilnærmingen—den beste algoritmen ville ikke fungere bra hvis dataene den lærte av ikke reflekterte den virkelige verden.
hennes løsning: bygg et bedre datasett.»Vi bestemte oss for at vi ønsket å gjøre noe som var helt historisk uten sidestykke,» Sa Li og refererte til et lite lag som først ville jobbe med henne. «Vi skal kartlegge hele verden av objekter.»
det resulterende datasettet ble kalt ImageNet. Opprinnelig publisert i 2009 som en forskningsplakat fast i hjørnet av Et Miami Beach konferansesenter, utviklet datasettet seg raskt til en årlig konkurranse for å se hvilke algoritmer som kunne identifisere objekter i datasettets bilder med lavest feilrate. Mange ser det som katalysator for AI boom verden opplever i dag.
Alumni Av ImageNet challenge kan bli funnet i hvert hjørne av tech verden. Konkurransens første vinnere i 2010 fortsatte å ta seniorroller hos Baidu, Google og Huawei. Matthew Zeiler bygget Clarifai basert på Sin 2013 ImageNet-seier, og er nå støttet av $ 40 millioner i VC-finansiering. I 2014 delte Google den vinnende tittelen med to forskere Fra Oxford, som raskt ble snappet opp og lagt til Sin Nylig kjøpte DeepMind lab.Li selv er nå sjefforsker Ved Google Cloud, professor Ved Stanford og direktør for universitetets AI lab.
I Dag tar hun scenen PÅ CVPR for å snakke om Imagenets årlige resultater for siste gang-2017 var det siste året av konkurransen. På bare syv år økte den vinnende nøyaktigheten i å klassifisere objekter i datasettet fra 71, 8% til 97, 3%, som overgikk menneskelige evner og effektivt viste at større data fører til bedre beslutninger.
selv når konkurransen avsluttes, tar arven allerede form. Siden 2009 har dusinvis av NYE AI-forskningsdatasett blitt introdusert i underfelt som datasyn, naturlig språkbehandling og stemmegjenkjenning.»paradigmeskiftet I ImageNet-tenkningen er at mens mange mennesker tar hensyn til modeller, la oss ta hensyn til data,» Sa Li. «Data vil omdefinere hvordan vi tenker på modeller.»
Hva Er ImageNet?på slutten Av 1980-tallet startet Princeton-psykologen George Miller Et Prosjekt Kalt WordNet, med sikte på å bygge en hierarkisk struktur for det engelske språket. Det ville være som en ordbok, men ord ville bli vist i forhold til andre ord i stedet for alfabetisk rekkefølge. For Eksempel, i WordNet, ville ordet «hund» bli nestet under «hund», som ville bli nestet under «pattedyr» og så videre. Det var en måte å organisere språk som stod på maskinlesbar logikk, og samlet mer enn 155 000 indekserte ord.
Li, i sin første lærerjobb VED UIUC, hadde grepet med en av kjernespenningene i maskinlæring:overfitting og generalisering. Når en algoritme bare kan fungere med data som er nær det det er sett før, anses modellen for overfitting til dataene; det kan ikke forstå noe mer generelt forbi disse eksemplene. På den annen side, hvis en modell ikke plukker opp de riktige mønstrene mellom dataene, overgeneraliserer den.
Å Finne den perfekte algoritmen virket fjernt, Sier Li. Hun så at tidligere datasett ikke fanget hvor variabel verden kunne være-selv bare å identifisere bilder av katter er uendelig komplisert. Men ved å gi algoritmene flere eksempler på hvor kompleks verden kan være, gjorde det matematisk forstand at de kunne klare seg bedre. Hvis du bare så fem bilder av katter, ville du bare ha fem kameravinkler, lysforhold og kanskje forskjellige katter. Men hvis du har sett 500 bilder av katter, er det mange flere eksempler å tegne fellestrekk fra.
Li begynte å lese om hvordan andre hadde forsøkt å katalogisere en rettferdig representasjon av verden med data. Under dette søket fant Hun WordNet.Etter å ha lest Om Wordnets tilnærming møtte Li professor Christiane Fellbaum, en innflytelsesrik forsker i Det videre Arbeidet Med WordNet, under Et besøk I Princeton i 2006. Fellbaum hadde ideen om At WordNet kunne ha et bilde knyttet til hvert av ordene, mer som en referanse i stedet for et datasyn datasett. Fra det møtet forestilte Li seg noe større-et stort datasett med mange eksempler på hvert ord.Måneder Senere begynte Li Ved Princeton-fakultetet, hennes alma mater, og begynte På ImageNet-prosjektet tidlig i 2007. Hun begynte å bygge et team for å hjelpe med utfordringen, først rekruttere en stipendiat professor, Kai Li, som deretter overbeviste Ph. d student Jia Deng å overføre Til Li lab. Deng har bidratt til å drive ImageNet-prosjektet gjennom 2017.»Det var klart for Meg at dette var noe som var veldig forskjellig fra hva andre mennesker gjorde, var fokusert på på den tiden,» Sa Deng. «Jeg hadde en klar ide om at dette ville endre hvordan spillet ble spilt i visjonsforskning, men jeg visste ikke hvordan det ville forandre seg.»objektene i datasettet vil variere fra konkrete objekter, som pandaer eller kirker, til abstrakte ideer som kjærlighet.Lis første ide var å ansette studenter for $ 10 i timen for å manuelt finne bilder og legge dem til datasettet. Men back-of-the-serviett matte raskt gjort Li innse at på undergrads ‘ rate av samle bilder det ville ta 90 år å fullføre.
Etter at undergrad task force ble oppløst, Gikk Li og teamet tilbake til tegnebrettet. Hva om datasynalgoritmer kunne velge bildene fra internett, og mennesker ville da bare kurere bildene? Men etter noen måneder med tinkering med algoritmer kom teamet til den konklusjonen at denne teknikken heller ikke var bærekraftig—fremtidige algoritmer ville bli begrenset til bare å dømme hvilke algoritmer som var i stand til å gjenkjenne da datasettet ble samlet.Undergrads var tidkrevende, algoritmer var feil, Og laget hadde ikke penger-Li sa at prosjektet ikke klarte å vinne noen av de føderale tilskuddene hun søkte om, mottok kommentarer til forslag om at Det var skammelig Princeton ville undersøke dette emnet, og at den eneste styrken av forslaget var At Li var en kvinne.En løsning endelig dukket opp i en sjanse gangen samtale Med en graduate student som spurte Li om Hun hadde hørt Om Amazon Mechanical Turk, en tjeneste der horder av mennesker sitter på datamaskiner rundt om i verden ville fullføre små online oppgaver for pennies.»Han viste meg nettstedet, og jeg kan fortelle deg bokstavelig den dagen jeg visste At ImageNet-prosjektet skulle skje,» sa hun. «Plutselig fant vi et verktøy som kunne skalere, som vi ikke kunne drømme om ved å ansette Princeton undergrads.»
Mechanical Turk brakte sin egen slew av hindringer, med mye av arbeidet felt av To Av Lis Ph. d studenter, Jia Deng og Olga Russakovsky . For eksempel, hvor Mange Turkers trengte å se på hvert bilde? Kanskje to personer kunne bestemme at en katt var en katt, men et bilde av en miniatyr husky kan kreve 10 runder med validering. Hva om Noen Turkers prøvde å spille eller jukse systemet? Lis team endte opp med å lage en serie statistiske modeller for Turker ‘ s oppførsel for å sikre at datasettet bare inkluderte riktige bilder.
selv etter å ha funnet Mechanical Turk, tok datasettet to og et halvt år å fullføre. Den besto av 3,2 millioner merkede bilder, delt inn i 5 247 kategorier, sortert i 12 undertrær som «mammal», «vehicle» og » furniture.»
I 2009 publiserte Li Og hennes team ImageNet-papiret med datasettet – til liten fanfare. Li husker AT CVPR, en ledende konferanse innen datasynsforskning, bare tillot en plakat, i stedet for en muntlig presentasjon, og teamet delte Ut ImageNet-merkede penner for å tromme opp interessen. Folk var skeptiske til den grunnleggende ideen om at flere data ville hjelpe dem med å utvikle bedre algoritmer.»det var kommentarer som» hvis du ikke engang kan gjøre ett objekt godt, hvorfor ville du gjøre tusenvis eller titusenvis av objekter?»Sa Deng.Hvis data er den nye oljen, var det fortsatt dinosaurbein i 2009.
ImageNet Challenge
Senere I 2009, på en datasynskonferanse I Kyoto, nærmet en forsker Ved Navn Alex Berg Li For å foreslå at han skulle legge til et ekstra aspekt til konkurransen der algoritmer også måtte finne hvor det avbildede objektet var, ikke bare at Det eksisterte. Li motvirket: Kom og jobb med meg.Li, Berg og Deng skrev fem artikler sammen basert på datasettet, og undersøkte hvordan algoritmer ville tolke slike store mengder data. Det første papiret ville bli et mål for hvordan en algoritme ville reagere på tusenvis av klasser av bilder, forgjengeren til ImageNet-konkurransen.»Vi innså for å demokratisere denne ideen vi trengte for å nå ut videre,» Sa Li og snakket på det første papiret.
Li nærmet seg deretter EN kjent bildegjenkjenningskonkurranse I Europa, KALT PASCAL VOC, som ble enige om å samarbeide og co-merke sin konkurranse med ImageNet. PASCAL challenge var en respektert konkurranse og datasett, men representativ for den tidligere tenkemåten. Konkurransen hadde bare 20 klasser, sammenlignet Med Imagenets 1000.etter hvert som konkurransen fortsatte i 2011 og inn i 2012, ble den snart en målestokk for hvor godt bildeklassifiseringsalgoritmer gikk mot det mest komplekse visuelle datasettet som ble samlet på den tiden.
en forskere begynte også å legge merke til noe mer som skjer enn bare en konkurranse—deres algoritmer fungerte bedre da de trente ved hjelp av imagenet-datasettet.»den hyggelige overraskelsen var at folk som trente sine modeller På ImageNet, kunne bruke dem til å jumpstart modeller for andre gjenkjenningsoppgaver. Du starter Med ImageNet-modellen, og så finjusterer du Den til en annen oppgave», sier Berg. «Det var et gjennombrudd både for nevrale nett og bare for anerkjennelse generelt.»
To år Etter Den første ImageNet-konkurransen, i 2012, skjedde det noe enda større. Faktisk, hvis den kunstige intelligensboomen vi ser i dag, kunne tilskrives en enkelt hendelse, ville det være kunngjøringen av 2012 ImageNet challenge-resultatene.Geoffrey Hinton, Ilya Sutskever og Alex Krizhevsky fra Universitetet i Toronto sendte inn en dyp innviklet nevrale nettverksarkitektur Kalt AlexNet-fortsatt brukt i forskning til denne dagen-som slo feltet med en enorm 10,8 prosentpoengmargin, som var 41% bedre enn den nest beste.
ImageNet kunne ikke kommet på et bedre tidspunkt For Hinton og hans to studenter. Hinton hadde jobbet med kunstige nevrale nettverk siden 1980-tallet, og mens Noen som Yann LeCun hadde vært i stand til å jobbe teknologien til ATM-sjekklesere gjennom Påvirkning Av Bell Labs, Hadde Hintons forskning ikke funnet den slags hjem. Noen år tidligere hadde forskning fra grafikkortprodusenten Nvidia gjort disse nettverkene raskere, men fortsatt ikke bedre enn andre teknikker.Hinton og hans team hadde vist at deres nettverk kunne utføre mindre oppgaver på mindre datasett, som håndskriftdeteksjon, men de trengte mye mer data for å være nyttige i den virkelige verden.»det var så klart at hvis Du gjør en veldig god På ImageNet, kan du løse bildegjenkjenning,» Sa Sutskever.I Dag er Disse innviklede nevrale nettverkene overalt—Facebook, Hvor LeCun er direktør FOR AI-forskning, bruker dem til å merke bildene dine; selvkjørende biler bruker dem til å oppdage objekter; i utgangspunktet bruker alt som vet hva som er i et bilde eller en video dem. De kan fortelle hva som er i et bilde ved å finne mønstre mellom piksler på stigende nivåer av abstraksjon, ved hjelp av tusenvis til millioner av små beregninger på hvert nivå. Nye bilder er satt gjennom prosessen for å matche sine mønstre til lært mønstre. Hinton hadde presset sine kolleger til å ta dem seriøst i flere tiår, men nå hadde han bevis på at de kunne slå andre toppmoderne teknikker.»Hva er mer utrolig er at folk var i stand til å fortsette å forbedre det med dyp læring,» Sa Sutskever, og refererte til metoden som lag nevrale nettverk for å tillate mer komplekse mønstre å bli behandlet, nå den mest populære favør av kunstig intelligens. «Dyp læring er bare de riktige tingene.»
2012 ImageNet-resultatene sendte datasynforskere scrambling for å replikere prosessen. Matthew Zeiler, EN NYU Ph.D student som hadde studert Under Hinton, fant ut om ImageNet resultater og, Gjennom University Of Toronto connection, fikk tidlig tilgang til papir og kode. Han begynte å jobbe Med Rob Fergus, en nyu professor som også hadde bygget en karriere som jobber med nevrale nettverk. De to begynte å utvikle sin innsending til 2013-utfordringen, Og Zeiler forlot til Slutt En Google-internship uker tidlig for å fokusere på innsendingen.Zeiler og Fergus vant det året, og i 2014 ville alle de høye scoring-konkurrentene være dype nevrale nettverk, Sa Li.»Dette Imagenet 2012-arrangementet var definitivt det som utløste DEN store eksplosjonen AV AI i dag,» skrev Zeiler i En epost til Quartz. «Det var definitivt noen svært lovende resultater i talegjenkjenning kort tid før dette (igjen mange av Dem utløst Av Toronto), men de tok ikke av offentlig så mye som Det ImageNet win gjorde i 2012 og de følgende årene.»
I Dag anser Mange ImageNet løst-feilfrekvensen er utrolig lav på rundt 2%. Men det er for klassifisering, eller identifisere hvilket objekt som er i et bilde. Dette betyr ikke at en algoritme vet egenskapene til det objektet, hvor det kommer fra, hva det brukes til, hvem som gjorde det, eller hvordan det samhandler med omgivelsene. Kort sagt, det forstår egentlig ikke hva det ser. Dette gjenspeiles i talegjenkjenning, og selv i mye av naturlig språkbehandling. MENS VÅR AI i dag er fantastisk å vite hva ting er, er det neste å forstå disse objektene i sammenheng med verden. Hvordan AI-forskere vil komme dit er fortsatt uklart.
Etter ImageNet
mens konkurransen avsluttes, Vil ImageNet—datasettet—oppdatert gjennom årene og nå mer enn 13 millioner bilder sterke-leve videre.Berg sier at teamet forsøkte å trekke seg tilbake fra det ene aspektet av utfordringen i 2014, men møtte pushback fra selskaper som Google og Facebook som likte den sentraliserte referansen. Bransjen kan peke på ett nummer og si: «Vi er så gode.»Siden 2010 har Det vært en rekke andre høyprofilerte datasett introdusert Av Google, Microsoft og Canadian Institute For Advanced Research, da dyp læring har vist seg å kreve data så store som Hva ImageNet ga.
Datasett har blitt haute. Oppstart grunnleggere og venturekapitalister vil skrive Middels innlegg rope ut de nyeste datasettene, og hvordan deres algoritmer gikk På ImageNet. Internett-selskaper Som Google, Facebook og Amazon har begynt å lage sine egne interne datasett, basert på millioner av bilder, taleklipp og tekstutdrag som er angitt og delt på plattformene hver dag. Selv oppstart begynner å sette sammen sine egne datasett—TwentyBN, ET AI-selskap med fokus på videoforståelse, brukte Amazon Mechanical Turk til å samle videoer Av Turkers som utfører enkle håndbevegelser og handlinger på video. Selskapet har gitt ut to datasett gratis for akademisk bruk, hver med mer enn 100.000 videoer.»det er mye sopp og blomstring av alle slags datasett, fra videoer til tale til spill til alt,» Sa Li.Det er noen ganger tatt for gitt at disse datasettene, som er intensive å samle inn, montere og vet, er gratis. Å være åpen og fri til å bruke er en original tenet Av ImageNet som vil overleve utfordringen og sannsynligvis til og med datasettet.I 2016 lanserte Google Open Images-databasen, som inneholder 9 millioner bilder i 6000 kategorier. Google oppdaterte nylig datasettet for å inkludere etiketter for hvor bestemte objekter ble plassert i hvert bilde, en stift av ImageNet challenge etter 2014. London-baserte DeepMind, kjøpt Av Google og spunnet inn i sitt eget Alfabet-selskap, har nylig gitt ut sitt eget videodatasett av mennesker som utfører en rekke handlinger.»En Ting ImageNet endret INNEN AI er plutselig folk innså at det utakknemlige arbeidet med å lage et datasett var kjernen I AI-forskning,» Sa Li. «Folk anerkjenner virkelig betydningen datasettet er foran og senter i forskningen så mye som algoritmer.»
Korreksjon (26. juli): En tidligere versjon av denne artikkelen feilstavet Navnet Olga Russakovsky.