de data, der transformerede AI-forskning-og muligvis verden

i 2006 begyndte Fei-Fei Li at ruminere på en ide.Li, en nyligt præget datalogiprofessor ved University of Illinois Urbana-Champaign, så sine kolleger på tværs af den akademiske verden og AI-industrien hamre væk ved det samme koncept: en bedre algoritme ville træffe bedre beslutninger, uanset dataene.

men hun indså en begrænsning af denne tilgang—den bedste algoritme ville ikke fungere godt, hvis de data, den lærte af, ikke afspejlede den virkelige verden.

hendes løsning: Byg et bedre datasæt.

“Vi besluttede, at vi ville gøre noget, der var helt Historisk uden fortilfælde,” sagde Li og henviste til et lille team, der oprindeligt ville arbejde med hende. “Vi vil kortlægge hele verden af objekter.”

det resulterende datasæt blev kaldt ImageNet. Oprindeligt udgivet i 2009 som en forskningsplakat, der sidder fast i hjørnet af et Miami Beach-konferencecenter, udviklede datasættet sig hurtigt til en årlig konkurrence for at se, hvilke algoritmer der kunne identificere objekter i datasætets billeder med den laveste fejlrate. Mange ser det som katalysatoren for den AI-boom, verden oplever i dag.

Alumni af ImageNet challenge kan findes i hvert hjørne af tech verden. Konkurrencens første vindere i 2010 fortsatte med at tage seniorroller hos Baidu, Google og Huavei. Clarifai er baseret på sin 2013 ImageNet-sejr, og er nu støttet af $40 millioner i VC-finansiering. I 2014 delte Google vindertitlen med to forskere, som hurtigt blev snappet op og tilføjet til det nyligt erhvervede DeepMind lab.Li selv er nu chefforsker ved Google Cloud, professor ved Stanford og direktør for universitetets AI-laboratorium.

i dag tager hun scenen på CVPR for at tale om Imagenets årsresultater for sidste gang—2017 var det sidste år af konkurrencen. På bare syv år steg den vindende nøjagtighed ved klassificering af objekter i datasættet fra 71,8% til 97,3%, hvilket overgik menneskelige evner og effektivt beviste, at større data fører til bedre beslutninger.

selv når konkurrencen slutter, tager dens arv allerede form. Siden 2009 er snesevis af nye AI-forskningsdatasæt blevet introduceret i underfelter som computersyn, naturlig sprogbehandling og stemmegenkendelse.”paradigmeskiftet i ImageNet-tankegangen er, at mens mange mennesker er opmærksomme på modeller, lad os være opmærksomme på data,” sagde Li. “Data vil omdefinere, hvordan vi tænker på modeller.”

Hvad er ImageNet?

i slutningen af 1980 ‘ erne startede Princeton-psykolog George Miller et projekt kaldet ordnet med det formål at opbygge en hierarkisk struktur for det engelske sprog. Det ville være ligesom en ordbog, men ord ville blive vist i forhold til andre ord snarere end alfabetisk rækkefølge. For eksempel inden for ordnet ville ordet “hund” være indlejret under “hund”, som ville være indlejret under “pattedyr” og så videre. Det var en måde at organisere sprog på, der var afhængig af maskinlæsbar logik og samlet mere end 155.000 indekserede ord.

ImageNet

ImageNet hierarki afledt af ordnet.

Li havde i sit første undervisningsjob på UIUC kæmpet med en af kernespændingerne i maskinindlæring: overfitting og generalisering. Når en algoritme kun kan arbejde med data, der er tæt på det, den er set før, betragtes modellen som overmonteret til dataene; det kan ikke forstå noget mere generelt forbi disse eksempler. På den anden side, hvis en model ikke opfanger de rigtige mønstre mellem dataene, er den overgeneraliserende.

at finde den perfekte algoritme syntes fjern, siger Li. Hun så, at tidligere datasæt ikke fangede, hvor variabel verden kunne være—selv bare at identificere billeder af katte er uendeligt komplekst. Men ved at give algoritmerne flere eksempler på, hvor kompleks verden kunne være, det gav matematisk mening, at de kunne klare sig bedre. Hvis du kun så fem billeder af katte, ville du kun have fem kameravinkler, lysforhold og måske forskellige katte. Men hvis du har set 500 billeder af katte, er der mange flere eksempler at tegne fælles fra.

Li begyndte at læse om, hvordan andre havde forsøgt at katalogisere en retfærdig repræsentation af verden med data. Under denne søgning, hun fandt ordnet.efter at have læst om hans tilgang, Li mødtes med professor Christiane Fellbaum, en forsker indflydelsesrig i det fortsatte arbejde på ordnet, under et besøg i Princeton i 2006. Fellbaum havde ideen om, at ordnet kunne have et billede forbundet med hvert af ordene, mere som en reference snarere end et computervisionsdatasæt. Fra dette møde forestillede Li sig noget større—et stort datasæt med mange eksempler på hvert ord.måneder senere sluttede Li sig til Princeton-fakultetet, hendes alma mater, og startede på ImageNet-projektet i begyndelsen af 2007. Hun begyndte at opbygge et team til at hjælpe med udfordringen, først rekruttere en kollega professor, Kai Li, der derefter overbevist Ph. d studerende Jia Deng at overføre til Li laboratorium. Deng har været med til at drive ImageNet-projektet frem til 2017.”det var klart for mig, at dette var noget, der var meget anderledes end hvad andre mennesker gjorde, var fokuseret på på det tidspunkt,” sagde Deng. “Jeg havde en klar ide om, at dette ville ændre, hvordan spillet blev spillet i vision research, men jeg vidste ikke, hvordan det ville ændre sig.”

objekterne i datasættet spænder fra konkrete objekter, som pandaer eller kirker, til abstrakte ideer som kærlighed.Li ‘ s første ide var at ansætte bachelorstuderende for $10 i timen for manuelt at finde billeder og tilføje dem til datasættet. Men back-of-the-serviet math fik hurtigt Li til at indse, at det ved undergrads’ sats for at indsamle billeder ville tage 90 år at gennemføre.

efter undergrad taskforce blev opløst, Li og holdet gik tilbage til tegnebrættet. Hvad hvis computer-vision algoritmer kunne vælge billederne fra internettet, og mennesker ville så bare kuratere billederne? Men efter et par måneders tinkering med algoritmer kom holdet til den konklusion, at denne teknik heller ikke var bæredygtig—fremtidige algoritmer ville blive indsnævret til kun at bedømme, hvilke algoritmer der var i stand til at genkende på det tidspunkt datasættet blev udarbejdet.

Undergrads var tidskrævende, algoritmer var mangelfulde, og holdet havde ikke penge-Li sagde, at projektet ikke kunne vinde nogen af de føderale tilskud, hun ansøgte om, og modtog kommentarer til forslag om, at det var skammeligt, at Princeton ville undersøge dette emne, og at den eneste styrke ved forslaget var, at Li var en kvinde.en løsning dukkede endelig op i en chance Hall samtale med en kandidatstuderende, der spurgte Li, om hun havde hørt om amason Mechanical Turk, en tjeneste, hvor horder af mennesker, der sad ved computere rundt om i verden, ville udføre små onlineopgaver for øre.”han viste mig hjemmesiden, og jeg kan fortælle dig bogstaveligt den dag, jeg vidste, at ImageNet-projektet skulle ske,” sagde hun. “Pludselig fandt vi et værktøj, der kunne skalere, som vi umuligt kunne drømme om ved at ansætte Princeton undergrads.”

ImageNet

Den Mekaniske Turk-backend til klassificering af billeder.

mekanisk Turk bragte sin egen masse forhindringer, med meget af det arbejde, der blev stillet af to af Li ‘ s ph .d. – studerende, Jia Deng og Olga Russakovsky. For eksempel, hvor mange tyrkere havde brug for at se på hvert billede? Måske kunne to personer bestemme, at en kat var en kat, men et billede af en miniature husky kan kræve 10 runder af Validering. Hvad hvis nogle tyrkere forsøgte at spille eller snyde systemet? Li ‘ s team endte med at skabe et parti statistiske modeller for Turkers adfærd for at sikre, at datasættet kun indeholdt korrekte billeder.

selv efter at have fundet mekanisk Turk tog datasættet to og et halvt år at gennemføre. Det bestod af 3,2 millioner mærkede billeder, adskilt i 5.247 kategorier, sorteret i 12 undertræer som “pattedyr”, “køretøj” og “møbler.”

i 2009 offentliggjorde Li og hendes team ImageNet—papiret med datasættet-til lille fanfare. Li minder om, at CVPR, en førende konference inden for computersynsforskning, kun tillod en plakat i stedet for en mundtlig præsentation, og holdet uddelte ImageNet-brandede penne for at tromme interesse. Folk var skeptiske over for den grundlæggende ide om, at flere data ville hjælpe dem med at udvikle bedre algoritmer.

“der var kommentarer som’ hvis du ikke engang kan gøre et objekt godt, hvorfor ville du gøre tusinder eller titusinder af objekter?”Sagde Deng.

hvis data er den nye olie, var det stadig dinosaurben i 2009.

ImageNet Challenge

senere i 2009, på en computervisionskonference i Kyoto, henvendte en forsker ved navn Aleks Berg sig til Li for at foreslå at tilføje et yderligere aspekt til konkurrencen, hvor algoritmer også skulle lokalisere, hvor det afbildede objekt var, ikke kun at det eksisterede. Li modvirket: kom arbejde med mig.Li, Berg og Deng forfattede fem papirer sammen baseret på datasættet og udforskede, hvordan algoritmer ville fortolke så store mængder data. Det første papir ville blive et benchmark for, hvordan en algoritme ville reagere på tusinder af klasser af billeder, forgængeren til ImageNet-konkurrencen.

“Vi indså at demokratisere denne ide, vi havde brug for at nå ud yderligere,” sagde Li og talte på det første papir.

Li nærmede sig derefter en velkendt billedgenkendelseskonkurrence i Europa kaldet PASCAL VOC, som blev enige om at samarbejde og co-brand deres konkurrence med ImageNet. PASCAL challenge var en respekteret konkurrence og datasæt, men repræsentativ for den tidligere tankegang. Konkurrencen havde kun 20 klasser sammenlignet med ImageNet ‘ s 1.000.

da konkurrencen fortsatte i 2011 og ind i 2012, blev det snart et benchmark for, hvor godt billedklassificeringsalgoritmer klarede sig mod det mest komplekse visuelle datasæt, der var samlet på det tidspunkt.

ImageNet

et skærmbillede af ImageNet—databasen online

men forskere begyndte også at bemærke noget mere foregår end bare en konkurrence-deres algoritmer fungerede bedre, da de trænede ved hjælp af ImageNet datasættet.

” den dejlige overraskelse var, at folk, der trænede deres modeller på ImageNet, kunne bruge dem til at starte modeller til andre genkendelsesopgaver. Du starter med ImageNet-modellen, og så finjusterer du den til en anden opgave,” sagde Berg. “Det var et gennembrud både for neurale net og bare for anerkendelse generelt.”

to år efter den første ImageNet-konkurrence, i 2012, skete der noget endnu større. Faktisk, hvis den kunstige intelligensboom, vi ser i dag, kunne tilskrives en enkelt begivenhed, ville det være meddelelsen om 2012 ImageNet challenge-resultaterne.Geoffrey Hinton, Ilya Sutskever og Aleksejevsky fra University of Toronto indsendte en dyb indviklet neurale netværksarkitektur kaldet Aleksnet – stadig brugt i forskning den dag i dag-som slog marken med en kæmpe margin på 10,8 procentpoint, hvilket var 41% bedre end det næstbedste.

ImageNet kunne ikke komme på et bedre tidspunkt for Hinton og hans to studerende. Hinton havde arbejdet på kunstige neurale netværk siden 1980 ‘ erne, og mens nogle som Yann LeCun havde været i stand til at arbejde teknologien i ATM-kontrollæsere gennem indflydelse fra Bell Labs, havde Hintons forskning ikke fundet den slags hjem. Et par år tidligere havde forskning fra grafikkortproducenten Nvidia gjort disse netværk hurtigere, men stadig ikke bedre end andre teknikker.Hinton og hans team havde demonstreret, at deres netværk kunne udføre mindre opgaver på mindre datasæt, som håndskriftdetektion, men de havde brug for meget mere data for at være nyttige i den virkelige verden.

“det var så klart, at hvis du gør det rigtig godt på ImageNet, kunne du løse billedgenkendelse,” sagde Sutskever.

i dag er disse indviklede neurale netværk overalt—Facebook, hvor LeCun er direktør for AI-forskning, bruger dem til at tagge dine fotos; selvkørende biler bruger dem til at opdage objekter; dybest set bruger alt, hvad der ved, hvad der er i et billede eller en video, dem. De kan fortælle, hvad der er i et billede ved at finde mønstre mellem billedpunkter på stigende abstraktionsniveauer ved hjælp af tusinder til millioner af små beregninger på hvert niveau. Nye billeder sættes igennem processen for at matche deres mønstre til lærte mønstre. Hinton havde presset sine kolleger til at tage dem alvorligt i årtier, men nu havde han bevis for, at de kunne slå andre avancerede teknikker.”hvad der er mere forbløffende er, at folk var i stand til at fortsætte med at forbedre det med dyb læring,” sagde Sutskever og henviste til metoden, der lag neurale netværk for at tillade mere komplekse mønstre at blive behandlet, nu den mest populære fordel for kunstig intelligens. “Dyb læring er bare de rigtige ting.”

2012 ImageNet-resultaterne sendte computervisionsforskere, der krypterede for at replikere processen. Matthæus, en NYU Ph.D studerende, der havde studeret under Hinton, fandt ud af ImageNet-resultaterne og, gennem University of Toronto connection, fik tidlig adgang til papiret og koden. Han begyndte at arbejde med Rob Fergus, en NYU-professor, der også havde opbygget en karriere, der arbejdede på neurale netværk. De to begyndte at udvikle deres indsendelse til 2013-udfordringen, og Seiler forlod til sidst en Google-praktikplads uger tidligt for at fokusere på indsendelsen.Fergus vandt det år, og i 2014 ville alle de højt scorende konkurrenter være dybe neurale netværk, sagde Li.”denne Imagenet 2012-begivenhed var bestemt det, der udløste den store eksplosion af AI i dag,” skrev han i en e-mail til kvarts. “Der var bestemt nogle meget lovende resultater i talegenkendelse kort før dette (igen mange af dem udløst af Toronto), men de startede ikke offentligt så meget som ImageNet-sejren gjorde i 2012 og de følgende år.”

i dag overvejer mange ImageNet løst—fejlfrekvensen er utrolig lav på omkring 2%. Men det er til klassificering eller identifikation af hvilket objekt der er i et billede. Dette betyder ikke, at en algoritme kender egenskaberne ved det objekt, hvor det kommer fra, hvad det bruges til, hvem der lavede det, eller hvordan det interagerer med dets omgivelser. Kort sagt, det forstår faktisk ikke, hvad det ser. Dette afspejles i talegenkendelse og endda i meget af naturlig sprogbehandling. Mens vores AI i dag er fantastisk til at vide, hvad ting er, er det næste at forstå disse objekter i verdens sammenhæng. Hvordan AI-forskere kommer derhen er stadig uklart.

efter ImageNet

mens konkurrencen slutter, vil ImageNet—datasættet—opdateret gennem årene og nu mere end 13 millioner billeder stærke-leve videre.

Berg siger, at holdet forsøgte at trække det ene aspekt af udfordringen tilbage i 2014, men stod over for pushback fra virksomheder, herunder Google og Facebook, der kunne lide det centraliserede benchmark. Industrien kunne pege på et nummer og sige, “Vi er så gode.”

siden 2010 har der været en række andre højt profilerede datasæt introduceret af Google, Microsoft og Canadian Institute for Advanced Research, da deep learning har vist sig at kræve data så store som Hvad ImageNet leverede.

datasæt er blevet haute. Startstiftere og venturekapitalister vil skrive mellemstore indlæg, der råber de nyeste datasæt, og hvordan deres algoritmer klarede sig på ImageNet. Internetfirmaer som Google, Facebook og er begyndt at oprette deres egne interne datasæt baseret på de millioner af billeder, stemmeklip og tekstuddrag, der indtastes og deles på deres platforme hver dag. Selv startups begynder at samle deres egne datasæt—et AI-firma med fokus på videoforståelse, brugte Mekaniske Turk til at samle videoer af tyrkere, der udfører enkle håndbevægelser og handlinger på video. Virksomheden har udgivet to datasæt gratis til akademisk brug, hver med mere end 100.000 videoer.

“der er en masse svampe og blomstring af alle slags datasæt, fra videoer til tale til spil til alt,” sagde Li.

det er undertiden taget for givet, at disse datasæt, som er intensive til at indsamle, samle og dyrlæge, er gratis. At være åben og gratis at bruge er et originalt princip i ImageNet, der vil overleve udfordringen og sandsynligvis endda datasættet.

i 2016 frigav Google Open Images-databasen, der indeholder 9 millioner billeder i 6.000 kategorier. Google opdaterede for nylig datasættet for at inkludere etiketter til, hvor specifikke objekter var placeret i hvert billede, en hæfteklamme til ImageNet challenge efter 2014. London-baserede DeepMind, købt af Google og spundet ind i sit eget Alfabetfirma, udgav for nylig sit eget videodatasæt af mennesker, der udførte en række handlinger.”en ting ImageNet ændret inden for AI er pludselig folk indså utaknemmelig arbejde med at gøre et datasæt var kernen i AI forskning,” Li sagde. “Folk anerkender virkelig vigtigheden af datasættet er front og center i forskningen lige så meget som algoritmer.”

korrektion (26.juli): en tidligere version af denne artikel stavede navnet Olga Russakovsky forkert.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.