ImageNet kunne ikke komme på et bedre tidspunkt for Hinton og hans to studerende. Hinton havde arbejdet på kunstige neurale netværk siden 1980 ‘ erne, og mens nogle som Yann LeCun havde været i stand til at arbejde teknologien i ATM-kontrollæsere gennem indflydelse fra Bell Labs, havde Hintons forskning ikke fundet den slags hjem. Et par år tidligere havde forskning fra grafikkortproducenten Nvidia gjort disse netværk hurtigere, men stadig ikke bedre end andre teknikker.Hinton og hans team havde demonstreret, at deres netværk kunne udføre mindre opgaver på mindre datasæt, som håndskriftdetektion, men de havde brug for meget mere data for at være nyttige i den virkelige verden.
“det var så klart, at hvis du gør det rigtig godt på ImageNet, kunne du løse billedgenkendelse,” sagde Sutskever.
i dag er disse indviklede neurale netværk overalt—Facebook, hvor LeCun er direktør for AI-forskning, bruger dem til at tagge dine fotos; selvkørende biler bruger dem til at opdage objekter; dybest set bruger alt, hvad der ved, hvad der er i et billede eller en video, dem. De kan fortælle, hvad der er i et billede ved at finde mønstre mellem billedpunkter på stigende abstraktionsniveauer ved hjælp af tusinder til millioner af små beregninger på hvert niveau. Nye billeder sættes igennem processen for at matche deres mønstre til lærte mønstre. Hinton havde presset sine kolleger til at tage dem alvorligt i årtier, men nu havde han bevis for, at de kunne slå andre avancerede teknikker.”hvad der er mere forbløffende er, at folk var i stand til at fortsætte med at forbedre det med dyb læring,” sagde Sutskever og henviste til metoden, der lag neurale netværk for at tillade mere komplekse mønstre at blive behandlet, nu den mest populære fordel for kunstig intelligens. “Dyb læring er bare de rigtige ting.”
2012 ImageNet-resultaterne sendte computervisionsforskere, der krypterede for at replikere processen. Matthæus, en NYU Ph.D studerende, der havde studeret under Hinton, fandt ud af ImageNet-resultaterne og, gennem University of Toronto connection, fik tidlig adgang til papiret og koden. Han begyndte at arbejde med Rob Fergus, en NYU-professor, der også havde opbygget en karriere, der arbejdede på neurale netværk. De to begyndte at udvikle deres indsendelse til 2013-udfordringen, og Seiler forlod til sidst en Google-praktikplads uger tidligt for at fokusere på indsendelsen.Fergus vandt det år, og i 2014 ville alle de højt scorende konkurrenter være dybe neurale netværk, sagde Li.”denne Imagenet 2012-begivenhed var bestemt det, der udløste den store eksplosion af AI i dag,” skrev han i en e-mail til kvarts. “Der var bestemt nogle meget lovende resultater i talegenkendelse kort før dette (igen mange af dem udløst af Toronto), men de startede ikke offentligt så meget som ImageNet-sejren gjorde i 2012 og de følgende år.”
i dag overvejer mange ImageNet løst—fejlfrekvensen er utrolig lav på omkring 2%. Men det er til klassificering eller identifikation af hvilket objekt der er i et billede. Dette betyder ikke, at en algoritme kender egenskaberne ved det objekt, hvor det kommer fra, hvad det bruges til, hvem der lavede det, eller hvordan det interagerer med dets omgivelser. Kort sagt, det forstår faktisk ikke, hvad det ser. Dette afspejles i talegenkendelse og endda i meget af naturlig sprogbehandling. Mens vores AI i dag er fantastisk til at vide, hvad ting er, er det næste at forstå disse objekter i verdens sammenhæng. Hvordan AI-forskere kommer derhen er stadig uklart.
efter ImageNet
mens konkurrencen slutter, vil ImageNet—datasættet—opdateret gennem årene og nu mere end 13 millioner billeder stærke-leve videre.
Berg siger, at holdet forsøgte at trække det ene aspekt af udfordringen tilbage i 2014, men stod over for pushback fra virksomheder, herunder Google og Facebook, der kunne lide det centraliserede benchmark. Industrien kunne pege på et nummer og sige, “Vi er så gode.”
siden 2010 har der været en række andre højt profilerede datasæt introduceret af Google, Microsoft og Canadian Institute for Advanced Research, da deep learning har vist sig at kræve data så store som Hvad ImageNet leverede.
datasæt er blevet haute. Startstiftere og venturekapitalister vil skrive mellemstore indlæg, der råber de nyeste datasæt, og hvordan deres algoritmer klarede sig på ImageNet. Internetfirmaer som Google, Facebook og er begyndt at oprette deres egne interne datasæt baseret på de millioner af billeder, stemmeklip og tekstuddrag, der indtastes og deles på deres platforme hver dag. Selv startups begynder at samle deres egne datasæt—et AI-firma med fokus på videoforståelse, brugte Mekaniske Turk til at samle videoer af tyrkere, der udfører enkle håndbevægelser og handlinger på video. Virksomheden har udgivet to datasæt gratis til akademisk brug, hver med mere end 100.000 videoer.
“der er en masse svampe og blomstring af alle slags datasæt, fra videoer til tale til spil til alt,” sagde Li.
det er undertiden taget for givet, at disse datasæt, som er intensive til at indsamle, samle og dyrlæge, er gratis. At være åben og gratis at bruge er et originalt princip i ImageNet, der vil overleve udfordringen og sandsynligvis endda datasættet.
i 2016 frigav Google Open Images-databasen, der indeholder 9 millioner billeder i 6.000 kategorier. Google opdaterede for nylig datasættet for at inkludere etiketter til, hvor specifikke objekter var placeret i hvert billede, en hæfteklamme til ImageNet challenge efter 2014. London-baserede DeepMind, købt af Google og spundet ind i sit eget Alfabetfirma, udgav for nylig sit eget videodatasæt af mennesker, der udførte en række handlinger.”en ting ImageNet ændret inden for AI er pludselig folk indså utaknemmelig arbejde med at gøre et datasæt var kernen i AI forskning,” Li sagde. “Folk anerkender virkelig vigtigheden af datasættet er front og center i forskningen lige så meget som algoritmer.”
korrektion (26.juli): en tidligere version af denne artikel stavede navnet Olga Russakovsky forkert.