de gegevens die AI–onderzoek-en mogelijk de wereld

in 2006 begon Fei-Fei Li na te denken over een idee.

Li, een nieuw geslagen professor Informatica aan de Universiteit van Illinois Urbana-Champaign, zag haar collega ‘ s in de academische wereld en de AI-industrie hameren op hetzelfde concept: een beter algoritme zou betere beslissingen nemen, ongeacht de gegevens.

maar ze realiseerde zich een beperking tot deze aanpak—het beste algoritme zou niet goed werken als de gegevens die het geleerd van niet de echte wereld weerspiegelen.

Her oplossing: bouw een betere dataset.

” we besloten dat we iets wilden doen dat volledig historisch ongekend was, ” zei Li, verwijzend naar een klein team dat in eerste instantie met haar zou werken. “We gaan de hele wereld van objecten in kaart brengen.”

De resulterende dataset werd ImageNet genoemd. Oorspronkelijk gepubliceerd in 2009 als een onderzoek poster vast te zitten in de hoek van een Miami Beach conference center, de dataset snel geëvolueerd tot een jaarlijkse wedstrijd om te zien welke algoritmen objecten in de beelden van de dataset met de laagste foutenpercentage kunnen identificeren. Velen zien het als de katalysator voor de AI boom die de wereld vandaag ervaart.

Alumni van de ImageNet challenge zijn te vinden in elke uithoek van de tech wereld. De eerste winnaars van de wedstrijd in 2010 ging op senior rollen te nemen bij Baidu, Google, en Huawei. Matthew Zeiler bouwde Clarifai gebaseerd op zijn 2013 ImageNet winnen, en wordt nu ondersteund door $ 40 miljoen in VC financiering. In 2014 splitste Google de winnende titel met twee onderzoekers uit Oxford, die snel werden opgepakt en toegevoegd aan het onlangs verworven DeepMind lab.Li zelf is nu chief scientist bij Google Cloud, professor aan Stanford en directeur van het AI lab van de universiteit.

vandaag neemt ze het podium op CVPR om voor de laatste keer te praten over de jaarresultaten van ImageNet—2017 was het laatste jaar van de wedstrijd. In slechts zeven jaar tijd steeg de winnende nauwkeurigheid bij het classificeren van objecten in de dataset van 71,8% naar 97,3%, waardoor de menselijke vaardigheden werden overtroffen en effectief werd bewezen dat grotere gegevens leiden tot betere beslissingen.

zelfs als de wedstrijd eindigt, krijgt de erfenis al vorm. Sinds 2009, tientallen nieuwe AI onderzoek datasets zijn geà ntroduceerd in subgebieden zoals computer vision, natuurlijke taalverwerking, en spraakherkenning.

” de paradigmaverschuiving van het ImageNet denken is dat terwijl veel mensen aandacht besteden aan modellen, laten we aandacht besteden aan data, ” zei Li. “Data zal opnieuw definiëren hoe we denken over modellen.”

Wat is ImageNet?aan het eind van de jaren tachtig startte George Miller, psycholoog aan Princeton, een project genaamd WordNet, met als doel een hiërarchische structuur voor de Engelse taal op te bouwen. Het zou een soort woordenboek zijn, maar woorden zouden worden weergegeven in relatie tot andere woorden in plaats van alfabetische volgorde. Bijvoorbeeld, binnen WordNet, het woord “hond” zou worden genest onder “hond,” die zou worden genest onder “zoogdier,” en ga zo maar door. Het was een manier om taal te organiseren die vertrouwde op machineleesbare logica, en verzamelde meer dan 155.000 geïndexeerde woorden.

ImageNet
de ImageNet-hiërarchie afgeleid van WordNet.

Li, in haar eerste baan als leraar aan de UIUC, had geworsteld met een van de belangrijkste spanningen in machine learning: overfitting en generalisatie. Wanneer een algoritme alleen kan werken met gegevens die dicht bij wat het eerder heeft gezien, wordt het model beschouwd als overvoeging naar de gegevens; het kan niets algemener begrijpen dan deze voorbeelden. Aan de andere kant, als een model niet de juiste patronen tussen de gegevens pikt, is het overgeneraliseren.

het vinden van het perfecte algoritme leek ver weg, zegt Li. Ze zag dat eerdere datasets niet vastleggen hoe variabel de wereld zou kunnen zijn—zelfs het identificeren van foto ‘ s van katten is oneindig complex. Maar door de algoritmen meer voorbeelden te geven van hoe complex de wereld zou kunnen zijn, maakte het wiskundig logisch dat het beter zou gaan. Als je maar vijf foto ‘ s van katten zag, had je maar vijf camerahoeken, lichtomstandigheden en misschien een verscheidenheid aan katten. Maar als je 500 foto ‘ s van katten hebt gezien, zijn er veel meer voorbeelden om overeenkomsten uit te trekken.

Li begon te lezen over hoe anderen hadden geprobeerd een eerlijke weergave van de wereld met gegevens te catalogiseren. Tijdens die zoektocht vond ze WordNet.na het lezen over de aanpak van WordNet, Li een ontmoeting met professor Christiane Fellbaum, een onderzoeker invloedrijk in het voortdurende werk op WordNet, tijdens een bezoek aan Princeton 2006. Fellbaum had het idee dat WordNet zou kunnen hebben een beeld in verband met elk van de woorden, meer als een referentie in plaats van een computer vision dataset. Komend van die vergadering, stelde Li zich iets groters voor—een grootschalige dataset met veel voorbeelden van elk woord.maanden later sloot Li zich aan bij de Princeton-faculteit, haar alma mater, en begon begin 2007 aan het ImageNet-project. Ze begon een team te bouwen om te helpen met de uitdaging, eerst het werven van een collega-professor, Kai Li, die vervolgens overtuigde Ph.D-student Jia Deng om over te stappen naar Li ‘ s lab. Deng heeft het ImageNet-project tot en met 2017 geholpen.

” Het was me duidelijk dat dit iets was dat heel anders was dan wat andere mensen deden, waar ze op dat moment op gericht waren, ” zei Deng. “Ik had een duidelijk idee dat dit zou veranderen hoe het spel werd gespeeld in vision research, maar ik wist niet hoe het zou veranderen.”

de objecten in de dataset zouden variëren van concrete objecten, zoals Panda ‘ s of kerken, tot abstracte ideeën zoals liefde.

Li ‘ s eerste idee was om studenten in te huren voor $10 per uur om handmatig afbeeldingen te vinden en toe te voegen aan de dataset. Maar back-of-the-servet wiskunde maakte Li snel beseffen dat bij de undergrads’ snelheid van het verzamelen van beelden het 90 jaar zou duren om te voltooien.na de ontbinding van de taskforce gingen Li en het team terug naar de tekentafel. Wat als computervisiealgoritmen de foto ‘ s van het internet konden kiezen, en mensen dan gewoon de beelden zouden beheren? Maar na een paar maanden van knutselen met algoritmen kwam het team tot de conclusie dat deze techniek ook niet duurzaam was—toekomstige algoritmen zouden beperkt zijn tot het beoordelen van welke algoritmen in staat waren te herkennen op het moment dat de dataset werd samengesteld.

Undergrads waren tijdrovend, algoritmen waren gebrekkig, en het team had geen geld—Li zei dat het project geen van de federale subsidies die ze aangevraagd, ontvangen reacties op voorstellen dat het beschamend Princeton zou onderzoek dit onderwerp, en dat de enige kracht van het voorstel was dat Li was een vrouw.een oplossing dook uiteindelijk op in een chance hallway gesprek met een afgestudeerde student die Li vroeg of ze had gehoord van Amazon Mechanical Turk, een dienst waar hordes mensen zitten op computers over de hele wereld kleine online taken zouden voltooien voor centen.

” hij liet me de website zien, en ik kan je letterlijk vertellen dat de dag dat ik wist dat het ImageNet project zou gebeuren,” zei ze. “Plotseling vonden we een tool die kon schalen, waar we onmogelijk Van konden dromen door het inhuren van Princeton undergrads.”

ImageNet
The Amazon Mechanical Turk backend for classifying images.

Mechanical Turk bracht een groot deel van het werk in handen van twee van Li ‘ s Ph .D studenten, Jia Deng en Olga Russakovsky. Bijvoorbeeld, hoeveel Turkers nodig om te kijken naar elk beeld? Misschien kunnen twee mensen vaststellen dat een kat een kat was, maar een afbeelding van een miniatuur husky vereist misschien 10 rondes van validatie. Wat als een paar Turkers het systeem probeerden te bedriegen? Li ‘ s team uiteindelijk het creëren van een partij van statistische modellen voor het gedrag van Turker om te helpen ervoor te zorgen dat de dataset alleen de juiste beelden opgenomen.

zelfs na het vinden van Mechanische Turk, duurde de dataset twee en een half jaar om te voltooien. Het bestond uit 3,2 miljoen gelabelde afbeeldingen, verdeeld in 5.247 categorieën, gesorteerd in 12 subtrees zoals “zoogdier”, “voertuig” en “meubilair.in 2009 publiceerden Li en haar team de ImageNet paper met de dataset-to little fanfare. Li herinnert eraan dat CVPR, een toonaangevende conferentie in computer vision research, alleen een poster toegestaan, in plaats van een mondelinge presentatie, en het team uitgedeeld IMAGEnet-branded pennen om op te trommelen interesse. Mensen waren sceptisch over het basisidee dat meer gegevens hen zouden helpen betere algoritmen te ontwikkelen.

“Er waren opmerkingen als’ als je niet eens één object goed kunt doen, waarom zou je dan duizenden of tienduizenden objecten doen?”Zei Deng.

als de gegevens de nieuwe olie zijn, was het nog steeds dinosaurusbotten in 2009.

The ImageNet Challenge

Later in 2009, op een computer vision conferentie in Kyoto, benaderde een onderzoeker genaamd Alex Berg Li om te suggereren dat het toevoegen van een extra aspect aan de wedstrijd waar algoritmen ook zouden moeten lokaliseren waar het afgebeelde object was, niet alleen dat het bestond. Li tegen: kom met me werken.

Li, Berg en Deng schreven samen vijf papers op basis van de dataset, waarin werd onderzocht hoe algoritmen zulke enorme hoeveelheden data zouden interpreteren. De eerste paper zou een benchmark worden voor hoe een algoritme zou reageren op duizenden klassen van beelden, de voorloper van de ImageNet competitie.

” We realiseerden ons om dit idee te democratiseren die we nodig hadden om verder te reiken, ” zei Li, sprekend over het eerste paper.

Li benaderde vervolgens een bekende beeldherkenningswedstrijd in Europa, genaamd PASCAL VOC, die ermee instemde om samen te werken en hun competitie te Co-brandenmet ImageNet. De Pascal challenge was een gerespecteerde wedstrijd en dataset, maar representatief voor de vorige denkwijze. De competitie had slechts 20 klassen, vergeleken met de 1000 van ImageNet.

naarmate de competitie in 2011 en 2012 doorging, werd het al snel een benchmark voor hoe goed beeldclassificatiealgoritmen presteerden ten opzichte van de meest complexe visuele dataset die op dat moment werd samengesteld.

ImageNet
een screenshot van de ImageNet—database online

maar onderzoekers ook begon iets meer te merken dan alleen een wedstrijd-hun algoritmen werkten beter toen ze getraind met behulp van de IMAGEnet-dataset.

“de leuke verrassing was dat mensen die hun modellen op ImageNet trainden ze konden gebruiken om modellen te springen voor andere herkenningstaken. Je zou beginnen met het ImageNet-model en dan zou je het fine-tunen voor een andere taak, ” zei Berg. “Dat was een doorbraak, zowel voor neurale netten als alleen voor herkenning in het algemeen.”

twee jaar na de eerste ImageNet competitie, in 2012, gebeurde er iets nog groter. Inderdaad, als de kunstmatige intelligentie boom die we vandaag zien kan worden toegeschreven aan een enkele gebeurtenis, het zou de aankondiging van de 2012 ImageNet challenge resultaten.

Geoffrey Hinton, Ilya Sutskever en Alex Krizhevsky van de Universiteit van Toronto dienden een diepe convolutionele neurale netwerkarchitectuur in genaamd AlexNet—nog steeds gebruikt in onderzoek tot op de dag van vandaag—die het veld versloeg met maar liefst 10,8 procentpunt marge, wat 41% beter was dan de op één na beste.

ImageNet kon niet op een beter moment komen voor Hinton en zijn twee studenten. Hinton had gewerkt aan kunstmatige neurale netwerken sinds de jaren 1980, en terwijl sommige zoals Yann LeCun in staat was geweest om de technologie te werken in ATM check lezers door de invloed van Bell Labs, Hinton ‘ s onderzoek had niet gevonden dat soort thuis. Een paar jaar eerder, onderzoek van grafische kaart Fabrikant Nvidia had gemaakt deze netwerken proces sneller, maar nog steeds niet beter dan andere technieken.

Hinton en zijn team hadden aangetoond dat hun netwerken kleinere taken konden uitvoeren op kleinere datasets, zoals handschriftdetectie, maar ze hadden veel meer gegevens nodig om bruikbaar te zijn in de echte wereld.

” Het was zo duidelijk dat als je echt goed doet op ImageNet, je beeldherkenning kon oplossen, ” zei Sutskever.

tegenwoordig zijn deze convolutionele neurale netwerken overal—Facebook, waar LeCun directeur van AI research is, gebruikt ze om je foto ’s te taggen; zelfrijdende auto’ s gebruiken ze om objecten te detecteren; eigenlijk alles dat weet wat er in een afbeelding of video zit, gebruikt ze. Ze kunnen zien wat er in een beeld zit door patronen te vinden tussen pixels op oplopende niveaus van abstractie, met behulp van duizenden tot miljoenen kleine berekeningen op elk niveau. Nieuwe beelden worden door het proces gebracht om hun patronen aan geleerde patronen aan te passen. Hinton pushte zijn collega ‘ s al tientallen jaren om ze serieus te nemen, maar nu had hij bewijs dat ze andere state of the art technieken konden verslaan.

“wat nog verbazingwekkender is, is dat mensen in staat waren om het te blijven verbeteren met deep learning,” zei Sutskever, verwijzend naar de methode dat lagen neurale netwerken om meer complexe patronen te verwerken, nu de meest populaire gunst van kunstmatige intelligentie. “Deep learning is precies het juiste spul.”

The 2012 ImageNet results sent computer vision researchers scrambling to replicate the process. Matthew Zeiler, Ph.D student die bij Hinton had gestudeerd, ontdekte de resultaten van ImageNet en kreeg via de Universiteit van Toronto connection vroegtijdig toegang tot het papier en de code. Hij begon te werken met Rob Fergus, een NYU professor die ook een carrière had opgebouwd in het werken aan neurale netwerken. De twee begonnen met het ontwikkelen van hun inzending voor de 2013 challenge, en Zeiler uiteindelijk verliet een Google stage weken eerder om zich te concentreren op de inzending.

Zeiler en Fergus wonnen dat jaar, en in 2014 Alle high-scoring concurrenten zou diepe neurale netwerken, Li zei.

“Dit Imagenet 2012 evenement was zeker wat de grote explosie van AI vandaag veroorzaakte,” schreef Zeiler in een e-mail aan Quartz. “Er waren zeker een aantal zeer veelbelovende resultaten in spraakherkenning kort daarvoor (weer veel van hen aangewakkerd door Toronto), maar ze niet opstijgen publiekelijk zo veel als dat ImageNet win deed in 2012 en de volgende jaren.”

tegenwoordig beschouwen velen ImageNet als opgelost—het foutenpercentage is ongelooflijk laag met ongeveer 2%. Maar dat is voor classificatie, of het identificeren van het object in een afbeelding. Dit betekent niet dat een algoritme de eigenschappen van dat object kent, waar het vandaan komt, waarvoor het wordt gebruikt, wie het heeft gemaakt, of hoe het omgaat met zijn omgeving. Kortom, het begrijpt niet echt wat het ziet. Dit wordt weerspiegeld in spraakherkenning, en zelfs in een groot deel van de natuurlijke taalverwerking. Hoewel onze AI vandaag fantastisch is in het weten wat dingen zijn, is het begrijpen van deze objecten in de context van de wereld de volgende. Hoe AI-onderzoekers daar zullen komen is nog onduidelijk.

na ImageNet

terwijl de competitie eindigt, zal de ImageNet—dataset—die door de jaren heen is bijgewerkt en nu meer dan 13 miljoen afbeeldingen sterk is-voortleven.

Berg zegt dat het team probeerde het ene aspect van de uitdaging in 2014 met pensioen te laten gaan, maar geconfronteerd werd met pushback van bedrijven zoals Google en Facebook die de gecentraliseerde benchmark leuk vonden. De industrie zou naar één nummer kunnen wijzen en zeggen: “we zijn zo goed.”

sinds 2010 zijn er een aantal andere high-profile datasets geà ntroduceerd door Google, Microsoft en het Canadian Institute for Advanced Research, omdat deep learning heeft bewezen dat gegevens zo groot nodig zijn als wat ImageNet leverde.

Datasets zijn haute geworden. Startup oprichters en venture capitalists zal schrijven Medium berichten schreeuwen uit de nieuwste datasets, en hoe hun algoritmen verging op ImageNet. Internetbedrijven zoals Google, Facebook en Amazon zijn begonnen met het maken van hun eigen interne datasets, op basis van de miljoenen afbeeldingen, spraakclips en tekstfragmenten ingevoerd en gedeeld op hun platforms elke dag. Zelfs startups beginnen om hun eigen datasets te monteren—TwentyBN, een AI bedrijf gericht op video begrip, gebruikt Amazon Mechanical Turk om video ‘ s van Turkers uitvoeren van eenvoudige handgebaren en acties op video te verzamelen. Het bedrijf heeft twee gratis datasets uitgebracht voor academisch gebruik, elk met meer dan 100.000 video ‘ s.

” Er is veel paddenstoelen en bloeien van allerlei datasets, van video ’s tot spraak tot games tot alles,” zei Li.

Het is soms vanzelfsprekend dat deze datasets, die intensief zijn om te verzamelen, assembleren en vet te verzamelen, vrij zijn. Open en vrij te gebruiken is een origineel principe van ImageNet dat de uitdaging en waarschijnlijk zelfs de dataset zal overleven.

in 2016 bracht Google de Open Images database uit, met 9 miljoen afbeeldingen in 6.000 categorieën. Google heeft de dataset onlangs bijgewerkt om labels op te nemen voor waar specifieke objecten zich in elke afbeelding bevonden, een hoofdbestanddeel van de ImageNet-uitdaging na 2014. In Londen gevestigde DeepMind, gekocht door Google en gesponnen tot zijn eigen alfabet bedrijf, onlangs bracht zijn eigen video dataset van mensen het uitvoeren van een verscheidenheid van acties.

“een ding dat ImageNet veranderde op het gebied van AI is plotseling mensen zich realiseerden het ondankbare werk van het maken van een dataset was de kern van AI onderzoek,” Li zei. “Mensen erkennen echt het belang van de dataset is voorop en centraal in het onderzoek zo veel als algoritmen.”

correctie (26 juli): een eerdere versie van dit artikel spelde de naam van Olga Russakovsky verkeerd.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.