de gegevens die AI–onderzoek-en mogelijk de wereld
in 2006 begon Fei-Fei Li na te denken over een idee.
Li, een nieuw geslagen professor Informatica aan de Universiteit van Illinois Urbana-Champaign, zag haar collega ‘ s in de academische wereld en de AI-industrie hameren op hetzelfde concept: een beter algoritme zou betere beslissingen nemen, ongeacht de gegevens.
maar ze realiseerde zich een beperking tot deze aanpak—het beste algoritme zou niet goed werken als de gegevens die het geleerd van niet de echte wereld weerspiegelen.
Her oplossing: bouw een betere dataset.
” we besloten dat we iets wilden doen dat volledig historisch ongekend was, ” zei Li, verwijzend naar een klein team dat in eerste instantie met haar zou werken. “We gaan de hele wereld van objecten in kaart brengen.”
De resulterende dataset werd ImageNet genoemd. Oorspronkelijk gepubliceerd in 2009 als een onderzoek poster vast te zitten in de hoek van een Miami Beach conference center, de dataset snel geëvolueerd tot een jaarlijkse wedstrijd om te zien welke algoritmen objecten in de beelden van de dataset met de laagste foutenpercentage kunnen identificeren. Velen zien het als de katalysator voor de AI boom die de wereld vandaag ervaart.
Alumni van de ImageNet challenge zijn te vinden in elke uithoek van de tech wereld. De eerste winnaars van de wedstrijd in 2010 ging op senior rollen te nemen bij Baidu, Google, en Huawei. Matthew Zeiler bouwde Clarifai gebaseerd op zijn 2013 ImageNet winnen, en wordt nu ondersteund door $ 40 miljoen in VC financiering. In 2014 splitste Google de winnende titel met twee onderzoekers uit Oxford, die snel werden opgepakt en toegevoegd aan het onlangs verworven DeepMind lab.Li zelf is nu chief scientist bij Google Cloud, professor aan Stanford en directeur van het AI lab van de universiteit.
vandaag neemt ze het podium op CVPR om voor de laatste keer te praten over de jaarresultaten van ImageNet—2017 was het laatste jaar van de wedstrijd. In slechts zeven jaar tijd steeg de winnende nauwkeurigheid bij het classificeren van objecten in de dataset van 71,8% naar 97,3%, waardoor de menselijke vaardigheden werden overtroffen en effectief werd bewezen dat grotere gegevens leiden tot betere beslissingen.
zelfs als de wedstrijd eindigt, krijgt de erfenis al vorm. Sinds 2009, tientallen nieuwe AI onderzoek datasets zijn geà ntroduceerd in subgebieden zoals computer vision, natuurlijke taalverwerking, en spraakherkenning.
” de paradigmaverschuiving van het ImageNet denken is dat terwijl veel mensen aandacht besteden aan modellen, laten we aandacht besteden aan data, ” zei Li. “Data zal opnieuw definiëren hoe we denken over modellen.”
Wat is ImageNet?aan het eind van de jaren tachtig startte George Miller, psycholoog aan Princeton, een project genaamd WordNet, met als doel een hiërarchische structuur voor de Engelse taal op te bouwen. Het zou een soort woordenboek zijn, maar woorden zouden worden weergegeven in relatie tot andere woorden in plaats van alfabetische volgorde. Bijvoorbeeld, binnen WordNet, het woord “hond” zou worden genest onder “hond,” die zou worden genest onder “zoogdier,” en ga zo maar door. Het was een manier om taal te organiseren die vertrouwde op machineleesbare logica, en verzamelde meer dan 155.000 geïndexeerde woorden.
Li, in haar eerste baan als leraar aan de UIUC, had geworsteld met een van de belangrijkste spanningen in machine learning: overfitting en generalisatie. Wanneer een algoritme alleen kan werken met gegevens die dicht bij wat het eerder heeft gezien, wordt het model beschouwd als overvoeging naar de gegevens; het kan niets algemener begrijpen dan deze voorbeelden. Aan de andere kant, als een model niet de juiste patronen tussen de gegevens pikt, is het overgeneraliseren.
het vinden van het perfecte algoritme leek ver weg, zegt Li. Ze zag dat eerdere datasets niet vastleggen hoe variabel de wereld zou kunnen zijn—zelfs het identificeren van foto ‘ s van katten is oneindig complex. Maar door de algoritmen meer voorbeelden te geven van hoe complex de wereld zou kunnen zijn, maakte het wiskundig logisch dat het beter zou gaan. Als je maar vijf foto ‘ s van katten zag, had je maar vijf camerahoeken, lichtomstandigheden en misschien een verscheidenheid aan katten. Maar als je 500 foto ‘ s van katten hebt gezien, zijn er veel meer voorbeelden om overeenkomsten uit te trekken.
Li begon te lezen over hoe anderen hadden geprobeerd een eerlijke weergave van de wereld met gegevens te catalogiseren. Tijdens die zoektocht vond ze WordNet.na het lezen over de aanpak van WordNet, Li een ontmoeting met professor Christiane Fellbaum, een onderzoeker invloedrijk in het voortdurende werk op WordNet, tijdens een bezoek aan Princeton 2006. Fellbaum had het idee dat WordNet zou kunnen hebben een beeld in verband met elk van de woorden, meer als een referentie in plaats van een computer vision dataset. Komend van die vergadering, stelde Li zich iets groters voor—een grootschalige dataset met veel voorbeelden van elk woord.maanden later sloot Li zich aan bij de Princeton-faculteit, haar alma mater, en begon begin 2007 aan het ImageNet-project. Ze begon een team te bouwen om te helpen met de uitdaging, eerst het werven van een collega-professor, Kai Li, die vervolgens overtuigde Ph.D-student Jia Deng om over te stappen naar Li ‘ s lab. Deng heeft het ImageNet-project tot en met 2017 geholpen.
” Het was me duidelijk dat dit iets was dat heel anders was dan wat andere mensen deden, waar ze op dat moment op gericht waren, ” zei Deng. “Ik had een duidelijk idee dat dit zou veranderen hoe het spel werd gespeeld in vision research, maar ik wist niet hoe het zou veranderen.”
de objecten in de dataset zouden variëren van concrete objecten, zoals Panda ‘ s of kerken, tot abstracte ideeën zoals liefde.
Li ‘ s eerste idee was om studenten in te huren voor $10 per uur om handmatig afbeeldingen te vinden en toe te voegen aan de dataset. Maar back-of-the-servet wiskunde maakte Li snel beseffen dat bij de undergrads’ snelheid van het verzamelen van beelden het 90 jaar zou duren om te voltooien.na de ontbinding van de taskforce gingen Li en het team terug naar de tekentafel. Wat als computervisiealgoritmen de foto ‘ s van het internet konden kiezen, en mensen dan gewoon de beelden zouden beheren? Maar na een paar maanden van knutselen met algoritmen kwam het team tot de conclusie dat deze techniek ook niet duurzaam was—toekomstige algoritmen zouden beperkt zijn tot het beoordelen van welke algoritmen in staat waren te herkennen op het moment dat de dataset werd samengesteld.
Undergrads waren tijdrovend, algoritmen waren gebrekkig, en het team had geen geld—Li zei dat het project geen van de federale subsidies die ze aangevraagd, ontvangen reacties op voorstellen dat het beschamend Princeton zou onderzoek dit onderwerp, en dat de enige kracht van het voorstel was dat Li was een vrouw.een oplossing dook uiteindelijk op in een chance hallway gesprek met een afgestudeerde student die Li vroeg of ze had gehoord van Amazon Mechanical Turk, een dienst waar hordes mensen zitten op computers over de hele wereld kleine online taken zouden voltooien voor centen.
” hij liet me de website zien, en ik kan je letterlijk vertellen dat de dag dat ik wist dat het ImageNet project zou gebeuren,” zei ze. “Plotseling vonden we een tool die kon schalen, waar we onmogelijk Van konden dromen door het inhuren van Princeton undergrads.”