Im Jahr 2006 begann Fei-Fei Li über eine Idee nachzudenken.Li, eine frischgebackene Informatikprofessorin an der University of Illinois Urbana-Champaign, sah, wie ihre Kollegen aus der akademischen Welt und der KI-Branche auf dasselbe Konzept hämmerten: Ein besserer Algorithmus würde unabhängig von den Daten bessere Entscheidungen treffen.
Aber sie erkannte eine Einschränkung dieses Ansatzes — der beste Algorithmus würde nicht gut funktionieren, wenn die Daten, aus denen er gelernt hat, nicht die reale Welt widerspiegeln würden.
Ihre Lösung: einen besseren Datensatz erstellen.
„Wir beschlossen, etwas zu tun, das historisch beispiellos war“, sagte Li und bezog sich auf ein kleines Team, das zunächst mit ihr zusammenarbeiten würde. „Wir werden die ganze Welt der Objekte abbilden.“
Der resultierende Datensatz hieß ImageNet. Ursprünglich im Jahr 2009 als Forschungsplakat in der Ecke eines Konferenzzentrums in Miami Beach veröffentlicht, entwickelte sich der Datensatz schnell zu einem jährlichen Wettbewerb, um zu sehen, welche Algorithmen Objekte in den Bildern des Datensatzes mit der niedrigsten Fehlerrate identifizieren konnten. Viele sehen es als Katalysator für den KI-Boom, den die Welt heute erlebt.
Alumni der ImageNet Challenge sind in jeder Ecke der Tech-Welt zu finden. Die ersten Gewinner des Wettbewerbs im Jahr 2010 nahmen leitende Positionen bei Baidu, Google und Huawei ein. Matthew Zeiler baute Clarifai auf der Grundlage seines ImageNet-Gewinns von 2013 auf und wird jetzt von 40 Millionen US-Dollar an VC-Mitteln unterstützt. Im Jahr 2014 teilte Google den Gewinnertitel mit zwei Forschern aus Oxford, die schnell geschnappt und zu seinem kürzlich erworbenen DeepMind-Labor hinzugefügt wurden.Li selbst ist jetzt Chief Scientist bei Google Cloud, Professor in Stanford und Direktor des KI-Labors der Universität.
Heute wird sie auf der CVPR die Bühne betreten, um zum letzten Mal über die Jahresergebnisse von ImageNet zu sprechen — 2017 war das letzte Jahr des Wettbewerbs. In nur sieben Jahren stieg die Genauigkeit bei der Klassifizierung von Objekten im Datensatz von 71,8% auf 97,3%, übertraf die menschlichen Fähigkeiten und bewies effektiv, dass größere Datenmengen zu besseren Entscheidungen führen.
Auch wenn der Wettbewerb endet, nimmt sein Erbe bereits Gestalt an. Seit 2009 wurden Dutzende neuer KI-Forschungsdatensätze in Teilbereichen wie Computer Vision, Natural Language Processing und Spracherkennung eingeführt.
„Der Paradigmenwechsel des ImageNet-Denkens besteht darin, dass viele Menschen zwar auf Modelle achten, aber auf Daten achten“, sagte Li. „Daten werden neu definieren, wie wir über Modelle denken.“
Was ist ImageNet?
In den späten 1980er Jahren startete der Princeton-Psychologe George Miller ein Projekt namens WordNet mit dem Ziel, eine hierarchische Struktur für die englische Sprache aufzubauen. Es wäre wie ein Wörterbuch, aber Wörter würden eher in Bezug auf andere Wörter als in alphabetischer Reihenfolge angezeigt. Zum Beispiel würde in WordNet das Wort „Hund“ unter „Hund“ verschachtelt, was unter „Säugetier“ verschachtelt wäre, und so weiter. Es war eine Möglichkeit, Sprache zu organisieren, die auf maschinenlesbarer Logik beruhte und mehr als 155.000 indizierte Wörter umfasste.
Li hatte sich in ihrem ersten Lehrauftrag an der UIUC mit einer der Kernspannungen des maschinellen Lernens auseinandergesetzt: Überanpassung und Verallgemeinerung. Wenn ein Algorithmus nur mit Daten arbeiten kann, die nahe an dem liegen, was er zuvor gesehen hat, wird das Modell als Überanpassung an die Daten betrachtet. Wenn ein Modell andererseits nicht die richtigen Muster zwischen den Daten aufnimmt, wird es übergeneralisiert.
Den perfekten Algorithmus zu finden, schien weit entfernt, sagt Li. Sie sah, dass frühere Datensätze nicht erfassten, wie variabel die Welt sein könnte — selbst die Identifizierung von Bildern von Katzen ist unendlich komplex. Aber indem man den Algorithmen mehr Beispiele dafür gab, wie komplex die Welt sein könnte, machte es mathematisch Sinn, dass sie besser abschneiden könnten. Wenn Sie nur fünf Bilder von Katzen sehen würden, hätten Sie nur fünf Kamerawinkel, Lichtverhältnisse und vielleicht eine Vielzahl von Katzen. Aber wenn Sie 500 Bilder von Katzen gesehen haben, gibt es viele weitere Beispiele, aus denen Sie Gemeinsamkeiten ziehen können.
Li begann zu lesen, wie andere versucht hatten, eine faire Darstellung der Welt mit Daten zu katalogisieren. Während dieser Suche fand sie WordNet.
Nachdem Li über den Ansatz von WordNet gelesen hatte, traf er sich 2006 während eines Besuchs in Princeton mit Professor Christiane Fellbaum, einer Forscherin, die Einfluss auf die weitere Arbeit an WordNet hatte. Fellbaum hatte die Idee, dass WordNet jedem der Wörter ein Bild zuordnen könnte, eher als Referenz als als Computer-Vision-Datensatz. Von diesem Treffen kommend, stellte sich Li etwas Großartigeres vor – einen groß angelegten Datensatz mit vielen Beispielen für jedes Wort.Monate später trat Li der Princeton-Fakultät, ihrer Alma Mater, bei und begann Anfang 2007 mit dem ImageNet-Projekt. Sie begann, ein Team aufzubauen, um bei der Herausforderung zu helfen, und rekrutierte zuerst einen Mitprofessor, Kai Li, der dann die Doktorandin Jia Deng überzeugte, in Lis Labor zu wechseln. Deng hat das ImageNet-Projekt bis 2017 mitgestaltet.“Es war mir klar, dass dies etwas war, das sich sehr von dem unterschied, worauf sich andere Leute zu dieser Zeit konzentrierten“, sagte Deng. „Ich hatte eine klare Vorstellung davon, dass dies die Art und Weise verändern würde, wie das Spiel in der Sehforschung gespielt wird, aber ich wusste nicht, wie es sich ändern würde.“
Die Objekte im Datensatz reichen von konkreten Objekten wie Pandas oder Kirchen bis hin zu abstrakten Ideen wie Liebe.
Lis erste Idee war, Studenten für 10 Dollar pro Stunde einzustellen, um Bilder manuell zu finden und sie dem Datensatz hinzuzufügen. Aber die Mathematik hinter der Serviette ließ Li schnell erkennen, dass es bei der Rate der Studenten, Bilder zu sammeln, 90 Jahre dauern würde.
Nachdem die Undergrad Task Force aufgelöst wurde, gingen Li und das Team zurück zum Zeichenbrett. Was wäre, wenn Computer-Vision-Algorithmen die Fotos aus dem Internet auswählen könnten und Menschen die Bilder dann einfach kuratieren würden? Aber nach ein paar Monaten des Bastelns mit Algorithmen kam das Team zu dem Schluss, dass diese Technik auch nicht nachhaltig war — zukünftige Algorithmen würden sich darauf beschränken, nur zu beurteilen, welche Algorithmen zum Zeitpunkt der Erstellung des Datensatzes erkennen konnten.Undergrads waren zeitaufwendig, Algorithmen waren fehlerhaft und das Team hatte kein Geld — Li sagte, das Projekt habe keine der Bundeszuschüsse gewonnen, die sie beantragt hatte, und erhielt Kommentare zu Vorschlägen, dass es beschämend sei, dass Princeton dieses Thema erforschen würde, und dass die einzige Stärke des Vorschlags darin bestehe, dass Li eine Frau sei.Eine Lösung tauchte schließlich in einem zufälligen Flurgespräch mit einem Doktoranden auf, der Li fragte, ob sie von Amazon Mechanical Turk gehört habe, einem Dienst, bei dem Horden von Menschen, die an Computern auf der ganzen Welt sitzen, kleine Online-Aufgaben für ein paar Cent erledigen würden.
„Er zeigte mir die Website und ich kann Ihnen buchstäblich sagen, dass ich an diesem Tag wusste, dass das ImageNet-Projekt stattfinden würde“, sagte sie. „Plötzlich fanden wir ein Werkzeug, das skalieren konnte, von dem wir unmöglich träumen konnten, indem wir Princeton-Studenten einstellten.“
Mechanical Turk brachte eine ganze Reihe von Hürden mit sich, wobei ein Großteil der Arbeit von zwei von Lis Doktoranden, Jia Deng und Olga Russakovsky, geleistet wurde. Zum Beispiel, wie viele Türken mussten sich jedes Bild ansehen? Vielleicht könnten zwei Personen feststellen, dass eine Katze eine Katze war, aber ein Bild eines Miniatur-Huskys erfordert möglicherweise 10 Validierungsrunden. Was wäre, wenn einige Türken versuchten, das System zu spielen oder zu betrügen? Lis Team erstellte schließlich eine Reihe statistischer Modelle für Turkers Verhalten, um sicherzustellen, dass der Datensatz nur korrekte Bilder enthielt.
Selbst nachdem Mechanical Turk gefunden wurde, dauerte die Fertigstellung des Datensatzes zweieinhalb Jahre. Es bestand aus 3,2 Millionen beschrifteten Bildern, die in 5.247 Kategorien unterteilt und in 12 Unterbäume wie „Säugetier“, „Fahrzeug“ und „Möbel“ sortiert waren.“
Im Jahr 2009 veröffentlichten Li und ihr Team das ImageNet—Papier mit dem Datensatz – zu wenig Fanfare. Li erinnert sich, dass CVPR, eine führende Konferenz in der Computer-Vision-Forschung, nur ein Poster anstelle einer mündlichen Präsentation erlaubte und das Team Stifte der Marke ImageNet verteilte, um das Interesse zu wecken. Die Leute waren skeptisch gegenüber der Grundidee, dass mehr Daten ihnen helfen würden, bessere Algorithmen zu entwickeln.
„Es gab Kommentare wie ‘Wenn Sie nicht einmal ein Objekt gut machen können, warum sollten Sie dann Tausende oder Zehntausende von Objekten machen?“ Sagte Deng.
Wenn Daten das neue Öl sind, waren es 2009 noch Dinosaurierknochen.
Die ImageNet Challenge
Später im Jahr 2009, auf einer Computer Vision Konferenz in Kyoto, wandte sich ein Forscher namens Alex Berg an Li und schlug vor, dem Wettbewerb einen zusätzlichen Aspekt hinzuzufügen, bei dem Algorithmen auch lokalisieren müssten, wo sich das abgebildete Objekt befand, nicht nur, dass es existierte. Li konterte: Komm, arbeite mit mir.
Li, Berg und Deng haben gemeinsam fünf Artikel verfasst, die auf dem Datensatz basieren und untersuchen, wie Algorithmen solch große Datenmengen interpretieren würden. Das erste Papier würde ein Maßstab dafür werden, wie ein Algorithmus auf Tausende von Bildklassen reagieren würde, der Vorgänger des ImageNet-Wettbewerbs.
„Wir erkannten, um diese Idee zu demokratisieren, mussten wir weiter gehen“, sagte Li und sprach über das erste Papier.
Li wandte sich dann an einen bekannten Bilderkennungswettbewerb in Europa namens PASCAL VOC, der sich bereit erklärte, mit ImageNet zusammenzuarbeiten und seinen Wettbewerb als Co-Brand zu kennzeichnen. Die PASCAL Challenge war ein angesehener Wettbewerb und Datensatz, aber repräsentativ für die bisherige Denkweise. Der Wettbewerb hatte nur 20 Klassen, verglichen mit Imagenets 1.000.
Als der Wettbewerb 2011 und 2012 fortgesetzt wurde, wurde er bald zu einem Maßstab dafür, wie gut Bildklassifizierungsalgorithmen gegen den damals komplexesten visuellen Datensatz abschnitten.
Aber die Forscher bemerkten auch, dass mehr vor sich ging als nur ein Wettbewerb – ihre Algorithmen funktionierten besser, wenn sie mit dem ImageNet-Datensatz trainierten.
„Die schöne Überraschung war, dass Leute, die ihre Modelle auf ImageNet trainierten, sie verwenden konnten, um Modelle für andere Erkennungsaufgaben zu starten. Sie würden mit dem ImageNet-Modell beginnen und es dann für eine andere Aufgabe optimieren „, sagte Berg. „Das war ein Durchbruch sowohl für neuronale Netze als auch für die Erkennung im Allgemeinen.“
Zwei Jahre nach dem ersten ImageNet-Wettbewerb im Jahr 2012 passierte etwas noch Größeres. Wenn der Boom der künstlichen Intelligenz, den wir heute sehen, auf ein einziges Ereignis zurückgeführt werden könnte, wäre dies die Ankündigung der Ergebnisse der ImageNet Challenge 2012.Geoffrey Hinton, Ilya Sutskever und Alex Krizhevsky von der University of Toronto reichten eine Deep Convolutional Neural Network Architecture namens AlexNet ein — die bis heute in der Forschung verwendet wird —, die das Feld um satte 10,8 Prozentpunkte übertraf, was 41% besser war als die nächstbeste.
ImageNet könnte für Hinton und seine beiden Studenten nicht zu einem besseren Zeitpunkt kommen. Hinton hatte seit den 1980er Jahren an künstlichen neuronalen Netzen gearbeitet, und während einige wie Yann LeCun die Technologie durch den Einfluss von Bell Labs in ATM-Scheckleser umwandeln konnten, hatte Hintons Forschung diese Art von Zuhause nicht gefunden. Einige Jahre zuvor hatten Untersuchungen des Grafikkartenherstellers Nvidia dazu geführt, dass diese Netzwerke schneller, aber immer noch nicht besser verarbeitet wurden als andere Techniken.Hinton und sein Team hatten gezeigt, dass ihre Netzwerke kleinere Aufgaben mit kleineren Datensätzen wie der Handschrifterkennung ausführen können, aber sie benötigten viel mehr Daten, um in der realen Welt nützlich zu sein.
„Es war so klar, dass man die Bilderkennung lösen kann, wenn man ImageNet wirklich gut macht“, sagte Sutskever.
Heute sind diese faltungsneuralen Netze überall — Facebook, wo LeCun Direktor der KI-Forschung ist, verwendet sie, um Ihre Fotos zu markieren; selbstfahrende Autos verwenden sie, um Objekte zu erkennen; im Grunde alles, was weiß, was in einem Bild oder Video ist, verwendet sie. Sie können erkennen, was sich in einem Bild befindet, indem sie Muster zwischen Pixeln auf aufsteigenden Abstraktionsebenen finden und Tausende bis Millionen winziger Berechnungen auf jeder Ebene verwenden. Neue Bilder werden durch den Prozess gestellt, um ihre Muster an erlernte Muster anzupassen. Hinton hatte seine Kollegen jahrzehntelang dazu gedrängt, sie ernst zu nehmen, aber jetzt hatte er den Beweis, dass sie andere hochmoderne Techniken schlagen konnten.“Was noch erstaunlicher ist, ist, dass die Leute es mit Deep Learning weiter verbessern konnten“, sagte Sutskever und bezog sich auf die Methode, die neuronale Netze überlagert, um komplexere Muster verarbeiten zu können, jetzt die beliebteste Methode der künstlichen Intelligenz. „Deep Learning ist genau das Richtige.“
Die ImageNet-Ergebnisse von 2012 haben Computer-Vision-Forscher dazu gebracht, den Prozess zu replizieren. Matthew Zeiler, ein NYU Ph.Ein Student, der bei Hinton studiert hatte, erfuhr von den ImageNet-Ergebnissen und erhielt über die University of Toronto Connection frühzeitig Zugang zu Papier und Code. Er begann mit Rob Fergus zu arbeiten, einem NYU-Professor, der auch eine Karriere in neuronalen Netzen aufgebaut hatte. Die beiden begannen, ihre Einreichung für die Challenge 2013 zu entwickeln, und Zeiler verließ schließlich ein Google-Praktikum Wochen früher, um sich auf die Einreichung zu konzentrieren.Zeiler und Fergus gewannen in diesem Jahr, und bis 2014 würden alle hochkarätigen Konkurrenten tiefe neuronale Netze sein, sagte Li.“Dieses Imagenet 2012-Event war definitiv der Auslöser für die große Explosion der KI heute“, schrieb Zeiler in einer E-Mail an Quartz. „Es gab definitiv einige sehr vielversprechende Ergebnisse in der Spracherkennung kurz davor (wieder viele von ihnen von Toronto ausgelöst), aber sie starteten nicht so viel öffentlich wie dieser ImageNet-Sieg in 2012 und den folgenden Jahren.“
Heute halten viele ImageNet für gelöst — die Fehlerquote ist mit rund 2% unglaublich niedrig. Aber das dient der Klassifizierung oder der Identifizierung, welches Objekt sich in einem Bild befindet. Dies bedeutet nicht, dass ein Algorithmus die Eigenschaften dieses Objekts kennt, woher es kommt, wofür es verwendet wird, wer es hergestellt hat oder wie es mit seiner Umgebung interagiert. Kurz gesagt, es versteht nicht wirklich, was es sieht. Dies spiegelt sich in der Spracherkennung und sogar in einem Großteil der Verarbeitung natürlicher Sprache wider. Während unsere KI heute fantastisch darin ist zu wissen, was Dinge sind, ist das Verständnis dieser Objekte im Kontext der Welt das nächste. Wie KI-Forscher dorthin gelangen, ist noch unklar.
Nach ImageNet
Während der Wettbewerb endet, wird der ImageNet—Datensatz — aktualisiert im Laufe der Jahre und jetzt mehr als 13 Millionen Bilder stark – weiterleben.Berg sagt, dass das Team versucht hat, den einen Aspekt der Herausforderung im Jahr 2014 zurückzuziehen, aber Pushback von Unternehmen wie Google und Facebook, die den zentralisierten Benchmark mochten. Die Industrie könnte auf eine Zahl zeigen und sagen: „Wir sind so gut.“Seit 2010 gab es eine Reihe weiterer hochkarätiger Datensätze, die von Google, Microsoft und dem Canadian Institute for Advanced Research eingeführt wurden, da Deep Learning nachweislich Daten erfordert, die so umfangreich sind wie die von ImageNet bereitgestellten.
Datensätze sind Standard geworden. Startup-Gründer und Risikokapitalgeber werden Medium-Posts schreiben, in denen die neuesten Datensätze und die Ergebnisse ihrer Algorithmen auf ImageNet beschrieben werden. Internetunternehmen wie Google, Facebook und Amazon haben begonnen, ihre eigenen internen Datensätze zu erstellen, die auf den Millionen von Bildern, Sprachclips und Textausschnitten basieren, die täglich auf ihren Plattformen eingegeben und geteilt werden. Sogar Startups beginnen, ihre eigenen Datensätze zusammenzustellen — TwentyBN, ein KI-Unternehmen, das sich auf das Verständnis von Videos konzentriert, verwendete Amazon Mechanical Turk, um Videos von Türken zu sammeln, die einfache Handgesten und Aktionen auf Video ausführen. Das Unternehmen hat zwei Datensätze mit jeweils mehr als 100.000 Videos für den akademischen Gebrauch freigegeben.“Es gibt eine Menge Pilze und Blüte aller Arten von Datensätzen, von Videos über Sprache bis hin zu Spielen und allem“, sagte Li.
Es wird manchmal als selbstverständlich angesehen, dass diese Datensätze, die schwer zu sammeln, zusammenzustellen und zu analysieren sind, kostenlos sind. Offen und frei zu verwenden ist ein ursprünglicher Grundsatz von ImageNet, der die Herausforderung und wahrscheinlich sogar den Datensatz überleben wird.
Im Jahr 2016 veröffentlichte Google die Open Images Database mit 9 Millionen Bildern in 6.000 Kategorien. Google hat den Datensatz kürzlich aktualisiert, um Beschriftungen für die Position bestimmter Objekte in jedem Bild aufzunehmen, ein Grundnahrungsmittel der ImageNet Challenge nach 2014. Das in London ansässige DeepMind, das von Google gekauft und in ein eigenes Alphabet-Unternehmen umgewandelt wurde, hat kürzlich einen eigenen Videodatensatz von Menschen veröffentlicht, die eine Vielzahl von Aktionen ausführen.“Eine Sache, die ImageNet im Bereich der KI verändert hat, ist, dass die Menschen plötzlich erkannt haben, dass die undankbare Arbeit, einen Datensatz zu erstellen, im Mittelpunkt der KI-Forschung steht“, sagte Li. „Die Menschen erkennen wirklich, wie wichtig der Datensatz in der Forschung ebenso im Mittelpunkt steht wie Algorithmen.“
Korrektur (26.Juli): In einer früheren Version dieses Artikels wurde der Name Olga Russakovsky falsch geschrieben.