Les données qui ont transformé la recherche en IA – et peut-être le monde

En 2006, Fei-Fei Li a commencé à ruminer une idée.

Li, professeure d’informatique nouvellement créée à l’Université de l’Illinois à Urbana-Champaign, a vu ses collègues du monde universitaire et de l’industrie de l’IA marteler le même concept: un meilleur algorithme prendrait de meilleures décisions, quelles que soient les données.

Mais elle a réalisé une limitation à cette approche — le meilleur algorithme ne fonctionnerait pas bien si les données dont il a tiré des leçons ne reflétaient pas le monde réel.

Sa solution : créer un meilleur ensemble de données.

« Nous avons décidé que nous voulions faire quelque chose qui était complètement sans précédent historiquement”, a déclaré Li, faisant référence à une petite équipe qui travaillerait initialement avec elle. « Nous allons cartographier le monde entier des objets. »

L’ensemble de données résultant s’appelait ImageNet. Publié à l’origine en 2009 sous la forme d’une affiche de recherche coincée dans le coin d’un centre de conférences de Miami Beach, l’ensemble de données a rapidement évolué en une compétition annuelle pour voir quels algorithmes pourraient identifier les objets dans les images de l’ensemble de données avec le taux d’erreur le plus bas. Beaucoup y voient le catalyseur du boom de l’IA que connaît le monde aujourd’hui.

Les anciens du challenge ImageNet se trouvent dans tous les coins du monde de la technologie. Les premiers gagnants du concours en 2010 ont ensuite occupé des postes de direction chez Baidu, Google et Huawei. Matthew Zeiler a construit Clarifai sur la base de sa victoire ImageNet 2013, et est maintenant soutenu par un financement de capital-risque de 40 millions de dollars. En 2014, Google a partagé le titre gagnant avec deux chercheurs d’Oxford, qui ont rapidement été repris et ajoutés à son laboratoire DeepMind récemment acquis.

Li elle-même est maintenant scientifique en chef chez Google Cloud, professeure à Stanford et directrice du laboratoire d’IA de l’université.

Aujourd’hui, elle montera sur la scène du CVPR pour parler des résultats annuels d’ImageNet pour la dernière fois — 2017 était la dernière année du concours. En seulement sept ans, la précision gagnante dans la classification des objets dans l’ensemble de données est passée de 71,8% à 97,3%, dépassant les capacités humaines et prouvant efficacement que des données plus volumineuses mènent à de meilleures décisions.

Même à la fin de la compétition, son héritage prend déjà forme. Depuis 2009, des dizaines de nouveaux ensembles de données de recherche sur l’IA ont été introduits dans des sous-domaines tels que la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale.

« Le changement de paradigme de la pensée ImageNet est que si beaucoup de gens prêtent attention aux modèles, faisons attention aux données”, a déclaré Li.  » Les données vont redéfinir notre façon de penser les modèles. »

Qu’est-ce qu’ImageNet ?

À la fin des années 1980, le psychologue de Princeton George Miller a lancé un projet appelé WordNet, dans le but de construire une structure hiérarchique pour la langue anglaise. Ce serait un peu comme un dictionnaire, mais les mots seraient présentés par rapport à d’autres mots plutôt que par ordre alphabétique. Par exemple, dans WordNet, le mot « chien” serait imbriqué sous « canin”, qui serait imbriqué sous « mammifère”, etc. C’était un moyen d’organiser un langage qui s’appuyait sur une logique lisible par machine et qui rassemblait plus de 155 000 mots indexés.

ImageNet
La hiérarchie ImageNet dérivée de WordNet.

Li, dans son premier emploi d’enseignante à l’UIUC, était aux prises avec l’une des tensions fondamentales de l’apprentissage automatique: le surajustement et la généralisation. Lorsqu’un algorithme ne peut fonctionner qu’avec des données proches de ce qu’il a vu auparavant, le modèle est considéré comme trop adapté aux données ; il ne peut rien comprendre de plus général après ces exemples. D’un autre côté, si un modèle ne récupère pas les bons modèles entre les données, il se généralise.

Trouver l’algorithme parfait semblait lointain, dit Li. Elle a vu que les ensembles de données précédents ne capturaient pas à quel point le monde pouvait être variable — même le simple fait d’identifier des images de chats est infiniment complexe. Mais en donnant aux algorithmes plus d’exemples de la complexité du monde, il était logique mathématiquement qu’ils puissent mieux s’en sortir. Si vous ne voyiez que cinq photos de chats, vous n’auriez que cinq angles de caméra, des conditions d’éclairage et peut-être une variété de chats. Mais si vous avez vu 500 photos de chats, il existe de nombreux autres exemples de points communs.

Li a commencé à lire comment d’autres avaient tenté de cataloguer une représentation équitable du monde avec des données. Au cours de cette recherche, elle a trouvé WordNet.

Après avoir pris connaissance de l’approche de WordNet, Li a rencontré la professeure Christiane Fellbaum, une chercheuse influente dans la poursuite des travaux sur WordNet, lors d’une visite à Princeton en 2006. Fellbaum a eu l’idée que WordNet pourrait avoir une image associée à chacun des mots, plus comme une référence plutôt qu’un ensemble de données de vision par ordinateur. À partir de cette réunion, Li a imaginé quelque chose de plus grand — un ensemble de données à grande échelle avec de nombreux exemples de chaque mot.

Quelques mois plus tard, Li a rejoint la faculté de Princeton, son alma mater, et a commencé le projet ImageNet au début de 2007. Elle a commencé à constituer une équipe pour aider à relever le défi, recrutant d’abord un collègue professeur, Kai Li, qui a ensuite convaincu l’étudiant au doctorat Jia Deng de le transférer dans le laboratoire de Li. Deng a aidé à gérer le projet ImageNet jusqu’en 2017.

« Il était clair pour moi que c’était quelque chose qui était très différent de ce sur quoi les autres faisaient, étaient concentrés à l’époque”, a déclaré Deng. « J’avais une idée claire que cela changerait la façon dont le jeu se jouait dans la recherche sur la vision, mais je ne savais pas comment cela changerait. »

Les objets de l’ensemble de données vont d’objets concrets, comme des pandas ou des églises, à des idées abstraites comme l’amour.

La première idée de Li était d’embaucher des étudiants de premier cycle pour 10 an de l’heure pour trouver manuellement des images et les ajouter à l’ensemble de données. Mais les mathématiques à l’arrière de la serviette ont rapidement fait réaliser à Li qu’au rythme des étudiants de premier cycle de collecte d’images, il faudrait 90 ans pour terminer.

Après la dissolution du groupe de travail de premier cycle, Li et l’équipe sont retournés à la table à dessin. Et si les algorithmes de vision par ordinateur pouvaient sélectionner les photos sur Internet, et que les humains ne faisaient alors que gérer les images? Mais après quelques mois de bricolage avec les algorithmes, l’équipe est arrivée à la conclusion que cette technique n’était pas non plus durable — les futurs algorithmes seraient limités à ne juger que ce que les algorithmes étaient capables de reconnaître au moment de la compilation de l’ensemble de données.

Les étudiants de premier cycle prenaient beaucoup de temps, les algorithmes étaient défectueux et l’équipe n’avait pas d’argent – Li a déclaré que le projet n’avait remporté aucune des subventions fédérales pour lesquelles elle avait demandé, recevant des commentaires sur les propositions selon lesquels il était honteux que Princeton fasse des recherches sur ce sujet, et que la seule force de la proposition était que Li était une femme.

Une solution a finalement fait surface lors d’une conversation dans le couloir avec une étudiante diplômée qui a demandé à Li si elle avait entendu parler d’Amazon Mechanical Turk, un service où des hordes d’humains assis devant des ordinateurs du monde entier effectuaient de petites tâches en ligne pour quelques centimes.

« Il m’a montré le site web, et je peux vous dire que ce jour-là, je savais que le projet ImageNet allait se réaliser ”, a-t-elle déclaré. « Tout à coup, nous avons trouvé un outil qui pouvait évoluer, dont nous ne pouvions pas rêver en embauchant des étudiants de premier cycle de Princeton. »

ImageNet
Le backend Amazon Mechanical Turk pour classer les images.

Mechanical Turk a apporté son lot d’obstacles, avec une grande partie du travail sur le terrain par deux des étudiants de doctorat de Li, Jia Deng et Olga Russakovsky. Par exemple, combien de Turkers devaient regarder chaque image? Peut-être que deux personnes pourraient déterminer qu’un chat était un chat, mais une image d’un husky miniature pourrait nécessiter 10 tours de validation. Et si certains Turkers essayaient de jouer ou de tromper le système? L’équipe de Li a fini par créer un lot de modèles statistiques pour les comportements de Turker afin de s’assurer que l’ensemble de données n’incluait que des images correctes.

Même après avoir trouvé Mechanical Turk, l’ensemble de données a pris deux ans et demi à compléter. Il se composait de 3,2 millions d’images étiquetées, séparées en 5 247 catégories, triées en 12 sous-arbres comme « mammifère”, « véhicule” et « meubles ». »

En 2009, Li et son équipe ont publié le document ImageNet avec l’ensemble de données — en petite pompe. Li se souvient que CVPR, une conférence de pointe en recherche en vision par ordinateur, n’autorisait qu’une affiche, au lieu d’une présentation orale, et que l’équipe distribuait des stylos de marque ImageNet pour susciter l’intérêt. Les gens étaient sceptiques quant à l’idée de base selon laquelle plus de données les aideraient à développer de meilleurs algorithmes.

« Il y avait des commentaires comme « Si vous ne pouvez même pas bien faire un objet, pourquoi feriez-vous des milliers, ou des dizaines de milliers d’objets? » Dit Deng.

Si les données sont la nouvelle huile, il s’agissait encore d’os de dinosaures en 2009.

Le Défi ImageNet

Plus tard en 2009, lors d’une conférence sur la vision par ordinateur à Kyoto, un chercheur nommé Alex Berg a approché Li pour lui suggérer d’ajouter un aspect supplémentaire au concours où les algorithmes devraient également localiser l’endroit où se trouvait l’objet photographié, pas seulement qu’il existait. Li a rétorqué: Viens travailler avec moi.

Li, Berg et Deng ont rédigé ensemble cinq articles basés sur l’ensemble de données, explorant comment les algorithmes interpréteraient de telles quantités de données. Le premier article deviendrait une référence pour la façon dont un algorithme réagirait à des milliers de classes d’images, le prédécesseur du concours ImageNet.

« Nous avons réalisé que pour démocratiser cette idée, nous devions aller plus loin”, a déclaré Li, s’exprimant sur le premier article.

Li a ensuite approché un concours de reconnaissance d’images bien connu en Europe appelé PASCAL VOC, qui a accepté de collaborer et de co-brandir son concours avec ImageNet. Le défi PASCAL était un concours et un ensemble de données bien respectés, mais représentatif de la méthode de pensée précédente. La compétition ne comptait que 20 classes, contre 1 000 pour ImageNet.

Au fur et à mesure que la compétition se poursuivait en 2011 et en 2012, elle est rapidement devenue une référence pour la qualité des algorithmes de classification d’images par rapport à l’ensemble de données visuelles le plus complexe assemblé à l’époque.

ImageNet
Une capture d’écran de la base de données ImageNet en ligne

Mais les chercheurs ont également commencé à remarquer quelque chose de plus qu’une simple compétition : leurs algorithmes fonctionnaient mieux lorsqu’ils s’entraînaient à l’aide de l’ensemble de données ImageNet.

« La bonne surprise a été que les personnes qui ont formé leurs modèles sur ImageNet puissent les utiliser pour lancer des modèles pour d’autres tâches de reconnaissance. Vous commenceriez par le modèle ImageNet, puis vous le peaufineriez pour une autre tâche « , a déclaré Berg. « C’était une percée à la fois pour les réseaux neuronaux et juste pour la reconnaissance en général. »

Deux ans après le premier concours ImageNet, en 2012, quelque chose d’encore plus grand s’est produit. En effet, si le boom de l’intelligence artificielle que nous voyons aujourd’hui pouvait être attribué à un seul événement, ce serait l’annonce des résultats du challenge ImageNet 2012.

Geoffrey Hinton, Ilya Sutskever et Alex Krizhevsky de l’Université de Toronto ont présenté une architecture de réseau neuronal convolutif profonde appelée AlexNet — toujours utilisée dans la recherche à ce jour — qui a battu le terrain avec une marge de 10,8 points de pourcentage, soit 41% de mieux que le meilleur suivant.

ImageNet ne pouvait pas arriver à un meilleur moment pour Hinton et ses deux étudiants. Hinton travaillait sur des réseaux de neurones artificiels depuis les années 1980, et alors que certains comme Yann LeCun avaient pu utiliser la technologie dans les lecteurs de chèques ATM grâce à l’influence de Bell Labs, les recherches de Hinton n’avaient pas trouvé ce genre de maison. Quelques années plus tôt, des recherches du fabricant de cartes graphiques Nvidia avaient rendu ces réseaux plus rapides, mais toujours pas meilleurs que d’autres techniques.

Hinton et son équipe avaient démontré que leurs réseaux pouvaient effectuer des tâches plus petites sur des ensembles de données plus petits, comme la détection d’écriture manuscrite, mais ils avaient besoin de beaucoup plus de données pour être utiles dans le monde réel.

« C’était tellement clair que si vous faites un très bon travail sur ImageNet, vous pourriez résoudre la reconnaissance d’image”, a déclaré Sutskever.

Aujourd’hui, ces réseaux de neurones convolutifs sont partout — Facebook, où LeCun est directeur de la recherche en IA, les utilise pour taguer vos photos; les voitures autonomes les utilisent pour détecter des objets; fondamentalement, tout ce qui sait ce qu’il y a dans une image ou une vidéo les utilise. Ils peuvent dire ce qu’il y a dans une image en trouvant des motifs entre les pixels sur des niveaux d’abstraction ascendants, en utilisant des milliers à des millions de calculs minuscules à chaque niveau. De nouvelles images sont mises à l’épreuve pour faire correspondre leurs modèles aux modèles appris. Hinton poussait ses collègues à les prendre au sérieux depuis des décennies, mais il avait maintenant la preuve qu’ils pouvaient battre d’autres techniques de pointe.

« Ce qui est plus étonnant, c’est que les gens ont pu continuer à l’améliorer avec l’apprentissage en profondeur”, a déclaré Sutskever, se référant à la méthode qui superpose les réseaux de neurones pour permettre le traitement de modèles plus complexes, maintenant la faveur la plus populaire de l’intelligence artificielle.  » L’apprentissage en profondeur est juste ce qu’il faut. »

Les résultats ImageNet de 2012 ont poussé les chercheurs en vision par ordinateur à se démener pour reproduire le processus. Matthew Zeiler, un Ph.L’étudiant de D qui avait étudié sous Hinton a découvert les résultats d’ImageNet et, grâce à la connexion de l’Université de Toronto, a eu un accès anticipé à l’article et au code. Il a commencé à travailler avec Rob Fergus, un professeur de la NYU qui avait également construit une carrière en travaillant sur les réseaux de neurones. Les deux ont commencé à développer leur soumission pour le défi 2013, et Zeiler a finalement quitté un stage Google quelques semaines plus tôt pour se concentrer sur la soumission.

Zeiler et Fergus ont gagné cette année-là, et en 2014, tous les concurrents les plus performants seraient des réseaux de neurones profonds, a déclaré Li.

« Cet événement Imagenet 2012 a certainement déclenché la grande explosion de l’IA aujourd’hui”, a écrit Zeiler dans un e-mail à Quartz. « Il y avait certainement des résultats très prometteurs en reconnaissance vocale peu de temps avant (encore une fois, beaucoup d’entre eux ont été déclenchés par Toronto), mais ils n’ont pas décollé publiquement autant que cette victoire d’ImageNet en 2012 et les années suivantes. »

Aujourd’hui, beaucoup considèrent ImageNet comme résolu — le taux d’erreur est incroyablement bas, autour de 2%. Mais c’est pour la classification, ou l’identification de l’objet dans une image. Cela ne signifie pas qu’un algorithme connaît les propriétés de cet objet, d’où il vient, à quoi il sert, qui l’a fabriqué ou comment il interagit avec son environnement. En bref, il ne comprend pas réellement ce qu’il voit. Cela se reflète dans la reconnaissance vocale, et même dans une grande partie du traitement du langage naturel. Alors que notre IA est aujourd’hui fantastique pour savoir ce que sont les choses, la compréhension de ces objets dans le contexte du monde est la prochaine étape. La façon dont les chercheurs en IA y parviendront n’est toujours pas claire.

Après ImageNet

Alors que la compétition se termine, l’ensemble de données ImageNet — mis à jour au fil des ans et maintenant plus de 13 millions d’images fortes — vivra.

Berg dit que l’équipe a essayé de retirer le seul aspect du défi en 2014, mais a fait face à des réticences de la part d’entreprises, notamment Google et Facebook, qui aimaient le benchmark centralisé. L’industrie pourrait pointer vers un chiffre et dire : « Nous sommes si bons. »

Depuis 2010, un certain nombre d’autres ensembles de données très médiatisés ont été introduits par Google, Microsoft et l’Institut canadien de recherche avancée, car l’apprentissage en profondeur nécessite des données aussi vastes que celles fournies par ImageNet.

Les jeux de données sont devenus haute. Les fondateurs de startups et les investisseurs en capital-risque écriront des articles de taille moyenne en criant sur les derniers ensembles de données et sur la façon dont leurs algorithmes se sont comportés sur ImageNet. Des sociétés Internet telles que Google, Facebook et Amazon ont commencé à créer leurs propres ensembles de données internes, en fonction des millions d’images, de clips vocaux et d’extraits de texte saisis et partagés sur leurs plateformes chaque jour. Même les startups commencent à assembler leurs propres ensembles de données — TwentyBN, une société d’IA axée sur la compréhension de la vidéo, a utilisé Amazon Mechanical Turk pour collecter des vidéos de Turkers effectuant des gestes et des actions simples sur vidéo. La société a publié deux ensembles de données gratuits pour un usage académique, chacun avec plus de 100 000 vidéos.

« Il y a beaucoup de prolifération et de floraison de toutes sortes de jeux de données, des vidéos aux discours en passant par les jeux”, a déclaré Li.

Il est parfois tenu pour acquis que ces jeux de données, qui sont intensifs à collecter, assembler et vérifier, sont gratuits. Être ouvert et libre d’utilisation est un principe original d’ImageNet qui survivra au défi et probablement même à l’ensemble de données.

En 2016, Google a publié la base de données Open Images, contenant 9 millions d’images dans 6 000 catégories. Google a récemment mis à jour l’ensemble de données pour inclure des étiquettes indiquant l’emplacement des objets spécifiques dans chaque image, un élément essentiel du défi ImageNet après 2014. DeepMind, basée à Londres, rachetée par Google et transformée en sa propre société Alphabet, a récemment publié son propre jeu de données vidéo sur des humains effectuant diverses actions.

« Une chose qu’ImageNet a changé dans le domaine de l’IA, c’est que tout à coup, les gens ont réalisé que le travail ingrat de création d’un ensemble de données était au cœur de la recherche en IA”, a déclaré Li. « Les gens reconnaissent vraiment l’importance que l’ensemble de données est au centre de la recherche autant que les algorithmes. »

Correction (26 juillet): Une version antérieure de cet article a mal orthographié le nom d’Olga Russakovsky.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.