En 2006, Fei-Fei Li comenzó a reflexionar sobre una idea.
Li, una profesora de ciencias de la computación de reciente creación en la Universidad de Illinois Urbana-Champaign, vio a sus colegas de todo el mundo académico y de la industria de la IA empeñarse en el mismo concepto: un algoritmo mejor tomaría mejores decisiones, independientemente de los datos.
Pero se dio cuenta de una limitación de este enfoque: el mejor algoritmo no funcionaría bien si los datos de los que aprendió no reflejaran el mundo real.
Su solución: construir un mejor conjunto de datos.
«Decidimos que queríamos hacer algo que no tenía precedentes históricos», dijo Li, refiriéndose a un pequeño equipo que inicialmente trabajaría con ella. «Vamos a trazar un mapa de todo el mundo de objetos.»
El conjunto de datos resultante se llamó ImageNet. Publicado originalmente en 2009 como un póster de investigación pegado en la esquina de un centro de conferencias de Miami Beach, el conjunto de datos evolucionó rápidamente en una competencia anual para ver qué algoritmos podían identificar objetos en las imágenes del conjunto de datos con la tasa de error más baja. Muchos lo ven como el catalizador del auge de la IA que el mundo está experimentando hoy en día.
Los antiguos alumnos del desafío ImageNet se pueden encontrar en todos los rincones del mundo de la tecnología. Los primeros ganadores del concurso en 2010 pasaron a ocupar puestos de alto nivel en Baidu, Google y Huawei. Matthew Zeiler construyó Clarifai basándose en su victoria en ImageNet 2013, y ahora está respaldado por $40 millones en fondos de capital de riesgo. En 2014, Google dividió el título ganador con dos investigadores de Oxford, que rápidamente se incorporaron a su recientemente adquirido DeepMind lab.
Li es ahora científica jefe de Google Cloud, profesora en Stanford y directora del laboratorio de IA de la universidad.
Hoy, subirá al escenario en CVPR para hablar sobre los resultados anuales de ImageNet por última vez, 2017 fue el último año de la competencia. En solo siete años, la precisión ganadora en la clasificación de objetos en el conjunto de datos aumentó del 71,8% al 97,3%, superando las capacidades humanas y demostrando efectivamente que los datos más grandes conducen a mejores decisiones.
Incluso cuando la competición termina, su legado ya está tomando forma. Desde 2009, se han introducido docenas de nuevos conjuntos de datos de investigación de IA en subcampos como visión por computadora, procesamiento de lenguaje natural y reconocimiento de voz.
«El cambio de paradigma del pensamiento de ImageNet es que, si bien mucha gente está prestando atención a los modelos, prestemos atención a los datos», dijo Li. «Los datos redefinirán la forma en que pensamos sobre los modelos.»
¿Qué es ImageNet?
A finales de la década de 1980, el psicólogo de Princeton George Miller inició un proyecto llamado WordNet, con el objetivo de construir una estructura jerárquica para el idioma inglés. Sería una especie de diccionario, pero las palabras se mostrarían en relación con otras palabras en lugar de orden alfabético. Por ejemplo, dentro de WordNet, la palabra «perro «se anidaría bajo» canino», que se anidaría bajo» mamífero», y así sucesivamente. Era una forma de organizar el lenguaje que dependía de la lógica legible por máquina, y acumulaba más de 155.000 palabras indexadas.
Li, en su primer trabajo docente en la UIUC, había estado lidiando con una de las tensiones centrales en el aprendizaje automático: el sobreajuste y la generalización. Cuando un algoritmo solo puede funcionar con datos que se aproximan a lo que se ha visto antes, el modelo se considera sobreajustado a los datos; no puede entender nada más general que esos ejemplos. Por otro lado, si un modelo no recoge los patrones correctos entre los datos, se está generalizando en exceso.
Encontrar el algoritmo perfecto parecía distante, dice Li. Vio que los conjuntos de datos anteriores no captaban lo variable que podía ser el mundo, incluso solo identificar imágenes de gatos es infinitamente complejo. Pero al dar a los algoritmos más ejemplos de lo complejo que podría ser el mundo, tenía sentido matemático que les fuera mejor. Si solo vieras cinco fotos de gatos, solo tendrías cinco ángulos de cámara, condiciones de iluminación y tal vez variedad de gatos. Pero si has visto 500 imágenes de gatos, hay muchos más ejemplos de los que sacar puntos en común.
Li comenzó a leer sobre cómo otros habían intentado catalogar una representación justa del mundo con datos. Durante esa búsqueda, encontró WordNet.Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo de WordNet, durante una visita a Princeton en 2006. Fellbaum tuvo la idea de que WordNet podría tener una imagen asociada a cada una de las palabras, más como una referencia en lugar de un conjunto de datos de visión por computadora. Viniendo de esa reunión, Li imaginó algo más grande: un conjunto de datos a gran escala con muchos ejemplos de cada palabra.Meses más tarde, Li se unió a la facultad de Princeton, su alma máter, y comenzó el proyecto ImageNet a principios de 2007. Comenzó a formar un equipo para ayudar con el desafío, primero reclutando a un compañero profesor, Kai Li, quien luego convenció a la estudiante de doctorado Jia Deng para transferirse al laboratorio de Li. Deng ha ayudado a ejecutar el proyecto ImageNet hasta 2017.
«Para mí estaba claro que esto era algo muy diferente de lo que otras personas estaban haciendo, en lo que se enfocaban en ese momento», dijo Deng. «Tenía una idea clara de que esto cambiaría la forma en que se jugaba el juego en vision research, pero no sabía cómo cambiaría.»
Los objetos en el conjunto de datos variarían desde objetos concretos, como pandas o iglesias, hasta ideas abstractas como el amor.
La primera idea de Li fue contratar a estudiantes de pregrado por $10 la hora para encontrar imágenes manualmente y agregarlas al conjunto de datos. Pero las matemáticas de la parte de atrás de la servilleta rápidamente hicieron que Li se diera cuenta de que a la velocidad de los estudiantes universitarios de recolectar imágenes, tomaría 90 años completarlas.
Después de que el grupo de trabajo de pregrado se disolviera, Li y el equipo volvieron a la mesa de dibujo. ¿Qué pasaría si los algoritmos de visión por computadora pudieran recoger las fotos de Internet, y los humanos simplemente seleccionaran las imágenes? Pero después de unos meses de retoques con los algoritmos, el equipo llegó a la conclusión de que esta técnica tampoco era sostenible: los algoritmos futuros se limitarían a juzgar solo qué algoritmos eran capaces de reconocer en el momento en que se compiló el conjunto de datos.
Los estudiantes de pregrado consumían mucho tiempo, los algoritmos eran defectuosos y el equipo no tenía dinero: Li dijo que el proyecto no logró ganar ninguna de las subvenciones federales que solicitó, recibiendo comentarios sobre las propuestas que era vergonzoso que Princeton investigara este tema, y que la única fortaleza de la propuesta era que Li era una mujer.
Finalmente surgió una solución en una conversación casual en el pasillo con una estudiante de posgrado que le preguntó a Li si había oído hablar de Amazon Mechanical Turk, un servicio donde hordas de humanos sentados en computadoras de todo el mundo completarían pequeñas tareas en línea por centavos.
«Me mostró el sitio web, y puedo decirles literalmente que ese día supe que el proyecto ImageNet iba a suceder», dijo. «De repente encontramos una herramienta que podía escalar, con la que no podríamos soñar contratando estudiantes de pregrado de Princeton.»
Mechanical Turk trajo su propia serie de obstáculos, con gran parte del trabajo realizado por dos de los estudiantes de doctorado de Li, Jia Deng y Olga Russakovsky . Por ejemplo, ¿cuántos turkers necesitaban mirar cada imagen? Tal vez dos personas podrían determinar que un gato es un gato, pero una imagen de un husky en miniatura podría requerir 10 rondas de validación. Qué, si algunos de Turkers trató de juego o engañar al sistema? El equipo de Li terminó creando un lote de modelos estadísticos para los comportamientos de Turker para ayudar a garantizar que el conjunto de datos solo incluyera imágenes correctas.
Incluso después de encontrar a Mechanical Turk, el conjunto de datos tardó dos años y medio en completarse. Constaba de 3,2 millones de imágenes etiquetadas, separadas en 5.247 categorías, clasificadas en 12 subárboles como «mamífero», «vehículo» y «muebles».»
En 2009, Li y su equipo publicaron el documento de ImageNet con el conjunto de datos—to little fanfare. Li recuerda que CVPR, una conferencia líder en investigación de visión por computadora, solo permitía un póster, en lugar de una presentación oral, y el equipo entregó bolígrafos con la marca ImageNet para despertar el interés. La gente era escéptica de la idea básica de que más datos les ayudarían a desarrollar mejores algoritmos.
» Hubo comentarios como ‘Si ni siquiera puedes hacer un objeto bien, ¿por qué harías miles o decenas de miles de objetos?»Dijo Deng.
Si data es el nuevo aceite, todavía eran huesos de dinosaurio en 2009.
El Desafío ImageNet
Más tarde en 2009, en una conferencia de visión por computadora en Kioto, un investigador llamado Alex Berg se acercó a Li para sugerir que se agregara un aspecto adicional al concurso donde los algoritmos también tendrían que localizar dónde estaba el objeto representado, no solo que existiera. Li respondió: Ven a trabajar conmigo.
Li, Berg y Deng escribieron cinco artículos juntos basados en el conjunto de datos, explorando cómo los algoritmos interpretarían cantidades tan grandes de datos. El primer artículo se convertiría en un punto de referencia de cómo reaccionaría un algoritmo a miles de clases de imágenes, el predecesor de la competencia ImageNet.
«Nos dimos cuenta de que para democratizar esta idea teníamos que llegar más lejos», dijo Li, hablando en el primer documento.
Li luego se acercó a un conocido concurso de reconocimiento de imágenes en Europa llamado PASCAL VOC, que acordó colaborar y co-marcar su competencia con ImageNet. El desafío PASCAL era una competencia y un conjunto de datos muy respetados, pero representativo del método de pensamiento anterior. La competencia solo tenía 20 clases, en comparación con las 1.000 de ImageNet.
A medida que la competencia continuó en 2011 y en 2012, pronto se convirtió en un punto de referencia para ver qué tan bien les fue a los algoritmos de clasificación de imágenes en comparación con el conjunto de datos visuales más complejo ensamblado en ese momento.