Los datos que transformaron la investigación de IA, y posiblemente el mundo

En 2006, Fei-Fei Li comenzó a reflexionar sobre una idea.

Li, una profesora de ciencias de la computación de reciente creación en la Universidad de Illinois Urbana-Champaign, vio a sus colegas de todo el mundo académico y de la industria de la IA empeñarse en el mismo concepto: un algoritmo mejor tomaría mejores decisiones, independientemente de los datos.

Pero se dio cuenta de una limitación de este enfoque: el mejor algoritmo no funcionaría bien si los datos de los que aprendió no reflejaran el mundo real.

Su solución: construir un mejor conjunto de datos.

«Decidimos que queríamos hacer algo que no tenía precedentes históricos», dijo Li, refiriéndose a un pequeño equipo que inicialmente trabajaría con ella. «Vamos a trazar un mapa de todo el mundo de objetos.»

El conjunto de datos resultante se llamó ImageNet. Publicado originalmente en 2009 como un póster de investigación pegado en la esquina de un centro de conferencias de Miami Beach, el conjunto de datos evolucionó rápidamente en una competencia anual para ver qué algoritmos podían identificar objetos en las imágenes del conjunto de datos con la tasa de error más baja. Muchos lo ven como el catalizador del auge de la IA que el mundo está experimentando hoy en día.

Los antiguos alumnos del desafío ImageNet se pueden encontrar en todos los rincones del mundo de la tecnología. Los primeros ganadores del concurso en 2010 pasaron a ocupar puestos de alto nivel en Baidu, Google y Huawei. Matthew Zeiler construyó Clarifai basándose en su victoria en ImageNet 2013, y ahora está respaldado por $40 millones en fondos de capital de riesgo. En 2014, Google dividió el título ganador con dos investigadores de Oxford, que rápidamente se incorporaron a su recientemente adquirido DeepMind lab.

Li es ahora científica jefe de Google Cloud, profesora en Stanford y directora del laboratorio de IA de la universidad.

Hoy, subirá al escenario en CVPR para hablar sobre los resultados anuales de ImageNet por última vez, 2017 fue el último año de la competencia. En solo siete años, la precisión ganadora en la clasificación de objetos en el conjunto de datos aumentó del 71,8% al 97,3%, superando las capacidades humanas y demostrando efectivamente que los datos más grandes conducen a mejores decisiones.

Incluso cuando la competición termina, su legado ya está tomando forma. Desde 2009, se han introducido docenas de nuevos conjuntos de datos de investigación de IA en subcampos como visión por computadora, procesamiento de lenguaje natural y reconocimiento de voz.

«El cambio de paradigma del pensamiento de ImageNet es que, si bien mucha gente está prestando atención a los modelos, prestemos atención a los datos», dijo Li. «Los datos redefinirán la forma en que pensamos sobre los modelos.»

¿Qué es ImageNet?

A finales de la década de 1980, el psicólogo de Princeton George Miller inició un proyecto llamado WordNet, con el objetivo de construir una estructura jerárquica para el idioma inglés. Sería una especie de diccionario, pero las palabras se mostrarían en relación con otras palabras en lugar de orden alfabético. Por ejemplo, dentro de WordNet, la palabra «perro «se anidaría bajo» canino», que se anidaría bajo» mamífero», y así sucesivamente. Era una forma de organizar el lenguaje que dependía de la lógica legible por máquina, y acumulaba más de 155.000 palabras indexadas.

ImageNet

El ImageNet jerarquía derivada de WordNet.

Li, en su primer trabajo docente en la UIUC, había estado lidiando con una de las tensiones centrales en el aprendizaje automático: el sobreajuste y la generalización. Cuando un algoritmo solo puede funcionar con datos que se aproximan a lo que se ha visto antes, el modelo se considera sobreajustado a los datos; no puede entender nada más general que esos ejemplos. Por otro lado, si un modelo no recoge los patrones correctos entre los datos, se está generalizando en exceso.

Encontrar el algoritmo perfecto parecía distante, dice Li. Vio que los conjuntos de datos anteriores no captaban lo variable que podía ser el mundo, incluso solo identificar imágenes de gatos es infinitamente complejo. Pero al dar a los algoritmos más ejemplos de lo complejo que podría ser el mundo, tenía sentido matemático que les fuera mejor. Si solo vieras cinco fotos de gatos, solo tendrías cinco ángulos de cámara, condiciones de iluminación y tal vez variedad de gatos. Pero si has visto 500 imágenes de gatos, hay muchos más ejemplos de los que sacar puntos en común.

Li comenzó a leer sobre cómo otros habían intentado catalogar una representación justa del mundo con datos. Durante esa búsqueda, encontró WordNet.Después de leer sobre el enfoque de WordNet, Li se reunió con la profesora Christiane Fellbaum, una investigadora influyente en el trabajo continuo de WordNet, durante una visita a Princeton en 2006. Fellbaum tuvo la idea de que WordNet podría tener una imagen asociada a cada una de las palabras, más como una referencia en lugar de un conjunto de datos de visión por computadora. Viniendo de esa reunión, Li imaginó algo más grande: un conjunto de datos a gran escala con muchos ejemplos de cada palabra.Meses más tarde, Li se unió a la facultad de Princeton, su alma máter, y comenzó el proyecto ImageNet a principios de 2007. Comenzó a formar un equipo para ayudar con el desafío, primero reclutando a un compañero profesor, Kai Li, quien luego convenció a la estudiante de doctorado Jia Deng para transferirse al laboratorio de Li. Deng ha ayudado a ejecutar el proyecto ImageNet hasta 2017.

«Para mí estaba claro que esto era algo muy diferente de lo que otras personas estaban haciendo, en lo que se enfocaban en ese momento», dijo Deng. «Tenía una idea clara de que esto cambiaría la forma en que se jugaba el juego en vision research, pero no sabía cómo cambiaría.»

Los objetos en el conjunto de datos variarían desde objetos concretos, como pandas o iglesias, hasta ideas abstractas como el amor.

La primera idea de Li fue contratar a estudiantes de pregrado por $10 la hora para encontrar imágenes manualmente y agregarlas al conjunto de datos. Pero las matemáticas de la parte de atrás de la servilleta rápidamente hicieron que Li se diera cuenta de que a la velocidad de los estudiantes universitarios de recolectar imágenes, tomaría 90 años completarlas.

Después de que el grupo de trabajo de pregrado se disolviera, Li y el equipo volvieron a la mesa de dibujo. ¿Qué pasaría si los algoritmos de visión por computadora pudieran recoger las fotos de Internet, y los humanos simplemente seleccionaran las imágenes? Pero después de unos meses de retoques con los algoritmos, el equipo llegó a la conclusión de que esta técnica tampoco era sostenible: los algoritmos futuros se limitarían a juzgar solo qué algoritmos eran capaces de reconocer en el momento en que se compiló el conjunto de datos.

Los estudiantes de pregrado consumían mucho tiempo, los algoritmos eran defectuosos y el equipo no tenía dinero: Li dijo que el proyecto no logró ganar ninguna de las subvenciones federales que solicitó, recibiendo comentarios sobre las propuestas que era vergonzoso que Princeton investigara este tema, y que la única fortaleza de la propuesta era que Li era una mujer.

Finalmente surgió una solución en una conversación casual en el pasillo con una estudiante de posgrado que le preguntó a Li si había oído hablar de Amazon Mechanical Turk, un servicio donde hordas de humanos sentados en computadoras de todo el mundo completarían pequeñas tareas en línea por centavos.

«Me mostró el sitio web, y puedo decirles literalmente que ese día supe que el proyecto ImageNet iba a suceder», dijo. «De repente encontramos una herramienta que podía escalar, con la que no podríamos soñar contratando estudiantes de pregrado de Princeton.»

ImageNet

El Amazon Mechanical Turk backend para la clasificación de imágenes.

Mechanical Turk trajo su propia serie de obstáculos, con gran parte del trabajo realizado por dos de los estudiantes de doctorado de Li, Jia Deng y Olga Russakovsky . Por ejemplo, ¿cuántos turkers necesitaban mirar cada imagen? Tal vez dos personas podrían determinar que un gato es un gato, pero una imagen de un husky en miniatura podría requerir 10 rondas de validación. Qué, si algunos de Turkers trató de juego o engañar al sistema? El equipo de Li terminó creando un lote de modelos estadísticos para los comportamientos de Turker para ayudar a garantizar que el conjunto de datos solo incluyera imágenes correctas.

Incluso después de encontrar a Mechanical Turk, el conjunto de datos tardó dos años y medio en completarse. Constaba de 3,2 millones de imágenes etiquetadas, separadas en 5.247 categorías, clasificadas en 12 subárboles como «mamífero», «vehículo» y «muebles».»

En 2009, Li y su equipo publicaron el documento de ImageNet con el conjunto de datos—to little fanfare. Li recuerda que CVPR, una conferencia líder en investigación de visión por computadora, solo permitía un póster, en lugar de una presentación oral, y el equipo entregó bolígrafos con la marca ImageNet para despertar el interés. La gente era escéptica de la idea básica de que más datos les ayudarían a desarrollar mejores algoritmos.

» Hubo comentarios como ‘Si ni siquiera puedes hacer un objeto bien, ¿por qué harías miles o decenas de miles de objetos?»Dijo Deng.

Si data es el nuevo aceite, todavía eran huesos de dinosaurio en 2009.

El Desafío ImageNet

Más tarde en 2009, en una conferencia de visión por computadora en Kioto, un investigador llamado Alex Berg se acercó a Li para sugerir que se agregara un aspecto adicional al concurso donde los algoritmos también tendrían que localizar dónde estaba el objeto representado, no solo que existiera. Li respondió: Ven a trabajar conmigo.

Li, Berg y Deng escribieron cinco artículos juntos basados en el conjunto de datos, explorando cómo los algoritmos interpretarían cantidades tan grandes de datos. El primer artículo se convertiría en un punto de referencia de cómo reaccionaría un algoritmo a miles de clases de imágenes, el predecesor de la competencia ImageNet.

«Nos dimos cuenta de que para democratizar esta idea teníamos que llegar más lejos», dijo Li, hablando en el primer documento.

Li luego se acercó a un conocido concurso de reconocimiento de imágenes en Europa llamado PASCAL VOC, que acordó colaborar y co-marcar su competencia con ImageNet. El desafío PASCAL era una competencia y un conjunto de datos muy respetados, pero representativo del método de pensamiento anterior. La competencia solo tenía 20 clases, en comparación con las 1.000 de ImageNet.

A medida que la competencia continuó en 2011 y en 2012, pronto se convirtió en un punto de referencia para ver qué tan bien les fue a los algoritmos de clasificación de imágenes en comparación con el conjunto de datos visuales más complejo ensamblado en ese momento.

ImageNet
Una captura de pantalla de la base de datos de ImageNet en línea

Pero los investigadores también comenzaron a notar algo más que una simple competencia: sus algoritmos funcionaban mejor cuando se entrenaban usando el conjunto de datos de ImageNet.

«La agradable sorpresa fue que las personas que entrenaron a sus modelos en ImageNet pudieron usarlos para impulsar modelos para otras tareas de reconocimiento. Empezarías con el modelo de ImageNet y luego lo ajustarías para otra tarea», dijo Berg. «Fue un gran avance tanto para las redes neuronales como para el reconocimiento en general.»

Dos años después de la primera competencia de ImageNet, en 2012, sucedió algo aún más grande. De hecho, si el auge de la inteligencia artificial que vemos hoy pudiera atribuirse a un solo evento, sería el anuncio de los resultados del desafío ImageNet de 2012.

Geoffrey Hinton, Ilya Sutskever y Alex Krizhevsky de la Universidad de Toronto presentaron una arquitectura de red neuronal convolucional profunda llamada AlexNet, que todavía se usa en la investigación hasta el día de hoy, que superó al campo por un enorme margen de 10,8 puntos porcentuales, que fue un 41% mejor que el siguiente mejor.

ImageNet no podía llegar en un mejor momento para Hinton y sus dos alumnos. Hinton había estado trabajando en redes neuronales artificiales desde la década de 1980, y aunque algunos como Yann LeCun habían podido trabajar la tecnología en lectores de cheques de cajeros automáticos a través de la influencia de los Laboratorios Bell, la investigación de Hinton no había encontrado ese tipo de hogar. Unos años antes, la investigación del fabricante de tarjetas gráficas Nvidia había hecho que estas redes procesaran más rápido, pero no mejor que otras técnicas.

Hinton y su equipo habían demostrado que sus redes podían realizar tareas más pequeñas en conjuntos de datos más pequeños, como la detección de escritura a mano, pero necesitaban muchos más datos para ser útiles en el mundo real.

«Estaba tan claro que si hacías un buen trabajo con ImageNet, podías resolver el reconocimiento de imágenes», dijo Sutskever.

Hoy en día, estas redes neuronales convolucionales están en todas partes: Facebook, donde LeCun es director de investigación de IA, las usa para etiquetar tus fotos; los autos autónomos las usan para detectar objetos; básicamente, cualquier cosa que sepa lo que hay en una imagen o video las usa. Pueden saber lo que hay en una imagen encontrando patrones entre píxeles en niveles ascendentes de abstracción, utilizando miles o millones de pequeños cálculos en cada nivel. Las nuevas imágenes pasan por el proceso para que coincidan con los patrones aprendidos. Hinton había estado presionando a sus colegas para que los tomaran en serio durante décadas, pero ahora tenía pruebas de que podían vencer a otras técnicas de vanguardia.

«Lo que es más sorprendente es que las personas pudieron seguir mejorándolo con el aprendizaje profundo», dijo Sutskever, refiriéndose al método que capas redes neuronales para permitir que se procesen patrones más complejos, ahora el favor más popular de la inteligencia artificial. «El aprendizaje profundo es lo correcto.»

Los resultados de ImageNet de 2012 enviaron a investigadores de visión artificial a replicar el proceso. Matthew Zeiler, un Ph de la Universidad de Nueva York.D estudiante que había estudiado con Hinton, se enteró de los resultados de ImageNet y, a través de University of Toronto connection, obtuvo acceso temprano al documento y al código. Comenzó a trabajar con Rob Fergus, un profesor de la Universidad de Nueva York que también había desarrollado una carrera trabajando en redes neuronales. Los dos comenzaron a desarrollar su presentación para el desafío de 2013, y Zeiler finalmente dejó una pasantía en Google semanas antes para centrarse en la presentación.

Zeiler y Fergus ganaron ese año, y para 2014, todos los competidores con mayor puntuación serían redes neuronales profundas, dijo Li.

«Este evento de Imagenet 2012 fue definitivamente lo que desencadenó la gran explosión de la IA hoy en día», escribió Zeiler en un correo electrónico a Quartz. «Definitivamente hubo algunos resultados muy prometedores en el reconocimiento de voz poco antes de esto (de nuevo muchos de ellos provocados por Toronto), pero no despegaron públicamente tanto como lo hizo la victoria de ImageNet en 2012 y los años siguientes.»

Hoy en día, muchos consideran que ImageNet está resuelto: la tasa de error es increíblemente baja, alrededor del 2%. Pero eso es para clasificar, o identificar qué objeto está en una imagen. Esto no significa que un algoritmo conozca las propiedades de ese objeto, de dónde viene, para qué se usa, quién lo hizo o cómo interactúa con su entorno. En resumen, en realidad no entiende lo que está viendo. Esto se refleja en el reconocimiento de voz e incluso en gran parte del procesamiento del lenguaje natural. Si bien nuestra IA de hoy es fantástica para saber qué son las cosas, lo siguiente es comprender estos objetos en el contexto del mundo. Todavía no está claro cómo llegarán los investigadores de IA.

Después de ImageNet

Mientras la competencia está terminando, el conjunto de datos de ImageNet, actualizado a lo largo de los años y ahora con más de 13 millones de imágenes, seguirá vivo.

Berg dice que el equipo intentó retirar el aspecto del desafío en 2014, pero se enfrentó a la oposición de empresas como Google y Facebook a las que les gustó el punto de referencia centralizado. La industria podría señalar un número y decir :»Somos así de buenos.»

Desde 2010, Google, Microsoft y el Instituto Canadiense de Investigación Avanzada han introducido una serie de conjuntos de datos de alto perfil, ya que el aprendizaje profundo ha demostrado requerir datos tan vastos como los que proporcionó ImageNet.

Los conjuntos de datos se han convertido en haute. Los fundadores de startups y los capitalistas de riesgo escribirán publicaciones medianas gritando los últimos conjuntos de datos y cómo les fue a sus algoritmos en ImageNet. Empresas de Internet como Google, Facebook y Amazon han comenzado a crear sus propios conjuntos de datos internos, basados en los millones de imágenes, clips de voz y fragmentos de texto ingresados y compartidos en sus plataformas todos los días. Incluso las nuevas empresas están comenzando a ensamblar sus propios conjuntos de datos: TwentyBN, una empresa de inteligencia artificial centrada en la comprensión de videos, utilizó Amazon Mechanical Turk para recopilar videos de turkers que realizaban gestos y acciones simples con las manos en video. La compañía ha lanzado dos conjuntos de datos gratuitos para uso académico, cada uno con más de 100,000 videos.

«Hay un montón de proliferación y florecimiento de todo tipo de conjuntos de datos, desde videos hasta discursos, juegos y todo», dijo Li.

A veces se da por sentado que estos conjuntos de datos, que son intensivos para recopilar, ensamblar y analizar, son gratuitos. Ser abierto y de uso libre es un principio original de ImageNet que sobrevivirá al desafío y probablemente incluso al conjunto de datos.

En 2016, Google lanzó la base de datos Open Images, que contiene 9 millones de imágenes en 6.000 categorías. Google actualizó recientemente el conjunto de datos para incluir etiquetas de dónde se encontraban objetos específicos en cada imagen, un elemento básico del desafío ImageNet después de 2014. DeepMind, con sede en Londres, comprada por Google y convertida en su propia compañía Alphabet, lanzó recientemente su propio conjunto de datos de video de seres humanos que realizan una variedad de acciones.

«Una cosa que cambió ImageNet en el campo de la IA es que, de repente, la gente se dio cuenta de que el trabajo ingrato de crear un conjunto de datos estaba en el centro de la investigación de la IA», dijo Li. «La gente realmente reconoce la importancia del conjunto de datos tanto en la investigación como en los algoritmos.»

Corrección (26 de julio): Una versión anterior de este artículo escribió mal el nombre de Olga Russakovsky.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.