Em 2006, Fei-Fei Li começou a ruminar sobre uma ideia.Li, uma professora de ciência da computação recém-criada na Universidade de Illinois Urbana-Champaign, viu seus colegas através da academia e da indústria da IA martelando ao mesmo conceito: um algoritmo melhor tomaria melhores decisões, independentemente dos dados.
mas ela percebeu uma limitação a esta abordagem—o melhor algoritmo não funcionaria bem se os dados que aprendeu não refletissem o mundo real.
Sua solução: construir um conjunto de dados melhor.”decidimos que queríamos fazer algo completamente sem precedentes historicamente”, disse Li, referindo-se a uma pequena equipe que inicialmente iria trabalhar com ela. “Vamos mapear todo o mundo de objectos.”
O conjunto de dados resultante foi chamado de ImageNet. Originalmente publicado em 2009 como um pôster de pesquisa preso no canto de um centro de Conferências de Miami Beach, o conjunto de dados rapidamente evoluiu para uma competição anual para ver quais algoritmos poderiam identificar objetos nas imagens do conjunto de dados com a menor taxa de erro. Muitos vêem isso como o catalisador para o boom da IA que o mundo está experimentando hoje.
Alumni of the ImageNet challenge can be found in every corner of the tech world. Os primeiros vencedores do concurso em 2010 passaram a ter papéis seniores em Baidu, Google e Huawei. Matthew Zeiler construiu Clarifai com base em sua vitória ImageNet 2013, e agora é apoiado por US $40 milhões em financiamento VC. Em 2014, o Google dividiu o título vencedor com dois pesquisadores de Oxford, que foram rapidamente desmantelados e adicionados ao seu recém-adquirido laboratório DeepMind.
Li ela mesma é agora Cientista Chefe no Google Cloud, um professor em Stanford, e diretor do laboratório de IA da Universidade.
hoje, ela vai tomar o palco na CVPR para falar sobre os resultados anuais da ImageNet pela última vez—2017 foi o último ano da competição. Em apenas sete anos, a precisão vencedora na classificação de objetos no conjunto de dados aumentou de 71,8% para 97,3%, superando as habilidades humanas e efetivamente provando que dados maiores levam a melhores decisões.mesmo quando a competição termina, o seu legado já está a tomar forma. Desde 2009, dezenas de novos conjuntos de dados de pesquisa de IA foram introduzidos em subcampos como visão de computador, processamento de linguagem natural, e reconhecimento de voz.
“the paradigm shift of the ImageNet thinking is that while a lot of people are paying attention to models, let’s attention to data”, Li said. “Os dados irão redefinir a forma como pensamos sobre modelos.”
What’s ImageNet?
In the late 1980s, Princeton psychologist George Miller started a project called WordNet, with the aim of building a hierarchal structure for the English language. Seria uma espécie de dicionário, mas as palavras seriam mostradas em relação a outras palavras em vez de ordem alfabética. Por exemplo, dentro do WordNet, a palavra “cão” seria aninhada sob “canino”, que seria aninhada sob “mamífero”, e assim por diante. Era uma maneira de organizar a linguagem que dependia da lógica legível por máquina, e acumulou mais de 155.000 palavras indexadas.
Li, em seu primeiro trabalho de ensino na UIUC, tinha sido enfrentando uma das principais tensões na aprendizagem de máquinas: sobrefitting e generalização. Quando um algoritmo só pode trabalhar com dados que estão próximos do que já viu antes, o modelo é considerado sobrefitting aos dados; ele não pode entender nada mais geral além desses exemplos. Por outro lado, se um modelo não pegar os padrões certos entre os dados, ele está exagerando.
encontrar o algoritmo perfeito parecia distante, Li diz. Ela viu que os conjuntos de dados anteriores não capturaram a variável que o mundo poderia ser—mesmo apenas identificando fotos de gatos é infinitamente complexo. Mas ao dar aos algoritmos mais exemplos de quão complexo o mundo poderia ser, fez sentido matemático que eles poderiam se sair melhor. Se ao menos visses cinco fotos de gatos, só terias cinco ângulos de câmara, condições de iluminação, e talvez uma variedade de gatos. Mas se você já viu 500 fotos de gatos, há muitos mais exemplos para desenhar semelhanças.
Li começou a ler sobre como outros tentaram catalogar uma representação justa do mundo com dados. Durante essa busca, ela encontrou O WordNet.após ter lido sobre a abordagem do WordNet, Li encontrou-se com o professor Christiane Fellbaum, um pesquisador influente no trabalho contínuo do WordNet, durante uma visita a Princeton em 2006. Fellbaum teve a idéia de que WordNet poderia ter uma imagem associada com cada uma das palavras, mais como uma referência ao invés de um conjunto de dados de visão computacional. Vindo dessa reunião, Li imaginou algo mais grandioso – um conjunto de dados em grande escala com muitos exemplos de cada palavra.meses depois, Li ingressou na Faculdade de Princeton, sua alma mater, e começou no projeto ImageNet no início de 2007. Ela começou a construir uma equipe para ajudar com o desafio, primeiro recrutando um colega professor, Kai Li, que, em seguida, convenceu o estudante de Ph. D Jia Deng a se transferir para o laboratório de Li. Deng ajudou a executar o projeto ImageNet até 2017.
“ficou claro para mim que isso era algo que era muito diferente do que as outras pessoas estavam fazendo, estavam focados na época”, disse Deng. “Eu tinha uma idéia clara de que isso iria mudar como o jogo foi jogado na pesquisa de visão, mas eu não sabia como isso iria mudar.”
os objetos no conjunto de dados variam de objetos concretos, como pandas ou igrejas, a ideias abstratas como o amor.a primeira ideia de Li foi contratar estudantes de graduação por 10 dólares à hora para encontrar manualmente imagens e adicioná-las ao conjunto de dados. Mas a matemática do guardanapo rapidamente fez com que Li percebesse que a taxa de coleta de imagens dos estudantes levaria 90 anos para ser concluída.após a dissolução da força-tarefa, Li e a equipe voltaram para a mesa de desenho. E se os algoritmos de visão computacional pudessem escolher as fotos da internet, e os humanos simplesmente curassem as imagens? Mas depois de alguns meses remendando com algoritmos, a equipe chegou à conclusão de que esta técnica não era sustentável—algoritmos futuros seriam limitados a apenas julgar quais algoritmos eram capazes de reconhecer no momento em que o conjunto de dados foi compilado.
os graduados eram demorados, algoritmos eram falhos, e a equipe não tinha dinheiro—Li disse que o projeto não conseguiu ganhar nenhuma das bolsas federais que ela se candidatou, recebendo comentários sobre propostas que era vergonhoso Princeton iria pesquisar este tópico, e que a única força da proposta era que Li Era uma mulher.uma solução finalmente surgiu em uma conversa casual com uma estudante graduada que perguntou a Li se ela tinha ouvido falar da Amazon Mechanical Turk, um serviço onde hordas de humanos sentados em computadores ao redor do mundo completariam pequenas tarefas online por centavos.
“ele me mostrou o site, e eu posso dizer literalmente que dia eu sabia que o projeto ImageNet iria acontecer”, disse ela. “De repente, encontramos uma ferramenta que poderia escalar, com a qual não poderíamos sonhar contratando estudantes de Princeton.”
Mechanical Turk brought its own slew of hurdles, with much of the work fielded by two of Li’s Ph. D students, Jia Deng and Olga Russakovsky . Por exemplo, quantos Turkers precisavam olhar para cada imagem? Talvez duas pessoas possam determinar que um gato era um gato, mas uma imagem de uma miniatura husky pode exigir 10 rodadas de validação. E se alguns idiotas tentassem jogar ou enganar o sistema? A equipe de Li acabou criando um lote de modelos estatísticos para os comportamentos de Turker para ajudar a garantir que o conjunto de dados só incluía imagens corretas.mesmo depois de encontrar o turco mecânico, o conjunto de dados demorou dois anos e meio a ser concluído. Consistia de 3,2 milhões de imagens marcadas, separadas em 5.247 categorias, classificadas em 12 subtrees como” mammal”,” vehicle “e ” furniture”.”
In 2009, Li and her team published the ImageNet paper with the dataset—to little fanfare. Li lembra que a CVPR, uma conferência líder em pesquisa de visão computacional, só permitiu um cartaz, em vez de uma apresentação oral, e a equipe entregou canetas de marca ImageNet para ganhar interesse. As pessoas estavam céticas quanto à ideia básica de que mais dados os ajudariam a desenvolver melhores algoritmos.
“houve comentários como’ se você não pode nem mesmo fazer um objeto bem, Por que você faria milhares, ou dezenas de milhares de objetos?”Disse o Deng.se os dados são o novo óleo, ainda eram ossos de dinossauro em 2009.
The ImageNet Challenge
Mais Tarde Em 2009, em uma conferência de visão computacional em Kyoto, um pesquisador chamado Alex Berg se aproximou de Li para sugerir que adicionando um aspecto adicional ao concurso, onde algoritmos também teriam que localizar onde o objeto retratado estava, não apenas que ele existia. Vem trabalhar comigo.
Li, Berg, and Deng authored five papers together based on the dataset, exploring how algorithms would interpret such large amounts of data. O primeiro artigo se tornaria uma referência para como um algoritmo reagiria a milhares de classes de imagens, o antecessor da competição ImageNet.”nós percebemos que para democratizar essa ideia precisávamos chegar mais longe”, disse Li, falando no primeiro artigo.
Li Então se aproximou de um conhecido concurso de reconhecimento de imagem na Europa chamado PASCAL VOC, que concordou em colaborar e co-marcar sua competição com a ImageNet. O desafio PASCAL foi uma competição e um conjunto de dados bem respeitados, mas representativo do método de pensamento anterior. A competição tinha apenas 20 classes, em comparação com as 1.000 da ImageNet.
Como a competição continuou em 2011 e em 2012, logo se tornou uma referência para como bem os algoritmos de classificação de imagens comparadas com o conjunto de dados visuais mais complexos montados na época.
Mas os pesquisadores também começaram a notar algo mais acontecendo do que apenas uma competição seus algoritmos funcionou melhor quando eles treinados usando o ImageNet conjunto de dados.
” a surpresa agradável foi que as pessoas que treinaram seus modelos em ImageNet poderiam usá-los para modelos de arranque para outras tarefas de reconhecimento. Você começaria com o modelo ImageNet e depois ajustaria para outra tarefa”, disse Berg. “Isso foi um avanço tanto para redes neurais e apenas para o reconhecimento em geral.”
dois anos após a primeira competição ImageNet, em 2012, algo ainda maior aconteceu. De fato, se o boom da inteligência artificial que vemos hoje pudesse ser atribuído a um único evento, seria o anúncio dos resultados do Desafio ImageNet 2012.
Geoffrey Hinton, Ilya Sutskever, e Alex Krizhevsky da Universidade de Toronto, apresentou um profundo convolucionais arquitetura de rede neural chamado AlexNet—ainda utilizado na pesquisa para este dia, que bateu o campo por um enorme crescimento de 10,8 pontos percentuais de margem, que foi de 41% melhor do que o melhor.
ImageNet não poderia vir em melhor hora para Hinton e seus dois alunos. Hinton tinha trabalhado em redes neurais artificiais desde os anos 1980, e enquanto alguns como Yann LeCun tinham sido capazes de trabalhar a tecnologia em leitores de verificação ATM através da influência dos Laboratórios Bell, a pesquisa de Hinton não tinha encontrado esse tipo de casa. Alguns anos antes, a pesquisa do fabricante de placas gráficas Nvidia tinha feito essas redes processarem mais rápido, mas ainda não melhor do que outras técnicas.Hinton e sua equipe demonstraram que suas redes poderiam realizar tarefas menores em conjuntos de dados menores, como detecção de caligrafia, mas eles precisavam de muito mais dados para serem úteis no mundo real.
“ficou tão claro que se você fizer um bom trabalho na ImageNet, você pode resolver o reconhecimento de imagem”, disse Sutskever.
hoje em dia, estas redes neurais convolucionais estão em todo o lado—Facebook, onde LeCun é o diretor da AI research, usa-os para marcar suas fotos; carros auto-dirigindo estão usando-os para detectar objetos; basicamente, qualquer coisa que sabe o que está em uma imagem ou vídeo os usa. Eles podem dizer o que está em uma imagem, encontrando padrões entre pixels em níveis ascendentes de abstração, usando milhares a milhões de pequenas computações em cada nível. Novas imagens são colocadas através do processo para combinar seus padrões com padrões aprendidos. Hinton tinha pressionado seus colegas para levá-los a sério por décadas, mas agora ele tinha provas de que eles poderiam vencer outras técnicas de ponta.
“O que é mais surpreendente é que as pessoas foram capazes de continuar a melhorá-lo com o aprendizado profundo”, disse Sutskever, referindo-se ao método que camadas redes neurais para permitir que padrões mais complexos sejam processados, agora o favor mais popular da inteligência artificial. “Aprender profundamente é a coisa certa.”
the 2012 ImageNet results sent computer vision researchers scrambling to replicate the process. Matthew Zeiler, Ph. NYU.D estudante que tinha estudado com Hinton, descobriu sobre os resultados da ImageNet e, através da conexão da Universidade de Toronto, teve acesso antecipado ao papel e ao código. Ele começou a trabalhar com Rob Fergus, um professor da NYU que também tinha construído uma carreira trabalhando em redes neurais. Os dois começaram a desenvolver sua submissão para o desafio de 2013, e Zeiler, eventualmente, deixou um estágio do Google semanas antes para se concentrar na submissão.Zeiler e Fergus venceram esse ano, e em 2014 Todos os competidores de maior pontuação seriam redes neurais profundas, disse Li.
“Este evento Imagenet 2012 foi definitivamente o que despoletou a grande explosão de AI hoje”, Zeiler escreveu em um e-mail para Quartz. “Houve definitivamente alguns resultados muito promissores em reconhecimento de fala pouco antes disso (mais uma vez muitos deles sparked por Toronto), mas eles não decolaram publicamente tanto quanto a ImageNet win fez em 2012 e nos anos seguintes.”
hoje, muitos consideram o ImageNet resolvido—a taxa de erro é incrivelmente baixa em torno de 2%. Mas isso é para classificação, ou para identificar qual objeto está em uma imagem. Isso não significa que um algoritmo conheça as propriedades desse objeto, de onde ele vem, para o que ele é usado, quem o fez, ou como ele interage com seu entorno. Resumindo, não entende o que está a ver. Isto é espelhado no reconhecimento da fala, e mesmo em grande parte do processamento da linguagem natural. Enquanto nossa AI hoje é fantástica em saber o que as coisas são, entender esses objetos no contexto do mundo é o próximo. Como os pesquisadores de IA vão chegar lá ainda não está claro.
após o ImageNet
enquanto a competição está terminando, o conjunto de dados do ImageNet—atualizado ao longo dos anos e agora mais de 13 milhões de imagens fortes—viverá.
Berg diz que a equipe tentou aposentar o único aspecto do Desafio em 2014, mas enfrentou o recuo de empresas, incluindo o Google e o Facebook, que gostaram da referência centralizada. A indústria pode apontar para um número e dizer: “somos assim tão bons.”
desde 2010 tem havido uma série de outros conjuntos de dados de alto perfil introduzidos pelo Google, Microsoft e o Canadian Institute for Advanced Research, uma vez que a deep learning provou exigir dados tão vastos quanto o ImageNet fornecido.os conjuntos de dados tornaram-se a haute. Os fundadores e investidores de capital de risco escreverão posts médios gritando os mais recentes conjuntos de dados, e como seus algoritmos se saíram na ImageNet. Empresas de Internet como Google, Facebook e Amazon começaram a criar seus próprios conjuntos de dados internos, baseados em milhões de imagens, clipes de voz e trechos de texto introduzidos e compartilhados em suas plataformas todos os dias. Mesmo startups estão começando a montar seus próprios conjuntos de dados—TwentyBN, uma empresa de inteligência artificial focada na compreensão de vídeo, usou a Amazon Mechanical Turk para coletar vídeos de Turkers executando gestos simples e ações em vídeo. A empresa lançou dois conjuntos de dados gratuitos para uso acadêmico, cada um com mais de 100.000 vídeos.
“Há um monte de mushrooming e florescendo de todos os tipos de conjuntos de dados, de vídeos para a fala a jogos para tudo”, Li disse.
às vezes é dado como certo que estes conjuntos de dados, que são intensivos para coletar, montar e vet, são gratuitos. Ser aberto e livre para usar é um tenet original de ImageNet que vai sobreviver ao desafio e provavelmente até mesmo o conjunto de dados.
em 2016, o Google lançou o banco de dados Open Images, contendo 9 milhões de imagens em 6.000 categorias. O Google atualizou recentemente o conjunto de dados para incluir etiquetas para onde objetos específicos foram localizados em cada imagem, um grampo do ImageNet challenge após 2014. DeepMind, sediado em Londres, comprado pelo Google e lançado em sua própria empresa de alfabeto, recentemente lançou seu próprio conjunto de dados de vídeo de humanos executando uma variedade de ações.
“Uma coisa que o ImageNet mudou no campo da IA é de repente as pessoas perceberam que o trabalho ingrato de fazer um dataset estava no centro da pesquisa da AI”, Li disse. “As pessoas realmente reconhecem a importância que o conjunto de dados é frente e centro na pesquisa tanto quanto algoritmos.correcção (26 de julho): uma versão anterior deste artigo escreveu mal o nome de Olga Russakovsky.