w 2006 roku Fei-Fei Li zaczęła rozważać pomysł.
Li, świeżo upieczona profesor informatyki na University of Illinois Urbana-Champaign, widziała, jak jej koledzy z różnych środowisk akademickich i branży sztucznej inteligencji uderzają w tę samą koncepcję: lepszy algorytm podejmowałby lepsze decyzje, niezależnie od danych.
ale zdała sobie sprawę z ograniczenia tego podejścia—najlepszy algorytm nie działałby dobrze, gdyby dane, z których się dowiedział, nie odzwierciedlały realnego świata.
jej rozwiązanie: zbuduj lepszy zbiór danych.
„zdecydowaliśmy, że chcemy zrobić coś, co było całkowicie bezprecedensowe historycznie”, powiedziała Li, odnosząc się do małego zespołu, który początkowo z nią współpracował. „Zamierzamy odwzorować cały świat obiektów.”
powstały zbiór danych nazwano ImageNet. Pierwotnie opublikowany w 2009 roku jako plakat badawczy utknął w rogu Centrum Konferencyjnego Miami Beach, zbiór danych szybko przekształcił się w coroczny konkurs, aby zobaczyć, które algorytmy mogą identyfikować obiekty w obrazach zestawu danych z najniższym wskaźnikiem błędów. Wielu postrzega go jako katalizator boomu sztucznej inteligencji, którego świat doświadcza dzisiaj.
absolwentów ImageNet challenge można znaleźć w każdym zakątku świata technologii. Pierwsi zwycięzcy konkursu w 2010 roku zajęli stanowiska kierownicze w firmach Baidu, Google i Huawei. Matthew Zeiler zbudował Clarifai w oparciu o swoją wygraną ImageNet 2013 i jest teraz wspierany przez 40 milionów dolarów funduszy VC. W 2014 roku Google podzieliło się zwycięskim tytułem z dwoma naukowcami z Oksfordu, którzy zostali szybko złapani i dodani do niedawno nabytego laboratorium DeepMind.
Li sama jest obecnie głównym naukowcem w Google Cloud, profesorem w Stanford i dyrektorem Laboratorium Sztucznej Inteligencji na Uniwersytecie.
dzisiaj wystąpi w CVPR, aby po raz ostatni opowiedzieć o rocznych wynikach ImageNet—2017 był ostatnim rokiem konkursu. W ciągu zaledwie siedmiu lat zwycięska dokładność klasyfikacji obiektów w zbiorze danych wzrosła z 71,8% do 97,3%, przewyższając ludzkie możliwości i skutecznie udowadniając, że większe dane prowadzą do lepszych decyzji.
nawet gdy Konkurs się kończy, jego dziedzictwo już się kształtuje. Od 2009 r. wprowadzono dziesiątki nowych zestawów danych do badań nad sztuczną inteligencją w takich dziedzinach, jak widzenie komputerowe, przetwarzanie języka naturalnego i rozpoznawanie głosu.
„zmiana paradygmatu myślenia ImageNet polega na tym, że podczas gdy wielu ludzi zwraca uwagę na modele, zwracajmy uwagę na dane” – powiedział Li. „Dane na nowo zdefiniują sposób myślenia o modelach.”
Co To jest ImageNet?
pod koniec lat 80.psycholog z Princeton George Miller rozpoczął projekt o nazwie WordNet, którego celem było zbudowanie hierarchicznej struktury dla języka angielskiego. Byłoby to coś w rodzaju słownika, ale słowa byłyby pokazywane w stosunku do innych słów, a nie w kolejności alfabetycznej. Na przykład w ramach WordNet słowo „pies” byłoby zagnieżdżone pod „pies”, które byłoby zagnieżdżone pod „ssak” i tak dalej. Był to sposób na zorganizowanie języka, który opierał się na logice czytelnej dla maszyn i zgromadził ponad 155 000 indeksowanych słów.
Li, w swojej pierwszej pracy dydaktycznej w UIUC, zmagała się z jednym z podstawowych napięć w uczeniu maszynowym: przepełnianiem i uogólnianiem. Kiedy algorytm może pracować tylko z danymi, które są zbliżone do tego, co widziano wcześniej, model jest uważany za nadający się do danych; nie może zrozumieć niczego bardziej ogólnego poza tymi przykładami. Z drugiej strony, jeśli model nie wyłapuje odpowiednich wzorców między danymi, jest on nadmiernie generalizowany.
znalezienie idealnego algorytmu wydawało się odległe, mówi Li. Zauważyła, że poprzednie zbiory danych nie uchwyciły, jak zmienny może być świat – nawet samo identyfikowanie zdjęć kotów jest nieskończenie złożone. Ale dając algorytmom więcej przykładów tego, jak skomplikowany może być świat, dało matematycznemu sens, że mogą sobie radzić lepiej. Gdybyś zobaczył tylko pięć zdjęć kotów, miałbyś tylko pięć kątów kamery, warunki oświetleniowe i być może różnorodność kotów. Ale jeśli widziałeś 500 zdjęć kotów, istnieje wiele innych przykładów, z których można czerpać podobieństwa.
Li zaczął czytać o tym, jak inni próbowali skatalogować sprawiedliwą reprezentację świata za pomocą danych. Podczas tych poszukiwań znalazła WordNet.
Po przeczytaniu o podejściu do Wordnetu, Li spotkał się z profesor Christiane Fellbaum, badaczką wpływową w dalszej pracy nad Wordnetem, podczas wizyty w Princeton w 2006 roku. Fellbaum wpadł na pomysł, że WordNet może mieć obraz związany z każdym ze słów, bardziej jako odniesienie niż zestaw danych wizji komputerowej. Wychodząc z tego spotkania, Li wyobraził sobie coś wspanialszego—wielkoskalowy zbiór danych z wieloma przykładami każdego słowa.
kilka miesięcy później Li dołączyła do Wydziału Princeton, swojej macierzystej uczelni, i rozpoczęła pracę nad projektem ImageNet na początku 2007 roku. Zaczęła budować zespół, aby pomóc w Wyzwaniu, najpierw rekrutując kolegę profesora, Kaia Li, który następnie przekonał doktorantkę Jię Deng, aby przeniosła się do laboratorium Li. Deng pomógł uruchomić projekt ImageNet przez 2017.
„było dla mnie jasne, że jest to coś, co bardzo różni się od tego, co robili inni ludzie, byli skupieni w tym czasie” – powiedział Deng. „Miałem jasny pomysł, że to zmieni sposób gry w badaniu wizji, ale nie wiedziałem, jak to się zmieni.”
obiekty w zbiorze danych wahałyby się od konkretnych obiektów, takich jak pandy lub kościoły, do abstrakcyjnych idei, takich jak miłość.
pierwszym pomysłem Li było wynajęcie studentów za $10 za godzinę, aby ręcznie znaleźć obrazy i dodać je do zbioru danych. Ale matematyka z tyłu serwetki szybko uświadomiła Li, że przy tempie zbierania zdjęć przez studentów zajęłoby 90 lat.
Po rozwiązaniu undergrad task force, Li i zespół wrócili do deski kreślarskiej. Co, jeśli algorytmy komputerowo-wizyjne mogłyby wybrać zdjęcia z Internetu, a ludzie mogliby je po prostu kuratorować? Ale po kilku miesiącach majsterkowania z algorytmami zespół doszedł do wniosku, że ta technika nie była trwała—przyszłe algorytmy będą ograniczone tylko do oceny, jakie algorytmy były w stanie rozpoznać w momencie kompilacji zestawu danych.
studia licencjackie były czasochłonne, algorytmy były wadliwe, a zespół nie miał pieniędzy-li powiedziała, że projekt nie zdobył żadnego z grantów federalnych, o które się ubiegała, otrzymując komentarze na temat propozycji, że haniebne było zbadanie tego tematu przez Princeton, a jedyną siłą propozycji było to, że Li była kobietą.
rozwiązanie w końcu pojawiło się w przypadkowej rozmowie z absolwentką, która zapytała Li, czy słyszała o Amazon Mechanical Turk, usłudze, w której hordy ludzi siedzących przy komputerach na całym świecie wykonywałyby małe zadania online za grosze.
„pokazał mi stronę internetową i mogę powiedzieć dosłownie tego dnia, że wiedziałem, że projekt ImageNet się wydarzy” – powiedziała. „Nagle znaleźliśmy narzędzie, które można skalować, o którym nie moglibyśmy marzyć, zatrudniając licencjatów z Princeton.”
Mechanical Turk przyniósł własną serię przeszkód, z dużą częścią pracy wykonanej przez dwóch doktorantów Li, Jia Deng i Olgę Russakovsky . Na przykład, ile Turkerów potrzebowało, aby spojrzeć na każdy obraz? Może dwie osoby mogłyby ustalić, że kot był kotem, ale obraz miniaturowego husky może wymagać 10 rund walidacji. Co, jeśli niektórzy Turkerzy próbowali grać lub oszukiwać system? Zespół Li stworzył serię modeli statystycznych dla zachowań Turkera, aby zapewnić, że zestaw danych zawiera tylko poprawne obrazy.
nawet po znalezieniu Mechanical Turk zbiór danych trwał dwa i pół roku. Składał się z 3,2 miliona oznakowanych obrazów, podzielonych na 5247 kategorii, posortowanych na 12 podtreów, takich jak „ssak”, „pojazd” i „Meble.”
w 2009 roku Li i jej zespół opublikowali artykuł ImageNet z dataset—to little fanfare. Li przypomina, że cvpr, wiodąca konferencja w dziedzinie komputerowych badań wzroku, zezwoliła tylko na plakat zamiast ustnej prezentacji, a zespół rozdał długopisy marki ImageNet, aby wzbudzić zainteresowanie. Ludzie byli sceptyczni wobec podstawowej idei, że więcej danych pomoże im opracować lepsze algorytmy.
„pojawiły się komentarze typu” jeśli nie potrafisz nawet dobrze zrobić jednego obiektu, to dlaczego miałbyś robić tysiące, czy dziesiątki tysięcy obiektów?”Deng powiedział.
Jeśli dane są nowym olejem, to w 2009 r.nadal były to kości dinozaurów.
The ImageNet Challenge
później w 2009 roku, na konferencji computer vision w Kioto, naukowiec o imieniu Alex Berg zwrócił się do Li, aby zasugerować dodanie dodatkowego aspektu do konkursu, w którym algorytmy muszą również zlokalizować miejsce, w którym znajduje się obrazowany obiekt, a nie tylko to, że istnieje. Li odpowiedział: Chodź ze mną pracować.
Li, Berg i Deng są autorami pięciu prac opartych na zbiorze danych, badając, w jaki sposób algorytmy zinterpretowałyby tak ogromne ilości danych. Pierwszy artykuł stałby się punktem odniesienia dla reakcji algorytmu na tysiące klas obrazów, poprzednika konkurencji ImageNet.
„zdaliśmy sobie sprawę, że aby demokratyzować ten pomysł, musimy sięgnąć dalej”, powiedział Li, przemawiając na pierwszej gazecie.
Li zgłosiła się następnie do znanego w Europie konkursu na rozpoznawanie obrazów o nazwie PASCAL VOC, który zgodził się współpracować i współtworzyć ich konkurencję z ImageNet. PASCAL challenge był cenionym konkursem i zestawem danych, ale reprezentatywnym dla poprzedniej metody myślenia. Zawody miały tylko 20 klas, w porównaniu do 1000 ImageNet.
wraz z kontynuacją konkursu w 2011 r.i w 2012 r., wkrótce stał się on punktem odniesienia dla tego, jak dobrze algorytmy klasyfikacji obrazów radziły sobie z najbardziej złożonym wizualnym zestawem danych zmontowanym w tym czasie.
ale naukowcy zaczęli również zauważać coś więcej niż tylko konkurencję—ich algorytmy działały lepiej, gdy trenowali przy użyciu zestawu danych ImageNet.
„miłą niespodzianką było to, że osoby, które szkoliły swoje modele na ImageNet, mogły używać ich do uruchamiania modeli do innych zadań rozpoznawania. Zaczynasz od modelu ImageNet, a następnie dostrajasz go do innego zadania” – powiedział Berg. „Był to przełom zarówno dla sieci neuronowych, jak i dla ogólnego uznania.”
dwa lata po pierwszym konkursie ImageNet, w 2012 roku, wydarzyło się coś jeszcze większego. Rzeczywiście, gdyby boom na sztuczną inteligencję, który dziś widzimy, mógł być przypisany pojedynczemu wydarzeniu, byłoby to ogłoszenie wyników ImageNet challenge 2012.
Geoffrey Hinton, Ilya Sutskever i Alex Krizhevsky z University of Toronto przedstawili głęboką architekturę sieci neuronowych o nazwie AlexNet—wciąż używaną w badaniach do dziś—która pokonała tę dziedzinę o aż 10,8 punktu procentowego, czyli o 41% lepszą niż następna najlepsza.
ImageNet nie mógł przyjść w lepszym momencie Dla Hintona i jego dwóch uczniów. Hinton pracował nad sztucznymi sieciami neuronowymi od 1980 roku i chociaż niektórzy, jak Yann LeCun, byli w stanie wykorzystać tę technologię w czytnikach czeków ATM dzięki wpływowi Bell Labs, badania Hintona nie znalazły takiego domu. Kilka lat wcześniej badania producenta kart graficznych firmy Nvidia sprawiły, że sieci te przetwarzają się szybciej, ale wciąż nie lepiej niż inne techniki.
Hinton i jego zespół wykazali, że ich sieci mogą wykonywać mniejsze zadania na mniejszych zestawach danych, takich jak wykrywanie pisma ręcznego, ale potrzebowali znacznie więcej danych, aby były przydatne w prawdziwym świecie.
„To było tak jasne, że jeśli zrobisz naprawdę dobre na ImageNet, możesz rozwiązać rozpoznawanie obrazu”, powiedział Sutskever.
dziś te konwolutacyjne sieci neuronowe są wszędzie-Facebook, gdzie LeCun jest dyrektorem ds. badań nad sztuczną inteligencją, używa ich do oznaczania Twoich zdjęć; samochody samojezdne używają ich do wykrywania obiektów; w zasadzie wszystko, co wie, co jest na obrazie lub filmie, używa ich. Mogą stwierdzić, co jest na obrazie, znajdując wzorce między pikselami na rosnących poziomach abstrakcji, używając tysięcy do milionów małych obliczeń na każdym poziomie. Nowe obrazy są poddawane procesowi dopasowywania ich wzorców do wyuczonych wzorców. Hinton od dziesięcioleci naciskał na swoich kolegów, aby traktowali je poważnie, ale teraz miał dowód na to, że mogą pokonać inne najnowocześniejsze techniki.
„niesamowite jest to, że ludzie byli w stanie ulepszać go za pomocą głębokiego uczenia”, powiedział Sutskever, odnosząc się do metody warstwowania sieci neuronowych, aby umożliwić przetwarzanie bardziej złożonych wzorców, obecnie najpopularniejszej przysługi sztucznej inteligencji. „Deep learning to właściwe rozwiązanie.”
wyniki ImageNet z 2012 roku wysłały naukowców zajmujących się wizyjnością komputerową, aby odtworzyli ten proces. Matthew Zeiler, NYU Ph.Student D, który studiował pod kierunkiem Hintona, dowiedział się o wynikach ImageNet i dzięki połączeniu z University of Toronto uzyskał wczesny dostęp do papieru i kodu. Rozpoczął współpracę z Robem Fergusem, profesorem NYU, który również zbudował karierę pracując nad sieciami neuronowymi. Obaj zaczęli opracowywać swoje zgłoszenia do wyzwania 2013, a Zeiler ostatecznie opuścił kilka tygodni wcześniej staż Google, aby skupić się na zgłoszeniu.
Zeiler i Fergus wygrali w tym roku, a do 2014 roku wszyscy wysoko punktowani konkurenci będą głębokimi sieciami neuronowymi, powiedział Li.
„to wydarzenie Imagenet 2012 było zdecydowanie tym, co wywołało dzisiaj wielką eksplozję sztucznej inteligencji” – napisał Zeiler w mailu do Quartz. „Na krótko przed tym były zdecydowanie bardzo obiecujące wyniki w rozpoznawaniu mowy (ponownie wiele z nich wywołało Toronto), ale nie wystartowały publicznie tak bardzo, jak wygrana ImageNet w 2012 i następnych latach.”
dzisiaj wielu uważa ImageNet za rozwiązany-współczynnik błędów jest niewiarygodnie niski i wynosi około 2%. Ale to jest do klasyfikacji, lub identyfikacji, który obiekt jest na obrazie. Nie oznacza to, że algorytm zna właściwości tego obiektu, skąd pochodzi, do czego jest używany, kto go stworzył lub jak oddziałuje z otoczeniem. Krótko mówiąc, nie rozumie, co widzi. Jest to odzwierciedlone w rozpoznawaniu mowy, a nawet w dużej części przetwarzania języka naturalnego. Podczas gdy nasza sztuczna inteligencja doskonale wie, czym są rzeczy,zrozumienie tych obiektów w kontekście świata jest następne. Sposób, w jaki badacze AI tam dotrą, jest nadal niejasny.
po zakończeniu konkursu ImageNet
, zbiór danych ImageNet—aktualizowany przez lata, a teraz ponad 13 milionów zdjęć—będzie żył dalej.
Berg twierdzi, że zespół próbował wycofać się z tego jednego aspektu wyzwania w 2014 roku, ale stanął w obliczu wypychania ze strony firm, w tym Google i Facebooka, którym spodobał się scentralizowany benchmark. Przemysł mógłby wskazać jedną liczbę i powiedzieć: „jesteśmy tacy dobrzy.”
od 2010 roku wprowadzono wiele innych głośnych zestawów danych wprowadzonych przez Google, Microsoft i Kanadyjski Instytut Zaawansowanych Badań, ponieważ deep learning okazał się wymagać danych tak rozległych, jak to, co zapewnia ImageNet.
zbiory danych stały się haute. Założyciele startupów i venture capital będą pisać średnie posty, wykrzykując najnowsze zbiory danych i jak ich algorytmy radziły sobie na ImageNet. Firmy internetowe, takie jak Google, Facebook i Amazon, zaczęły tworzyć własne wewnętrzne zbiory danych, oparte na milionach obrazów, klipów głosowych i fragmentów tekstu wprowadzanych i udostępnianych codziennie na swoich platformach. Nawet startupy zaczynają gromadzić własne zbiory danych-TwentyBN, firma AI skupiona na zrozumieniu wideo, wykorzystała Amazon Mechanical Turk do zbierania filmów Turkerów wykonujących Proste gesty i działania na wideo. Firma wydała dwa zbiory danych za darmo do użytku akademickiego, każdy z ponad 100 000 filmów.
„jest wiele grzybobrania i rozkwitu wszelkiego rodzaju zbiorów danych, od filmów przez mowę, gry po wszystko” – powiedział Li.
czasami przyjmuje się za pewnik, że te zbiory danych, które są intensywne do zbierania, montażu i weryfikacji, są bezpłatne. Bycie otwartym i wolnym w użyciu to oryginalna zasada ImageNet, która przetrwa wyzwanie, a prawdopodobnie nawet zbiór danych.
w 2016 roku Google udostępniło bazę danych Open Images, zawierającą 9 milionów obrazów w 6000 kategoriach. Firma Google niedawno zaktualizowała zestaw danych, aby uwzględnić etykiety, w których na każdym obrazie znajdują się określone obiekty, co jest podstawą wyzwania ImageNet po 2014 roku. Londyńska firma DeepMind, kupiona przez Google i przekształcona w własną firmę Alphabet, wydała niedawno własny zestaw danych wideo przedstawiających ludzi wykonujących różne czynności.
„jedną z rzeczy, które ImageNet zmienił w dziedzinie sztucznej inteligencji, jest to, że nagle ludzie zdali sobie sprawę, że niewdzięczna praca polegająca na tworzeniu zbioru danych była podstawą badań nad sztuczną inteligencją” – powiedział Li. „Ludzie naprawdę zdają sobie sprawę, jak ważny jest zbiór danych w badaniach tak samo jak algorytmy.”
korekta (26 lipca): wcześniejsza wersja tego artykułu błędnie wpisała Imię Olgi Russakovskiej.