vuonna 2006 Fei-Fei Li alkoi märehtiä ideaa.
Li, vastikään lyöty tietojenkäsittelytieteen professori Illinois Urbana-Champaignin yliopistossa, näki kollegoidensa eri puolilla yliopistomaailmaa ja TEKOÄLYTEOLLISUUTTA takomassa samaa konseptia: parempi algoritmi tekisi parempia päätöksiä datasta riippumatta.
mutta hän tajusi rajoituksen tähän lähestymistapaan—paras algoritmi ei toimisi hyvin, jos sen oppimat tiedot eivät heijastaisi todellista maailmaa.
hänen ratkaisunsa: rakenna parempi tietokokonaisuus.
”päätimme, että haluamme tehdä jotain, joka on täysin historiallisesti ennennäkemätöntä”, Li sanoi viitaten pieneen tiimiin, joka tekisi aluksi yhteistyötä hänen kanssaan. ”Kartoitamme koko esineiden maailman.”
tuloksena olevaa aineistoa kutsuttiin Imagenetiksi. Alun perin vuonna 2009 Miami Beachin konferenssikeskuksen nurkkaan juuttuneena tutkimusjulisteena julkaistu aineisto kehittyi nopeasti vuotuiseksi kilpailuksi siitä, mitkä algoritmit voisivat tunnistaa aineistosta kuvia, joissa on pienin virhetaso. Monet näkevät sen katalysaattorina TEKOÄLYBUUMILLE, jota maailma nykyään kokee.
ImageNet-haasteen alumneja löytyy tekniikan maailman joka kolkasta. Kilpailun ensimmäiset voittajat vuonna 2010 siirtyivät Baidun, Googlen ja Huawein johtotehtäviin. Matthew Zeiler rakensi Clarifain vuoden 2013 ImageNet-voittonsa pohjalta ja on nyt 40 miljoonan dollarin VC-rahoituksen tukena. Vuonna 2014 Google jakoi voittajan tittelin kahden oxfordilaisen tutkijan kanssa, jotka otettiin nopeasti kiinni ja lisättiin sen hiljattain hankkimaan DeepMind-laboratorioon.
Li itse on nykyään Google Cloudin Päätutkija, Stanfordin yliopiston professori ja yliopiston TEKOÄLYLABORATORION johtaja.
tänään hän nousee cvpr: n lavalle puhumaan Imagenetin vuosituloksista viimeisen kerran—vuosi 2017 oli kilpailun viimeinen vuosi. Vain seitsemän vuotta, voittaa tarkkuus luokittelussa esineitä aineisto nousi 71.8%: sta 97.3%, ylitti ihmisen kyvyt ja tehokkaasti todistaa, että suurempi data johtaa parempia päätöksiä.
kilpailun päättyessä sen perintö on jo muotoutumassa. Vuodesta 2009 lähtien kymmeniä uusia tekoälyn tutkimusaineistoja on otettu käyttöön muun muassa tietokonenäön, luonnollisen kielen käsittelyn ja puheentunnistuksen aloilla.
”ImageNet-ajattelun paradigman muutos on se, että vaikka monet ihmiset kiinnittävät huomiota malleihin, kiinnitetään huomiota dataan”, Li sanoi. ”Data määrittelee uudelleen, miten ajattelemme malleista.”
mikä on ImageNet?
1980-luvun lopulla Princetonilainen psykologi George Miller aloitti WordNet-nimisen projektin, jonka tavoitteena oli rakentaa englannin kielelle hierarkkinen rakenne. Se olisi tavallaan kuin sanakirja, mutta sanat esitettäisiin suhteessa muihin sanoihin aakkosjärjestyksen sijaan. Esimerkiksi WordNetin sisällä sana” koira ”pesiytyisi alle” koira”, joka pesiytyisi alle” nisäkäs ” ja niin edelleen. Se oli tapa järjestää kieli, joka tukeutui koneellisesti luettavaan logiikkaan ja keräsi yli 155 000 indeksoitua sanaa.
Li oli ensimmäisessä opetustyössään UIUC: ssa painiskellut yhden koneoppimisen keskeisen jännitteen kanssa: ylimitoituksen ja yleistämisen. Kun algoritmi voi toimia vain sellaisella datalla, joka on lähellä sitä, mitä se on aiemmin nähnyt, mallin katsotaan ylitsepääsevän dataan; se ei voi ymmärtää mitään yleisempää noiden esimerkkien ohi. Toisaalta, jos malli ei poimi oikeita kuvioita datan välistä, se on ylisukupolvista.
täydellisen algoritmin löytäminen tuntui kaukaiselta, Li sanoo. Hän näki, että aiemmat aineistot eivät kuvanneet, kuinka vaihteleva maailma voisi olla—jopa pelkkä kissojen kuvien tunnistaminen on äärettömän monimutkaista. Mutta antamalla algoritmeille lisää esimerkkejä siitä, miten monimutkainen maailma voisi olla, se teki matemaattisesti järkevää ne voisivat pärjätä paremmin. Jos kissoista näkisi vain viisi kuvaa, kamerakulmia olisi vain viisi, valaistusolosuhteet ja ehkä erilaisia kissoja. Mutta jos olet nähnyt 500 kuvaa kissoista, on monia muita esimerkkejä, joista ammentaa yhtäläisyyksiä.
Li alkoi lukea siitä, kuinka muut olivat yrittäneet luetteloida datan avulla oikeudenmukaista kuvausta maailmasta. Etsinnän aikana hän löysi WordNetin.
luettuaan WordNetin lähestymistavasta Li tapasi professori Christiane Fellbaumin, joka vaikutti WordNetin jatkuvaan työhön, vierailullaan Princetonissa vuonna 2006. Fellbaum sai idean, että Wordnetissä voisi olla jokaiseen sanaan liittyvä kuva, enemmänkin viitteenä kuin tietokonenäkötietokanta. Tullessaan tuosta kokouksesta Li kuvitteli jotain suurenmoisempaa-suuren mittakaavan aineiston, jossa oli monta esimerkkiä jokaisesta sanasta.
kuukausia myöhemmin Li liittyi Princetonin tiedekuntaan, almanakkaansa, ja aloitti ImageNet-projektissa vuoden 2007 alussa. Hän alkoi rakentaa tiimiä auttamaan haasteessa ja värväsi ensin professorikollegansa Kai Lin, joka sitten suostutteli tohtorin opiskelija Jia Dengin siirtymään Lin laboratorioon. Deng on ollut mukana toteuttamassa ImageNet-projektia läpi vuoden 2017.
”minulle oli selvää, että tämä oli jotain hyvin erilaista kuin mitä muut ihmiset tekivät, siihen aikaan keskityttiin”, Deng sanoi. ”Minulla oli selkeä ajatus, että tämä muuttaisi sitä, miten peliä pelataan näöntutkimuksessa, mutta en tiennyt, miten se muuttuisi.”
aineiston esineet ulottuisivat konkreettisista esineistä, kuten pandoista tai kirkoista, abstrakteihin ajatuksiin, kuten rakkauteen.
Lin ensimmäinen ajatus oli palkata perustutkinto-opiskelijoita 10 dollarin tuntipalkalla, jotta he löytäisivät kuvat manuaalisesti ja lisäisivät ne aineistoon. Mutta lautasliinan takainen matematiikka sai Lin nopeasti tajuamaan, että kuvien keräämisvauhdilla valmistuminen kestäisi 90 vuotta.
kun undergrad-työryhmä lakkautettiin, Li ja ryhmä palasivat piirustuspöydälle. Entä jos tietokonenäköalgoritmit voisivat poimia kuvat internetistä, ja ihmiset sitten vain kuratoisivat kuvat? Mutta muutaman kuukauden puuhastelun algoritmeja, tiimi tuli siihen tulokseen, että tämä tekniikka ei ollut kestävä joko-tulevaisuuden algoritmit rajoittuvat vain päätellen, mitä algoritmit pystyivät tunnistamaan aikaan aineisto koottiin.
Undergradit olivat aikaa vieviä, algoritmit puutteellisia, eikä tiimillä ollut rahaa-Li sanoi, että projekti ei onnistunut voittamaan yhtään hakemaansa liittovaltion apurahaa, saaden kommentteja ehdotuksista, että olisi häpeällistä, että Princeton tutkisi tätä aihetta, ja että ehdotuksen ainoa vahvuus oli se, että Li oli nainen.
ratkaisu nousi lopulta pintaan sattumalta käytäväkeskustelussa jatko-opiskelijan kanssa, joka kysyi Li: ltä, oliko hän kuullut Amazon Mechanical Turk-palvelusta, jossa tietokoneiden ääressä ympäri maailmaa istuvat ihmislaumat suorittaisivat pieniä nettitehtäviä penneillä.
”hän näytti minulle nettisivut, ja voin kertoa kirjaimellisesti sinä päivänä, kun tiesin ImageNet-projektin toteutuvan”, hän sanoi. ”Yhtäkkiä löysimme työkalun, joka voisi skaalata, että emme voisi mitenkään uneksia palkkaamalla Princetonin opiskelijat.”
Mechanical Turk toi oman liekkinsä esteratsastukseen, ja suuren osan työstä teki kaksi Lin Tohtoriopiskelijaa, Jia Deng ja Olga Russakovsky . Kuinka monen Turkerin piti esimerkiksi katsoa jokaista kuvaa? Ehkä kaksi ihmistä voisi päätellä, että kissa on kissa, mutta miniatyyrihuskyn kuva voi vaatia 10 tarkistuskierrosta. Mitä jos jotkut Turkerit yrittäisivät pelata tai huijata järjestelmää? Lin tiimi päätyi luomaan erän tilastollisia malleja Turkkerin käyttäytymisestä, jotta tietokokonaisuus sisältäisi vain oikeita kuvia.
vielä Mechanical Turkin löytämisen jälkeenkin aineiston valmistuminen kesti kaksi ja puoli vuotta. Se koostui 3,2 miljoonasta leimatusta kuvasta, jotka oli jaettu 5 247 luokkaan ja lajiteltu 12 alatyyppiin, kuten ”nisäkäs”, ”ajoneuvo” ja ” huonekalut.”
vuonna 2009 Li tiimeineen julkaisi ImageNet—lehden dataset-to little fanfare. Li muistuttaa, että tietokonenäköntutkimuksen johtava konferenssi CVPR salli suullisen esityksen sijaan vain julisteen, ja työryhmä jakoi IMAGEnet-merkkisiä kyniä rummuttaakseen kiinnostusta. Ihmiset olivat skeptisiä perusajatuksesta, että enemmän tietoa auttaisi heitä kehittämään parempia algoritmeja.
”oli kommentteja, kuten” Jos et osaa edes yhtä esinettä hyvin, miksi tekisit tuhansia tai kymmeniä tuhansia esineitä?”Deng sanoi.
Jos data on uusi öljy, se oli vielä vuonna 2009 dinosauruksen luita.
ImageNet-haaste
myöhemmin vuonna 2009 Kiotossa pidetyssä computer vision-konferenssissa tutkija Alex Berg lähestyi Li: tä ehdottaen, että kilpailuun lisättäisiin lisäosa, jossa algoritmien täytyisi paikantaa myös kuvan kohde, ei vain sitä, että se on olemassa. Li vastasi: tule työskentelemään kanssani.
Li, Berg ja Deng kirjoittivat viisi tutkielmaa yhdessä aineiston pohjalta selvittäen, miten algoritmit tulkitsisivat niin valtavia tietomääriä. Ensimmäisestä paperista tulisi vertailukohta sille, miten algoritmi reagoisi tuhansiin kuvanluokkiin, ImageNet-kilpailun edeltäjä.
”tajusimme demokratisoida tämän ajatuksen, jota meidän piti kurottaa eteenpäin”, Li sanoi puhuessaan ensimmäisessä paperissa.
Li lähestyi tämän jälkeen Euroopassa tunnettua Pascal VOC-nimistä kuvantunnistuskilpailua, joka suostui yhteistyöhön ja brändäämään kilpailijansa Imagenetin kanssa. PASCAL challenge oli arvostettu kilpailu-ja datajoukko, mutta edusti aikaisempaa ajattelutapaa. Kilpailussa oli vain 20 luokkaa, kun ImageNet ’ N 1 000.
kilpailun jatkuessa vuonna 2011 ja vuoteen 2012 siitä tuli pian vertailukohta sille, miten hyvin kuvanluokitusalgoritmit pärjäsivät tuolloin koottua monimutkaisinta visuaalista aineistoa vastaan.
mutta tutkijat alkoivat myös huomata, että meneillään oli muutakin kuin kilpailu-heidän algoritminsa toimivat paremmin, kun he harjoittelivat IMAGEnet-aineistoa käyttäen.
”mukava yllätys oli se, että ImageNet-ohjelmalla mallejaan kouluttaneet ihmiset saattoivat käyttää niitä hyppyvahtimalleina muihin tunnistustehtäviin. ImageNet-mallilla voisi aloittaa ja sitten hienosäätää sitä toista tehtävää varten, Berg sanoi. ”Se oli läpimurto sekä neuroverkoille että ylipäätään tunnustukselle.”
kaksi vuotta ensimmäisen ImageNet-kilpailun jälkeen, vuonna 2012, tapahtui jotain vielä suurempaa. Itse asiassa, jos tänään nähtävä tekoälybuumi voisi johtua yhdestä tapahtumasta, se olisi vuoden 2012 ImageNet challenge-tulosten julkistaminen.
Geoffrey Hinton, Ilya sutskever ja Alex Krizhevsky Toronton yliopistosta esittivät alexnet—nimisen syvän convolutionaalisen neuroverkkoarkkitehtuurin—jota käytetään edelleen tutkimuksessa-joka päihitti kentän huimalla 10,8 prosenttiyksikön marginaalilla, joka oli 41% parempi kuin seuraavaksi paras.
ImageNet eivät voisi tulla Hintonille ja hänen kahdelle oppilaalleen parempaan aikaan. Hinton oli työskennellyt keinotekoisten neuroverkkojen parissa 1980-luvulta lähtien, ja vaikka jotkut, kuten Yann LeCun, olivat pystyneet työstämään teknologiaa pankkiautomaattien tarkistuslukijoihin Bell Labsin vaikutuksesta, Hintonin tutkimus ei ollut löytänyt sellaista kotia. Muutamaa vuotta aiemmin näytönohjainvalmistaja Nvidian tutkimus oli tehnyt näistä verkoista nopeampia, mutta ei silti parempia kuin muut tekniikat.
Hinton ryhmineen oli osoittanut, että heidän verkostonsa pystyivät suorittamaan pienempiä tehtäviä pienemmillä tietokokonaisuuksilla, kuten käsialan tunnistamisessa, mutta he tarvitsivat paljon enemmän tietoa ollakseen hyödyksi reaalimaailmassa.
”oli niin selvää, että jos tekee Imagenetissä todella hyvää, voi ratkaista kuvantunnistuksen”, sutskever sanoi.
nykyään näitä convolutionaalisia neuroverkostoja on kaikkialla—Facebook, jossa LECUN on tekoälytutkimuksen johtaja, käyttää niitä kuviesi merkitsemiseen; itseajavat autot käyttävät niitä esineiden havaitsemiseen; periaatteessa kaikki, joka tietää mitä kuvassa tai videossa on, käyttää niitä. Ne voivat kertoa mitä kuvassa on etsimällä kuvioita pikselien välillä nousevilla abstraktiotasoilla käyttäen tuhansia tai miljoonia pieniä laskelmia kullakin tasolla. Uusia kuvia laitetaan prosessin läpi sovittamaan niiden kuvioita opittuihin kuvioihin. Hinton oli painostanut kollegoitaan ottamaan heidät vakavasti jo vuosikymmeniä, mutta nyt hänellä oli todisteita siitä, että he voisivat päihittää muut huipputekniikat.
”ihmeellisempää on, että ihmiset pystyivät jatkuvasti parantamaan sitä syväoppimisen avulla”, Sutskever sanoi viitaten menetelmään, jossa hermoverkot kerrostetaan monimutkaisempien kuvioiden käsittelemiseksi, joka on nykyään tekoälyn suosituin suosionosoitus. ”Syväoppiminen on juuri oikea juttu.”
vuoden 2012 ImageNet-tulokset lähettivät tietokonenäkötutkijat monistamaan prosessia. Matthew Zeiler, NYU: n filosofian tohtori.D opiskelija, joka oli opiskellut Hintonin johdolla, sai tietää Imagenetin tuloksista ja Toronto Connectionin yliopiston kautta pääsi varhain käsiksi paperiin ja koodiin. Hän aloitti yhteistyön NYU: n professorin Rob Fergusin kanssa, joka oli myös luonut uran neuroverkkojen parissa. Kaksikko alkoi kehittää jättämistään vuoden 2013 haasteeseen, ja Zeiler jätti lopulta Google-harjoittelun viikkoja etuajassa keskittyäkseen jättämiseen.
Zeiler ja Fergus voittivat sinä vuonna, ja vuoteen 2014 mennessä kaikki kovatasoiset kilpailijat olisivat syviä neuroverkostoja, Li sanoi.
”Tämä Imagenet 2012-tapahtuma oli ehdottomasti se, mikä laukaisi tekoälyn suuren räjähdyksen tänään”, Zeiler kirjoitti Quartzille lähettämässään sähköpostissa. ”Puheentunnistuksessa oli varmasti joitakin erittäin lupaavia tuloksia vähän ennen tätä (jälleen monet niistä herätti Toronto), mutta ne eivät nousseet julkisesti yhtä paljon kuin ImageNet win teki vuonna 2012 ja sitä seuraavina vuosina.”
nykyään monet pitävät Imagenetiä ratkaistuna—virhetaso on uskomattoman alhainen, noin 2%. Mutta se on luokittelu, tai tunnistaa, mikä esine on kuvassa. Tämä ei tarkoita, että algoritmi tietäisi kohteen ominaisuudet, mistä se tulee, mihin sitä käytetään, kuka sen teki tai miten se on vuorovaikutuksessa ympäristönsä kanssa. Lyhyesti sanottuna se ei ymmärrä näkemäänsä. Tämä näkyy puheentunnistuksessa ja jopa suuressa osassa luonnollista kielen käsittelyä. Vaikka TEKOÄLYMME on tänä päivänä fantastinen tietämään, mitä asiat ovat, näiden esineiden ymmärtäminen maailman kontekstissa on seuraavana. Miten tekoälytutkijat sinne pääsevät, on vielä epäselvää.
ImageNet
kilpailun päättyessä ImageNet—aineisto—päivitetty vuosien varrella ja nyt yli 13 miljoonaa kuvaa vahvana-jää elämään.
Berg kertoo, että tiimi yritti vetäytyä yhden osa-alueen haasteesta vuonna 2014, mutta kohtasi vastaiskua yrityksiltä, kuten Googlelta ja Facebookilta, jotka pitivät keskitetystä vertailukohdasta. Ala voisi osoittaa yhtä numeroa ja sanoa: ”olemme näin hyviä.”
vuoden 2010 jälkeen Google, Microsoft ja Canadian Institute for Advanced Research ovat ottaneet käyttöön useita muita korkean profiilin tietokokonaisuuksia, sillä syväoppiminen on osoittautunut vaativan niinkin laajaa dataa kuin mitä ImageNet tarjosi.
aineistot ovat muuttuneet hauteiksi. Startup-perustajat ja pääomasijoittajat kirjoittavat Medium-viestejä huutaen uusimpia tietokokonaisuuksia ja kuinka heidän algoritminsa pärjäsivät Imagenetissä. Internet-yritykset, kuten Google, Facebook ja Amazon, ovat alkaneet luoda omia sisäisiä tietokokonaisuuksiaan, jotka perustuvat miljooniin kuviin, äänileikkeisiin ja tekstinpätkiin, jotka syötetään ja jaetaan niiden alustoilla päivittäin. Jopa startupit alkavat koota omia tietokokonaisuuksiaan-videon ymmärtämiseen keskittynyt TEKOÄLYYRITYS TwentyBN keräsi Amazonin Mechanical Turk-palvelun avulla videoita turkkilaisista, jotka tekevät videolla yksinkertaisia käden eleitä ja tekoja. Yhtiö on julkaissut kaksi aineistoa ilmaiseksi akateemiseen käyttöön, joista kummastakin löytyy yli 100 000 videota.
”täällä on paljon kaikenlaista informaatiota, videoista puheeseen, peleihin ja kaikkeen”, Li sanoi.
joskus pidetään itsestään selvänä, että nämä aineistot, jotka ovat intensiivisiä kerätä, koota ja vet, ovat ilmaisia. Avoimuus ja vapaa käyttö on imagenetin alkuperäinen opinkappale, joka päihittää haasteen ja todennäköisesti jopa aineiston.
vuonna 2016 Google julkaisi avoimen kuvatietokannan, joka sisältää 9 miljoonaa kuvaa 6 000 kategoriassa. Google päivitti äskettäin tietokokonaisuuden sisältämään tarrat siitä, missä tietyt kohteet sijaitsivat kussakin kuvassa, mikä oli IMAGEnet-haasteen katkottua vuoden 2014 jälkeen. Lontoolainen DeepMind, jonka Google osti ja pyöritti omaksi Alphabet-yhtiökseen, julkaisi hiljattain oman videodatastinsa, jossa ihmiset suorittavat erilaisia toimia.
”yksi asia, joka ImageNet muutti tekoälyn alalla, on se, että yhtäkkiä ihmiset tajusivat, että epäkiitollinen työ tehdä aineisto oli tekoälytutkimuksen ytimessä”, Li sanoi. ”Ihmiset todella tunnistavat sen merkityksen, että aineisto on tutkimuksen etu-ja keskiössä yhtä paljon kuin algoritmit.”
oikaisu (26.7.): artikkelin aiemmassa versiossa Olga Russakovskin nimi oli kirjoitettu väärin.