data, která transformovala výzkum AI-a možná i svět

v roce 2006 začal Fei-Fei Li přemýšlet o nápadu.

Li, nově-ražený profesor počítačové vědy na University of Illinois, Urbana-Champaign, viděl její kolegové napříč akademickou obcí a AI průmyslu klepání pryč na stejný koncept: lepší algoritmus by lépe rozhodovat, bez ohledu na data.

ale uvědomila si omezení tohoto přístupu-nejlepší algoritmus by nefungoval dobře, kdyby data, ze kterých se naučil, neodrážela skutečný svět.

její řešení: vytvořit lepší datovou sadu.

„rozhodli jsme se, že chceme udělat něco, co bylo zcela historicky bezprecedentní,“ řekla Li s odkazem na malý tým, který s ní zpočátku pracoval. „Zmapujeme celý svět objektů.“

výsledná datová sada se jmenovala ImageNet. Původně publikoval v roce 2009 jako výzkumný plakát uvízl v rohu Miami Beach, konferenční centrum, dataset rychle vyvinul v každoroční soutěž zjistit, které algoritmy mohly identifikovat objekty v dataset obrázky s nejnižší chybovost. Mnozí to vidí jako katalyzátor boomu AI, který dnes svět zažívá.

absolventi výzvy ImageNet se nacházejí v každém koutě technologického světa. První vítězové soutěže v roce 2010 převzali vedoucí role ve společnostech Baidu, Google a Huawei. Matthew Zeiler postavil Clarifai na základě svého vítězství v Imagenetu 2013 a nyní je podporován 40 miliony dolarů ve financování VC. V roce 2014 Google rozdělil vítězný titul se dvěma výzkumníky z Oxfordu,kteří byli rychle vytrženi a přidáni do své nedávno získané laboratoře DeepMind.

Li je nyní hlavním vědcem v Google Cloud, profesorem na Stanfordu a ředitelem laboratoře AI univerzity.

dnes vystoupí na CVPR, aby promluvila o ročních výsledcích Imagenetu Naposledy-rok 2017 byl posledním rokem soutěže. Za pouhých sedm let, vyhrál přesnost při klasifikaci objektů v datovém souboru růže z 71.8% 97,3%, překonal lidské schopnosti a účinně dokázat, že větší data, vede k lepšímu rozhodování.

i když soutěž končí, její odkaz se již formuje. Od roku 2009 byly zavedeny desítky nových datových souborů výzkumu AI v podoblastech, jako je počítačové vidění, zpracování přirozeného jazyka a rozpoznávání hlasu.

„změna paradigmatu z ImageNet myšlení je, že zatímco mnoho lidí věnovat pozornost modely, pojďme se věnovat pozornost na údaje,“ řekl Li. „Data předefinují, jak přemýšlíme o modelech.“

co je ImageNet?

V pozdní 1980, Princeton psycholog George Miller začal projekt s názvem WordNet, s cílem vybudovat hierarchickou strukturu pro anglický jazyk. Bylo by to něco jako slovník, ale slova by se zobrazovala spíše ve vztahu k jiným slovům než abecednímu pořadí. Například v aplikaci WordNet by slovo “ pes “ bylo vnořeno pod „Psí“, které by bylo vnořeno pod „savec“ atd. To byl způsob, jak organizovat jazyk, který se spoléhal na strojově čitelnou logiku, a nashromáždil více než 155,000 indexovaných slov.

ImageNet

ImageNet hierarchie odvozené od WordNet.

Li, v její první učitelské místo na UIUC, byla potýká s jedním z hlavních napětí v strojového učení: overfitting a zobecnění. Když algoritmus může pracovat pouze s daty, která jsou blízká tomu, co viděl dříve, model je považován za nadhodnocený k datům; v těchto příkladech nerozumí ničemu obecnějšímu. Na druhou stranu, pokud model nezachytí správné vzory mezi daty, je to přehnané.

hledání dokonalého algoritmu se zdálo vzdálené, říká Li. Viděla, že předchozí datové sady nezachytily, jak variabilní může být svět—dokonce i pouhá identifikace obrázků koček je nekonečně složitá. Ale tím, že algoritmy více příkladů, jak komplexní ten svět mohl být, to se matematické pocit, že by mohlo dařit lépe. Pokud jste viděli jen pět obrázků koček, měli byste jen pět úhlů kamery, světelné podmínky, a možná i různé kočky. Ale pokud jste viděli 500 obrázků koček, existuje mnoho dalších příkladů, z nichž lze čerpat společné rysy.

Li začal číst o tom, jak se ostatní pokusili katalogizovat spravedlivé zastoupení světa s daty. Během tohoto hledání, našla WordNet.

přečtěte si o WordNet je přístup, Li setkal s profesorem Christiane Fellbaum, výzkumník vlivný v pokračující práce na WordNet, během roku 2006 návštěvě v Princetonu. Fellbaum měl představu, že WordNet by mohl mít obrázek spojený s každým ze slov, spíše jako odkaz než datový soubor počítačového vidění. Pocházející z tohoto setkání, Li si představoval něco většího—rozsáhlý datový soubor s mnoha příklady každého slova.

o několik měsíců později nastoupila Li na Princetonskou fakultu, její alma mater, a začala na projektu ImageNet na začátku roku 2007. Začala budovat tým na pomoc s výzvou, nejprve nábor kolegy profesora, Kai Li, který pak přesvědčil Ph. D student Jia Deng převést do Li laboratoře. Teng pomáhal řídit projekt ImageNet do roku 2017.

„bylo mi jasné, že to bylo něco, co bylo velmi odlišné od toho, co ostatní lidé dělají, byla zaměřena na čas,“ řekl Deng. „Měl jsem jasnou představu, že by to změnilo způsob, jakým se hra hrála ve vision research, ale nevěděl jsem, jak se to změní.“

objekty v datovém souboru by se pohybovaly od konkrétních objektů, jako jsou pandy nebo kostely, až po abstraktní myšlenky, jako je láska.

první myšlenkou Li bylo najmout vysokoškoláky za 10 dolarů za hodinu, aby ručně našli obrázky a přidali je do datové sady. Ale back-of-the-ubrousek matematiky rychle se Li si uvědomit, že při rychlosti undergrads ‚ sběru obrázků to bude trvat 90 let dokončit.

po rozpuštění undergrad task force se Li a tým vrátili k rýsovacímu prknu. Co kdyby algoritmy počítačového vidění mohly vybrat fotografie z internetu, a lidé by pak jen kurátorovali obrázky? Ale po několika měsících kutění s algoritmy, tým přišel k závěru, že tato technika nebyla udržitelná buď—budoucí algoritmy by být omezená pouze na soudě, jaké algoritmy byly schopné rozpoznat v době dataset byl sestaven.

Studenti byli časově náročné, algoritmy byly chybné, a tým neměl peníze—Li řekl, že projekt se nepodařilo vyhrát jakýkoliv federální dotace byla použita pro obdržení připomínek k návrhům, že to bylo ostudné Princetonu by se výzkum tohoto tématu, a že jediná síla návrh byl, že Li byla žena.

řešení konečně objevil v šanci chodbě rozhovor s postgraduální student, který se zeptal Li, zda slyšela z Amazon Mechanical Turk, servisu, kde hordy lidí sedí u počítačů na celém světě by dokončení malé on-line úkoly pro haléře.

„ukázal mi web a mohu vám doslova říct, že jsem věděla, že se Projekt ImageNet stane,“ řekla. „Najednou jsme našli nástroj, který by mohl škálovat, že bychom nemohli snít tím, že najme Princeton undergrads.“

ImageNet

Amazon Mechanical Turk backend pro klasifikaci snímků.

Mechanický Turek přinesl jeho vlastní spoustu překážek, s hodně práce chytal dva Li Ph. D studentů, Jia Teng a Olga Russakovsky . Například, kolik Turků se muselo podívat na každý obrázek? Možná by dva lidé mohli určit, že kočka je kočka, ale obraz miniaturního husky může vyžadovat 10 kola ověření. Co když se někteří Turci pokusili hrát nebo podvádět systém? Li tým nakonec vytvořil dávku statistických modelů pro Turkerovo chování, aby pomohl zajistit, aby datová sada obsahovala pouze správné obrázky.

i po nalezení mechanického Turka trvalo dokončení datové sady dva a půl roku. To sestávalo z 3,2 milionu označeny obrázky, rozděleny do 5,247 kategorií, tříděny do 12 podstromy jako „savec“, „vozidlo“ a „nábytek.“

v roce 2009 vydala Li a její tým dokument ImageNet s datasetem-to little fanfare. Li vzpomíná, že CVPR, přední konference v oblasti počítačového vidění výzkum, povoleno pouze plakát, místo toho, aby ústní prezentace, a tým podal z ImageNet-značkové tužky, aby vzbudili zájem. Lidé byli skeptičtí k základní myšlence, že více dat jim pomůže vyvinout lepší algoritmy.

„byly komentáře jako‘ pokud nemůžete udělat ani jeden objekt dobře, proč byste dělali tisíce nebo desítky tisíc objektů?“Řekl Deng.

Pokud jsou data novým olejem, byly to ještě dinosauří kosti v roce 2009.

ImageNet Výzva

Později v roce 2009, na počítačové vidění konferenci v Kjótu, výzkumník jménem Alex Berg přiblížil Li, aby naznačují, že přidání další aspekt soutěže, kde algoritmy by také musel najít, kde je na snímku objekt, ne jen to, že to existuje. Li oponoval: Pojď pracovat se mnou.

Li, Berg, a Deng autorem pěti dokumentů společně na základě údajů, zkoumá, jak algoritmy by interpretovat takové obrovské množství dat. První článek by se stal měřítkem toho, jak by algoritmus reagoval na tisíce tříd obrázků, předchůdce soutěže ImageNet.

„uvědomili jsme si, že abychom tuto myšlenku demokratizovali, musíme ji dále oslovit,“ řekl Li a hovořil o prvním dokumentu.

Li se pak obrátil na známou soutěž o rozpoznávání obrázků v Evropě s názvem PASCAL VOC, která se dohodla na spolupráci a spolupráci s ImageNet. PASCAL challenge byla respektovaná soutěž a dataset, ale reprezentativní pro předchozí způsob myšlení. Soutěž měla pouze 20 tříd, ve srovnání s 1000 ImageNet.

Jak soutěž pokračovala v roce 2011 a do roku 2012, to brzy se stal měřítkem pro to, jak dobře obraz, klasifikace, algoritmy dařilo proti nejsložitější vizuální dataset sestaven na dobu.

ImageNet

screenshot ImageNet databáze on-line

Ale výzkumníci také začal všímat něco víc než jen soutěž—jejich algoritmy pracoval lépe, když jsou vyškoleni pomocí ImageNet dataset.

„milé překvapení bylo, že lidé, kteří vyškoleni jejich modely na ImageNet je mohli použít k jumpstart modely pro jiné úlohy rozpoznávání. Začali byste s modelem ImageNet a pak byste ho doladili pro další úkol, “ řekl Berg. „To byl průlom jak pro neuronové sítě, tak pro uznání obecně.“

dva roky po první soutěži ImageNet, v roce 2012, se stalo něco ještě většího. Pokud by boom umělé inteligence, který dnes vidíme, mohl být připsán jediné události,bylo by to oznámení výsledků ImageNet challenge 2012.

Geoffrey Hinton, Ilja Sutskever, a Alex Krizhevsky z University of Toronto předložil hluboké konvoluční neuronové sítě architektura s názvem AlexNet—stále používá v oblasti výzkumu, aby tento den, který porazil pole o neuvěřitelných 10,8 procentních bodů rozpětí, které bylo 41% lepší, než druhý nejlepší.

ImageNet nemohl přijít v lepší čas, pro Hinton, a jeho dva studenti. Hinton se pracuje na umělé neuronové sítě od roku 1980, a zatímco někteří, jako Yann LeCun byl schopen pracovat technologie do BANKOMATU zkontrolujte, zda čtenáři přes vliv Bell Labs, Hinton výzkumu nebylo zjištěno, že druh domů. O několik let dříve výzkum od výrobce grafických karet Nvidia učinil tyto sítě rychlejší, ale stále ne lepší než jiné techniky.

Hinton a jeho tým prokázali, že jejich sítě mohou provádět menší úkoly na menších datových sadách, jako je detekce rukopisu, ale potřebovali mnohem více dat, aby byli užiteční v reálném světě.

„bylo tak jasné, že pokud na Imagenetu uděláte opravdu dobře, můžete vyřešit rozpoznávání obrazu,“ řekl Sutskever.

Dnes, tyto konvoluční neuronové sítě jsou všude—Facebook, kde LeCun je ředitel AI výzkumu, používá je, aby tag vaše fotografie; self-hnací vozy se jejich použití pro detekci objektů; v podstatě cokoliv, že ví, co je v obrazu nebo video je používá. Mohou zjistit, co je v obraze tím, že najde vzory mezi pixely na vzestupných úrovních abstrakce, pomocí tisíců až milionů malých výpočtů na každé úrovni. Nové obrázky jsou vloženy do procesu tak, aby odpovídaly jejich vzorům naučeným vzorům. Hinton tlačil své kolegy, aby je brali vážně po celá desetiletí, ale nyní měl důkaz, že mohou porazit jiné nejmodernější techniky.

„Co je úžasnější je, že lidé byli schopni udržet ji zlepšit s hluboké učení,“ Sutskever řekl, s odkazem na metodu, která vrstvách neuronové sítě aby složitější vzory, které mají být zpracovány, nyní nejvíce populární prospěch umělé inteligence. „Hluboké učení je ta správná věc.“

V roce 2012 ImageNet výsledky poslal počítačové vidění vědci usilovně snaží replikovat proces. Matthew Zeiler, NYU Ph.D student, který studoval pod Hintonem, se dozvěděl o výsledcích ImageNet a, prostřednictvím připojení University of Toronto, získal včasný přístup k papíru a kódu. Začal pracovat s Robem Fergusem, profesorem NYU, který si také vybudoval kariéru v neuronových sítích. Oba začali rozvíjet své podání pro výzvu 2013 a Zeiler nakonec opustil stáž Google týdny dříve, aby se zaměřil na podání.

Zeiler a Fergus vyhráli ten rok a do roku 2014 budou všichni vysoce bodovaní konkurenti hlubokými neuronovými sítěmi, řekl Li.

„tato událost Imagenet 2012 byla rozhodně tím, co dnes vyvolalo velkou explozi AI,“ napsal Zeiler v e-mailu společnosti Quartz. „Tam bylo určitě nějaké velmi slibné výsledky v rozpoznávání řeči krátce před tímto (opět mnoho z nich vyvolala Toronto), ale nevzali si z veřejně, stejně jako, že ImageNet vyhrát v roce 2012 a následujících letech.“

dnes mnozí považují ImageNet za vyřešený-chybovost je neuvěřitelně nízká kolem 2%. Ale to je pro klasifikaci nebo identifikaci, který objekt je na obrázku. To neznamená, že algoritmus zná vlastnosti tohoto objektu, odkud pochází, k čemu se používá, kdo ho vytvořil nebo jak interaguje se svým okolím. Zkrátka vlastně nechápe, co vidí. To se odráží v rozpoznávání řeči, a dokonce i ve velké části zpracování přirozeného jazyka. Zatímco naše AI dnes je fantastické vědět, co jsou věci, pochopení těchto objektů v kontextu světa je další. Jak se tam vědci AI dostanou, je stále nejasné.

Po ImageNet

i Když soutěž končí, ImageNet dataset—aktualizována v průběhu let, a nyní více než 13 milionů obrázků silný—bude žít dál.

Berg říká, že tým se pokusil odejít z jednoho aspektu výzvy v 2014, ale čelil tlaku společností včetně Google a Facebook, kterým se centralizovaný benchmark líbil. Průmysl by mohl ukázat na jedno číslo a říct: „jsme tak dobří.“

od roku 2010 existuje řada dalších vysoce postavených datových souborů zavedených společností Google, Microsoft a Kanadským Institutem pro pokročilý výzkum, protože deep learning prokázal, že vyžaduje data tak rozsáhlá jako to, co ImageNet poskytl.

datové sady se staly haute. Spuštění zakladatelů a venture kapitalisté budou psát Média příspěvky křičí nejnovější datové soubory, a jak se jejich algoritmy dařilo na ImageNet. Internetové společnosti jako Google, Facebook a Amazon, začali vytvářet své vlastní vnitřní datových souborů, založený na miliony obrázků, hlasové klipy a úryvky textu, vstoupil a sdílené na jejich platformách každý den. I začínajících začínají sestavit své vlastní datové soubory—TwentyBN, AI společnost zaměřená na video porozumění, používá Amazon Mechanical Turk sbírat videa z Turkers provádění jednoduchých gest a akcí na video. Společnost vydala dvě datové sady zdarma pro akademické použití, z nichž každá má více než 100 000 videí.

„je Tam spousta houbaření a rozkvět všech druhů datových souborů, z videa do řeči na hry všechno,“ řekl Li.

někdy se považuje za samozřejmé, že tyto datové soubory, které jsou náročné na sběr, sestavení a vet, jsou zdarma. Být otevřený a zdarma k použití je originální princip ImageNet, který přežije výzvu a pravděpodobně i datovou sadu.

v roce 2016 společnost Google vydala databázi otevřených obrázků, která obsahovala 9 milionů obrázků v 6 000 kategoriích. Google nedávno aktualizoval datovou sadu tak, aby obsahovala štítky pro umístění konkrétních objektů v každém obrázku, což je jádro výzvy ImageNet po roce 2014. Londýnský DeepMind, koupil Google a otočil se do své vlastní společnosti Alphabet, nedávno vydal vlastní video dataset lidí provádějících různé akce.

„jedna věc, kterou ImageNet změnil v oblasti AI, je, že si lidé najednou uvědomili, že nevděčná práce na vytváření datové sady byla jádrem výzkumu AI,“ řekl Li. „Lidé si opravdu uvědomují důležitost datové sady, která je v popředí výzkumu, stejně jako algoritmy.“

Oprava (26. července): dřívější verze tohoto článku chybně uvedla jméno Olgy Russakovského.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.