AI研究を変えたデータ–そしておそらく世界

2006年、Fei-Fei Liはアイデアを反芻し始めました。

イリノイ大学アーバナ-シャンペーン校の新しく鋳造されたコンピュータサイエンス教授であるLiは、学界とAI業界の同僚が同じ概念を打ち砕くのを見

しかし、彼女はこのアプローチの制限を実現しました—それが学んだデータが現実の世界を反映していなければ、最良のアルゴリズムはうまくいかな

彼女の解決策:より良いデータセットを構築します。

“私たちは歴史的に前例のないことをやりたいと決めました”と李氏は、最初は彼女と一緒に働く小さなチームに言及しました。 “私たちは、オブジェクトの全世界をマッピングするつもりです。”

結果のデータセットはImageNetと呼ばれていました。 もともと2009年にマイアミビーチ会議センターの隅に貼られた研究ポスターとして出版されたデータセットは、データセットの画像内のオブジェクトを最も低誤り率で識別できるアルゴリズムを確認するための毎年の競争に急速に発展しました。 多くの人は、世界が今日経験しているAIブームの触媒としてそれを参照してください。

ImageNet challengeの卒業生は、技術の世界の隅々に見つけることができます。 2010年のコンテストの最初の受賞者は、Baidu、Google、Huaweiでシニアの役割を果たしました。 Matthew Zeilerは2013年のImageNetの勝利に基づいてClarifaiを構築し、現在はVCの資金調達で4,000万ドルを支援しています。 2014では、GoogleはOxfordの2人の研究者と優勝タイトルを分けました。

李自身は現在、Google Cloudのチーフサイエンティストであり、スタンフォード大学の教授であり、大学のAIラボのディレクターです。

今日、彼女はCVPRで最後の時間のImageNetの年間結果について話すためにステージを取るでしょう—2017年は競争の最後の年でした。 わずか7年で、データセット内のオブジェクトを分類する際の勝利の精度は71.8%から97.3%に上昇し、人間の能力を上回り、より大きなデータがより良い意思競争が終わっても、その遺産はすでに形を取っています。

2009年以来、コンピュータビジョン、自然言語処理、音声認識などのサブフィールドに数十の新しいAI研究データセットが導入されています。

“ImageNetの考え方のパラダイムシフトは、多くの人がモデルに注意を払っている間に、データに注意を払うことです”とLi氏は述べています。 「データは、私たちがモデルについてどのように考えるかを再定義します。”

ImageNetとは何ですか?1980年代後半、プリンストンの心理学者ジョージ-ミラーは、英語の階層構造を構築することを目的として、WordNetと呼ばれるプロジェクトを開始しました。 それは一種の辞書のようなものになりますが、単語はアルファベット順ではなく他の単語との関係で表示されます。 たとえば、WordNet内では、”dog”という単語は”canine”の下にネストされ、”mammal”の下にネストされます。 これは、機械可読論理に依存する言語を整理する方法であり、155,000以上の索引付けされた単語を蓄積しました。

ImageNet
WordNetから派生したImageNet階層。

Liは、UIUCでの最初の教育の仕事で、機械学習の中核的な緊張の一つである過適合と一般化に取り組んでいました。 アルゴリズムが以前に見たものに近いデータでのみ動作する場合、モデルはデータに過剰適合しているとみなされます。 一方、モデルがデータ間で適切なパターンを選択しない場合、それは過度に一般化しています。

完璧なアルゴリズムを見つけることは遠いように見えた、Liは言います。 彼女は、以前のデータセットでは、世界がどのように可変であるかを捉えることができなかったことを見ました。 しかし、アルゴリズムに世界がどれほど複雑であるかのより多くの例を与えることによって、それは彼らがより良い運賃ができる数学的理にかなっていました。 あなただけの猫の五つの写真を見た場合、あなただけの五つのカメラアングル、照明条件、そして多分猫の様々なを持っているだろう。 しかし、あなたが猫の500枚の写真を見たことがあるなら、共通点を引き出すためのより多くの例があります。

Liは、他の人がデータで世界の公正な表現をカタログ化しようとした方法について読み始めました。 その検索中に、彼女はWordNetを見つけました。

WordNetのアプローチについて読んだLiは、2006年にプリンストンを訪問した際に、WordNetの継続的な研究に影響を与えた研究者であるChristiane Fellbaum教授と会いました。 Fellbaumは、WordNetは、コンピュータビジョンデータセットではなく、参照として、各単語に関連付けられたイメージを持つことができるという考えを持っていました。 その会議から来て、李はより壮大な何かを想像しました—各単語の多くの例を持つ大規模なデータセット。

数ヶ月後、Liは母校であるプリンストン大学の教員に加わり、2007年初頭にImageNetプロジェクトを開始しました。 彼女は挑戦を支援するためのチームを作り始め、最初に仲間の教授、Kai Liを募集し、博士課程の学生Jia DengをLiの研究室に移すよう説得しました。 Dengは2017年までImageNetプロジェクトの運営を支援してきました。

“これは、他の人がやっていたものとは非常に異なっていたものであったことは私には明らかだった、当時に焦点を当てていた、”鄧小平は言いました。 「これがvision researchでのゲームのプレイ方法を変えるという明確な考えを持っていましたが、それがどのように変わるのか分かりませんでした。”

データセット内のオブジェクトは、パンダや教会のような具体的なオブジェクトから、愛のような抽象的なアイデアまでの範囲です。

Liの最初のアイデアは、手動で画像を検索し、データセットに追加するために時間$10のための学部学生を雇うことでした。 しかし、バック-オブ-ザ-ナプキンの数学はすぐに李は、画像を収集する大学生の割合で、それが完了するために90年かかるだろうことを実現しました。

学部タスクフォースが解散された後、李とチームは製図板に戻りました。 コンピュータビジョンアルゴリズムがインターネットから写真を選ぶことができ、人間が画像をキュレーションするとしたらどうでしょうか? しかし、アルゴリズムをいじって数ヶ月後、チームはこの手法も持続可能ではないという結論に達しました。

学部生は時間がかかり、アルゴリズムに欠陥があり、チームにはお金がなかった-Liは、プロジェクトが彼女が申請した連邦補助金のいずれかを獲得できなかったと述べ、プリンストンがこのトピックを研究することは恥ずべきことであり、提案の唯一の強さはLiが女性であるということだったとコメントを受け取った。

解決策は、最終的に彼女はアマゾン機械トルコ、世界中のコンピュータに座って人間の大群がペニーのための小さなオンラインタスクを完了するサービ

“彼は私にウェブサイトを見せてくれた、と私はImageNetプロジェクトが起こるつもりだった知っていたその日、文字通りあなたを伝えることができます”と彼女は言いました。 “突然、私たちはプリンストン大学の学部を雇うことによって夢を見ることができなかったスケールできるツールを見つけました。”

ImageNet
画像を分類するためのAmazon Mechanical Turkバックエンド。

機械的なトルコ人は、Liの博士課程の学生、Jia DengとOlga Russakovskyの二人によってフィールドの仕事の多くで、ハードルの独自のスルーをもたらしました。 例えば、どのように多くのTurkersは、各画像を見てする必要がありましたか? たぶん二人は猫が猫だったと判断することができますが、ミニチュアのハスキーのイメージは、検証の10ラウンドを必要とするかもしれません。 いくつかのTurkersは、ゲームやシステムをカンニングしようとした場合はどうなりますか? Liのチームは、データセットに正しい画像のみが含まれていることを確認するために、Turkerの行動の統計モデルのバッチを作成しました。

Mechanical Turkを見つけた後でさえ、データセットは完了するまでに二年半かかりました。 それは320万のラベル付き画像で構成され、5,247のカテゴリに分けられ、「哺乳類」、「車両」、「家具」のような12のサブツリーに分類されました。”

2009年に、Liと彼女のチームは、データセットとImageNetの論文を発表しました—少しファンファーレに。 李氏は、コンピュータビジョン研究の主要な会議であるCVPRは、口頭発表ではなくポスターのみを許可し、チームはImageNetブランドのペンを配って関心を喚起したと回想している。 人々は、より多くのデータがより良いアルゴリズムを開発するのに役立つという基本的な考えに懐疑的でした。

“一つのオブジェクトさえうまくできないなら、なぜ何千も、何万ものオブジェクトをやるのですか?”鄧小平は言いました。データが新しい油であれば、それはまだ2009年に恐竜の骨でした。

The ImageNet Challenge

2009年の後半、京都で開催されたcomputer vision conferenceで、Alex Bergという研究者がLiにアプローチし、アルゴリズムが描かれたオブジェクトが存在するだけでなく、 李は反論した:私と一緒に仕事をしてください。

Li、Berg、Dengは、データセットに基づいて五つの論文をまとめ、アルゴリズムがそのような膨大な量のデータをどのように解釈するかを模索しました。 最初の論文は、アルゴリズムがImageNetの競争の前身である何千ものクラスの画像にどのように反応するかのベンチマークとなるでしょう。

“我々は、我々はさらに手を差し伸べるために必要なこのアイデアを民主化するために実現し、”李は最初の論文で話して、言いました。

Liはその後、PASCAL VOCと呼ばれるヨーロッパでよく知られている画像認識競争に近づき、ImageNetとの競争を共同ブランド化することに合意しました。 パスカルの挑戦は、尊敬される競争とデータセットだったが、思考の以前の方法の代表。 この大会は20クラスのみであり、ImageNetの1,000クラスと比較していた。

競争が2011年と2012年に続いたため、すぐに画像分類アルゴリズムが当時組み立てられた最も複雑な視覚データセットに対してどれだけうまくいくかのベンチマークとなった。

ImageNet
オンラインImageNetデータベースのスクリーンショット

しかし、研究者はまた、より多くの競争—彼らはimagenetデータセットを使用して訓練したときに彼らのアルゴリズムは、より良

“素晴らしい驚きは、ImageNetでモデルを訓練した人々が、他の認識タスクのモデルをジャンプスタートするためにそれらを使用できることでした。 ImageNetモデルから始めて、別のタスクのために微調整します」とBerg氏は述べています。 “それはニューラルネットのためだけに、一般的に認識のための両方の画期的なものでした。”

最初のImageNetの競争から二年後、2012年には、さらに大きな何かが起こりました。 実際、今日見られる人工知能ブームが単一のイベントに起因する可能性がある場合、2012ImageNet challengeの結果の発表になります。

トロント大学のGeoffrey Hinton、Ilya Sutskever、およびAlex Krizhevskyは、AlexNetと呼ばれる深い畳み込みニューラルネットワークアーキテクチャを提出しました—まだこの日に研究で使用されてい

ImageNetはヒントンと彼の二人の学生のためのより良い時間に来ることができませんでした。 Hintonは1980年代から人工ニューラルネットワークに取り組んでいましたが、Yann LeCunのようなものはBell Labsの影響を受けてATMチェックリーダーに技術を働かせることができましたが、Hintonの研究ではそのような家は見つかりませんでした。 数年前、グラフィックスカードメーカー Nvidiaからの研究は、これらのネットワークがより速く処理されましたが、まだ他の技術よりも優れていませんでした。

Hintonと彼のチームは、手書き検出のような小さなデータセットでネットワークがより小さなタスクを実行できることを実証しましたが、現実の世界で役立

“ImageNetで本当に良いことをすれば、画像認識を解決できることは非常に明確でした”とSutskever氏は言います。

今日、これらの畳み込みニューラルネットワークはどこにでもあります—LeCunがAI研究のディレクターであるFacebookは、あなたの写真にタグを付けるためにそれら 彼らは、各レベルで数千から数百万の小さな計算を使用して、抽象化の昇順レベルでピクセル間のパターンを見つけることによって、画像に何がある 新しい画像は、学習されたパターンに自分のパターンを一致させるためにプロセスを経て置かれます。 Hintonは何十年も真剣にそれらを取るために彼の同僚を押していたが、今、彼は彼らが芸術の技術の他の状態を打つことができるという証拠を持ってい

“さらに驚くべきことは、人々が深い学習でそれを改善し続けることができたということです”とSutskever氏は、より複雑なパターンを処理できるようにニュー “深い学習はちょうどいいものです。”

2012ImageNetの結果は、プロセスを複製するためにスクランブルコンピュータビジョンの研究者を送りました。 マシュー-ツァイラーHintonの下で勉強していたDの学生は、ImageNetの結果について知り、トロント接続の大学を通じて、紙とコードへの早期アクセスを得ました。 彼はニューラルネットワークの仕事をしていたNyuの教授であるRob Fergusと仕事を始めました。 二人は2013年の挑戦のための彼らの提出を開発し始め、Zeilerは最終的に提出に焦点を当てるためにgoogleのインターンシップを数週間早く残しました。

ZeilerとFergusはその年に優勝し、2014年までにすべての高得点の競争相手は深いニューラルネットワークになるだろう、とLiは言いました。

“このImagenet2012イベントは、今日のAIの大きな爆発を引き起こしたものは間違いなくでした”とZeilerはQuartzへの電子メールで書いています。 “この直前に音声認識には非常に有望な結果がいくつかありました(その多くはトロントによって引き起こされました)が、2012年と翌年のImageNet winほど公に”

今日、多くの人がImageNetを解決したと考えています—エラー率は約2%で信じられないほど低いです。 しかし、それは分類、または画像内にあるオブジェクトを識別するためのものです。 これは、アルゴリズムがそのオブジェクトのプロパティ、それがどこから来たのか、それが何のために使用されているのか、誰がそれを作ったのか、そ 要するに、それは実際にそれが見ているものを理解していません。 これは、音声認識、さらには自然言語処理の多くでも反映されています。 今日の私たちのAIは、物事が何であるかを知ることは素晴らしいことですが、世界の文脈でこれらのオブジェクトを理解することは次のことです。 AI研究者がどのようにそこに到達するかはまだ不明です。

ImageNetの後

競争が終了している間、ImageNetデータセット—長年にわたって更新され、現在は1300万枚以上の画像が強力になります—が存続します。

Berg氏によると、チームは2014年に挑戦の一つの側面を引退しようとしたが、集中化されたベンチマークを気に入ったGoogleやFacebookなどの企業からの押し戻しに直面したという。 業界は一つの数字を指して、”私たちはこれで良いです。”

ディープラーニングはImageNetが提供するものと同じくらい広大なデータを必要とすることが証明されているように、2010年以来、Google、Microsoft、およびカナダ高等研究所によ

データセットは高級になっています。 スタートアップの創設者やベンチャーキャピタリストは、最新のデータセットを叫んで中程度の記事を書きます,そして彼らのアルゴリズ Google、Facebook、Amazonなどのインターネット企業は、毎日プラットフォーム上で入力され共有されている数百万の画像、音声クリップ、テキストスニペットに基づいて、独自の内部データセットを作成し始めています。 ビデオの理解に焦点を当てたAI企業であるTwentyBNは、Amazon Mechanical Turkを使用して、ビデオで簡単な手のジェスチャーやアクションを実行するTurkersのビデオを収集しました。 同社は、100,000以上のビデオで、それぞれの学術使用のための無料の二つのデータセットをリリースしています。

“ビデオからスピーチ、ゲーム、すべてに至るまで、あらゆる種類のデータセットが急増し、開花している”と李氏は語った。

収集、アセンブル、およびvetに集中するこれらのデータセットは無料であることが当たり前のことがあります。 オープンで自由に使用できることは、ImageNetのオリジナルの教義であり、挑戦と可能性の高いデータセットよりも長生きします。

2016年、Googleは6,000のカテゴリに900万枚の画像を含むOpen Images databaseをリリースしました。 Googleは最近、2014年以降のImageNetの課題の定番である各画像内の特定のオブジェクトが配置されている場所のラベルを含むようにデータセットを更新しました。 ロンドンに拠点を置くDeepMindは、Googleに買収され、独自のアルファベット会社にスピンアップされ、最近、様々なアクションを実行する人間の独自のビデオデー

“ImageNetがAIの分野で変わったことの一つは、データセットを作るという感謝のない仕事がAI研究の中核にあることに突然人々が気づいたことです”とLiは言 “人々は、アルゴリズムと同じくらい、データセットが研究の最前線であり、中心であることの重要性を本当に認識しています。”

訂正(July26):この記事の以前のバージョンでは、Olga Russakovskyの名前のスペルが間違っていました。

コメントを残す

メールアドレスが公開されることはありません。