マルチクラスニューラルネットワーク:Softmax

ロジスティック回帰は0と1.0の間の小数を生成することを思い出してください。 たとえば、電子メール分類器からのロジスティック回帰出力0.8は、電子メールがスパムである可能性が80%、スパムではない可能性が20%を示唆しています。 明らかに、電子メールがスパムであるかスパムではないかの確率の合計は1.0です。

Softmaxはこのアイデアをマルチクラスの世界に拡張します。 つまり、Softmaxは、マルチクラス問題の各クラスに10進確率を割り当てます。これらの10進確率は1.0まで加算されなければなりません。 この追加のconstrainthelpsトレーニングは、それ以外の場合よりも迅速に収束します。たとえば、図1で見た画像解析に戻ると、Softmaxmightはaparticularクラスに属する画像の次の尤度を生成します。

008
クラス 確率
リンゴ 0.001
クマ 0.04
キャンディ 0.001
リンゴ
リンゴ
リンゴ
リンゴ リンゴ
dog 0.95
egg 0.001

Softmaxは、出力層の直前にニューラルネットワーク層を介して実装されています。 Softmax層は、出力層と同じ数のnodesを持たなければなりません。

入力層、二つの目立たない隠れ層、そしてSoftmax層、そして最後にSoftmax層と同じノード数を持つ出力層を持つ深いニューラルネット。

図2。 ニューラルネットワーク内のSoftmax層。

プラスアイコンをクリックすると、Softmax方程式が表示されます。Soft P(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}{\sum_{k\in k}{e^{(\textbf{w}_k^{t}\textbf{x}+b_k)}}}Softこの式は次のようになります。

この式は次のようになります。Soft p(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}}This

この式は、k p(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}}This

この式は、k p(y=j|\textbf{x})=\frac{基本的にlogisticregressionの式を複数のクラスに拡張します。

Softmaxオプション

Softmaxの次の亜種を考えてみましょう。

  • Full Softmaxは、私たちが議論してきたSoftmaxです; つまり、Softmaxは、すべての可能なクラスの確率を計算します。

  • 候補サンプリングとは、Softmaxがすべての正のラベルの確率を計算することを意味しますが、負のラベルのランダムサンプルのみを計算します。 たとえば、入力画像がビーグル犬かブラッドハウンドかを決定することに興味がある場合、犬以外のすべての例に対してtoprovide確率はありません。

Full Softmaxは、クラスの数が少ない場合はかなり安価ですが、クラスの数が増えると非常に高価になります。候補サンプリングは、クラスの数が多い問題で効率を向上させることができます。

一つのラベルと多くのラベル

Softmaxは、各例が正確に一つのクラスのメンバーであると仮定します。ただし、いくつかの例では、同時に複数のクラスのメンバーにすることができます。そのような例の場合:

  • Softmaxを使用することはできません。
  • 複数のロジスティック回帰に依存する必要があります。たとえば、例が正確に1つのアイテム、つまり果物を含む画像であるとします。 Softmaxは、梨、オレンジ、リンゴなどを食べる可能性を判断することができます。 あなたの例があらゆる種類のもの(さまざまな種類の果物のボウル)を含む画像であれば、代わりに複数のロジスティック回帰を使用する必要があ

コメントを残す

メールアドレスが公開されることはありません。