ロジスティック回帰は0と1.0の間の小数を生成することを思い出してください。 たとえば、電子メール分類器からのロジスティック回帰出力0.8は、電子メールがスパムである可能性が80%、スパムではない可能性が20%を示唆しています。 明らかに、電子メールがスパムであるかスパムではないかの確率の合計は1.0です。
Softmaxはこのアイデアをマルチクラスの世界に拡張します。 つまり、Softmaxは、マルチクラス問題の各クラスに10進確率を割り当てます。これらの10進確率は1.0まで加算されなければなりません。 この追加のconstrainthelpsトレーニングは、それ以外の場合よりも迅速に収束します。たとえば、図1で見た画像解析に戻ると、Softmaxmightはaparticularクラスに属する画像の次の尤度を生成します。
クラス | 確率 | リンゴ | 0.001 |
---|---|
クマ | 0.04 |
キャンディ | 0.001 |
リンゴ | |
リンゴ | |
リンゴ | |
リンゴ | リンゴ |
dog | 0.95 |
egg | 0.001 |
Softmaxは、出力層の直前にニューラルネットワーク層を介して実装されています。 Softmax層は、出力層と同じ数のnodesを持たなければなりません。
図2。 ニューラルネットワーク内のSoftmax層。
プラスアイコンをクリックすると、Softmax方程式が表示されます。Soft P(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}{\sum_{k\in k}{e^{(\textbf{w}_k^{t}\textbf{x}+b_k)}}}Softこの式は次のようになります。
この式は次のようになります。Soft p(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}}This
この式は、k p(y=j|\textbf{x})=\frac{e^{(\textbf{w}_j^{t}\textbf{x}+b_j)}}}This
この式は、k p(y=j|\textbf{x})=\frac{基本的にlogisticregressionの式を複数のクラスに拡張します。
Softmaxオプション
Softmaxの次の亜種を考えてみましょう。
-
Full Softmaxは、私たちが議論してきたSoftmaxです; つまり、Softmaxは、すべての可能なクラスの確率を計算します。
-
候補サンプリングとは、Softmaxがすべての正のラベルの確率を計算することを意味しますが、負のラベルのランダムサンプルのみを計算します。 たとえば、入力画像がビーグル犬かブラッドハウンドかを決定することに興味がある場合、犬以外のすべての例に対してtoprovide確率はありません。
Full Softmaxは、クラスの数が少ない場合はかなり安価ですが、クラスの数が増えると非常に高価になります。候補サンプリングは、クラスの数が多い問題で効率を向上させることができます。
一つのラベルと多くのラベル
Softmaxは、各例が正確に一つのクラスのメンバーであると仮定します。ただし、いくつかの例では、同時に複数のクラスのメンバーにすることができます。そのような例の場合:
- Softmaxを使用することはできません。
- 複数のロジスティック回帰に依存する必要があります。たとえば、例が正確に1つのアイテム、つまり果物を含む画像であるとします。 Softmaxは、梨、オレンジ、リンゴなどを食べる可能性を判断することができます。 あなたの例があらゆる種類のもの(さまざまな種類の果物のボウル)を含む画像であれば、代わりに複数のロジスティック回帰を使用する必要があ