Multi-Class Neuronové Sítě: Softmax

Připomeňme si, že logistická regrese vytváří decimalbetween 0 a 1.0. Například výstup logistické regrese Z0. 8 z e-mailového klasifikátoru naznačuje 80% pravděpodobnost, že anemail bude spam a 20% pravděpodobnost, že nebude spam. Je zřejmé, že součet pravděpodobnosti, že e-mail je buď spam, nebo ne spam, je 1.0.

Softmax rozšiřuje tuto myšlenku do světa více tříd. To znamená, že Softmax přiřazuje desítkové pravděpodobnosti každé třídě v problému s více třídami.Tyto desetinné pravděpodobnosti musí přidat až 1,0. Toto dodatečné omezenípomáhá školení konvergovat rychleji,než by tomu bylo jinak.

například, vrací do analýzy obrazu jsme viděli na Obrázku 1, Softmaxmight produkovat následující pravděpodobností obrazu patří do určité třídy:

Třída Pravděpodobnost
apple 0.001
medvěd 0.04
cukroví 0.008
pes 0.95
vejce 0.001

Softmax je realizován prostřednictvím neuronové sítě, vrstva těsně před výstupní vrstvy. Vrstva Softmax musí mít stejný počet uzlůjako výstupní vrstva.

hluboká neuronová síť se vstupní vrstvou, dvě nenápadné skryté vrstvy, pak Softmax vrstvy, a konečně výstupní vrstvu se stejným počtem uzlů jako Softmax vrstvy.

Obrázek 2. Softmax vrstva v neuronové síti.

kliknutím na ikonu plus zobrazíte softmaxovu rovnici.

Softmax rovnice je následující:

$$p(y = j|\textbf{x}) = \frac{e^{(\textbf{w}_j^{T}\textbf{x} + b_j)}}{\sum_{k\v K} {e^{(\textbf{w}_k^{T}\textbf{x} + b_k)}} }$$

Všimněte si, že tento vzorec v podstatě rozšiřuje vzorec pro logisticregression do více tříd.

Softmax Možnosti

Zvážit následující varianty Softmax:

  • Plné Softmax je Softmax jsme probírali; to znamená, že Softmax vypočítá pravděpodobnost pro každou možnou třídu.

  • Kandidáta vzorkování znamená, že Softmax počítá probabilityfor všechny pozitivní štítků, ale jen na náhodném vzorku záporných štítky. Například, pokud máme zájem v determiningwhether vstupní obraz je bígl nebo bloodhound, nemáme dát pravděpodobnosti pro každý non-pejsek příklad.

Full Softmax je poměrně levné, když je počet tříd malýale stává se neúměrně drahé, když počet tříd stoupá.Vzorkování kandidátů může zlepšit efektivitu při problémech s velkýmpočet tříd.

jeden štítek vs. mnoho štítků

Softmax předpokládá, že každý příklad je členem přesně jedné třídy.Některé příklady však mohou být současně členem více tříd.Pro takové příklady:

  • nesmíte používat Softmax.
  • musíte se spolehnout na více logistických regresí.

Předpokládejme například, že vaše příklady jsou obrázky obsahující přesně jednu položku-za kus ovoce. Softmax může určit pravděpodobnost, že se jedná o hrušku, pomeranč, jablko a tak dále. Pokud jsou vaše příklady obrázky obsahující nejrůznější věci-misky různých druhů ovoce-pak budete muset místo toho použít více logistických regresí.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.