funções de Ativação são a parte mais crucial de qualquer rede neural na aprendizagem profunda. Na aprendizagem profunda, tarefas muito complicadas são a classificação de imagens, transformação de linguagem, detecção de objetos, etc, que são necessários para lidar com a ajuda de redes neurais e função de ativação. Então, sem ele, essas tarefas são extremamente complexas de se lidar. em resumo, uma rede neural é uma técnica muito potente na aprendizagem da máquina que basicamente imita como um cérebro entende, como? O cérebro recebe os estímulos, como entrada, a partir do ambiente, processa-os e, em seguida, produz a saída em conformidade.
introdução
as funções de ativação da rede neural, em geral, são o componente mais significativo da aprendizagem profunda, eles são fundamentalmente utilizados para determinar a saída de modelos de aprendizagem profunda, sua precisão, e eficiência de desempenho do modelo de treinamento que pode projetar ou dividir uma rede neural em grande escala.as funções de ativação de
deixaram efeitos consideráveis na capacidade de convergência das redes neurais e na velocidade de convergência, você não quer como? Vamos continuar com uma introdução à função de ativação, tipos de funções de ativação & sua importância e limitações através deste blog.
Qual é a função de activação?
a função de ativação define a saída de entrada ou conjunto de entradas ou, em outros termos, define o nó da saída de nó que é dada em entradas. Eles basicamente decidem desativar neurônios ou ativá-los para obter a saída desejada. Ele também realiza uma transformação não linear na entrada para obter melhores resultados em uma rede neural complexa.
A função de ativação também ajuda a normalizar a saída de qualquer entrada no intervalo entre 1 A -1. A função de ativação deve ser eficiente e deve reduzir o tempo de computação porque a rede neural às vezes treinada em milhões de pontos de dados.a função de ativação
basicamente decide em qualquer rede neural que a entrada ou recepção de informações é relevante ou irrelevante. Tomemos um exemplo para entender melhor o que é um neurônio e como a função de ativação limita o valor de saída a algum limite.
o neurônio é basicamente uma média ponderada de entrada, então esta soma é passada através de uma função de ativação para obter uma saída.
Y = ∑ (pesos*entrada + bias)
Aqui Y pode ser qualquer coisa de um neurônio entre o intervalo de -infinito a +infinito. Então, temos que ligar nossa saída para obter a previsão desejada ou resultados generalizados.
Y = função de activação(∑ (pesos*input + viés))
assim, passamos esse neurónio para a função de activação para valores de saída ligados.por que precisamos de funções de ativação?
Sem função de ativação, peso e viés teria apenas uma transformação linear, ou rede neural é apenas um modelo de regressão linear, uma equação linear é polinomial de um grau apenas que é simples de resolver, mas limitado em termos de capacidade de resolver problemas complexos ou polinômios de maior grau.
mas oposto a isso, a adição da função de ativação à rede neural executa a transformação não-linear para entrada e torná-la capaz de resolver problemas complexos, tais como traduções de linguagem e classificações de imagens.
além disso, as funções de Ativação são diferenciáveis devido ao qual eles podem facilmente implementar propagações de volta, estratégia otimizada ao realizar backpropagations para medir as funções de perda de gradiente nas redes neurais.
Tipos de Funções de Ativação
O mais famoso ativação de funções são apresentadas a seguir,
-
Binário passo
-
Linear
-
ReLU
-
LeakyReLU
-
Sigmóide
-
Tanh
-
Softmax
de 1. Função de ativação de passo binário
Esta função de ativação é muito básica e vem à mente toda vez que tentamos ligar a saída. É basicamente um classificador de base limiar, nisto, nós decidimos algum valor limiar para decidir a saída que o neurônio deve ser ativado ou desativado.
f(x) = 1 se x > 0 outros 0 se x < 0
função passo binário
nisto, decidimos o valor limiar para 0. É muito simples e útil classificar problemas binários ou classificador.
2. A função de ativação Linear
é uma simples função de ativação de linha reta onde a nossa função é diretamente proporcional à soma ponderada de neurônios ou entrada. As funções de ativação Linear são melhores em dar uma ampla gama de ativações e uma linha de um declive positivo pode aumentar a taxa de queima à medida que a taxa de entrada aumenta.
em binário, ou um neurônio está disparando ou não. Se você conhece a descida gradiente no aprendizado profundo, então você notaria que nesta derivada da função é constante.
Y = mZ
Onde a derivada com respeito a Z é constante m. O significado de gradiente também é constante e não tem nada a ver com Z. neste, se as alterações feitas no backpropagation será constante e não depende de Z, então isso não vai ser bom para o aprendizado.
nesta, nossa segunda camada é a saída de uma função linear de entrada de camadas anteriores. Espere um minuto, o que nós aprendemos nisto que se nós compararmos nossas Todas as camadas e removermos todas as camadas exceto a primeira e a última então nós só podemos obter uma saída que é uma função linear da primeira camada.
3. ReLU( Rectificado unidade Linear) função de Ativação
Rectificado unidade linear ou ReLU é o mais amplamente utilizado função de ativação agora que varia de 0 a infinito, Todos os valores negativos são convertidos em zero, e essa taxa de conversão é tão rápido que nem pode mapa nem caber em dados correctamente, o que cria um problema, mas onde existe um problema, existe uma solução.
função de ativação da unidade Linear retificada
usamos a função Relu de fuga em vez de ReLU para evitar esta unfitting, na gama ReLU de fuga é expandida o que aumenta o desempenho.
função de ativação de ReLU de fuga
Pingando ReLU Função de Ativação
precisávamos Pingando ReLU função de ativação para resolver o ‘Morrendo ReLU’ problema, como discutido no ReLU, observamos que todas as negativas valores de entrada, vire para zero muito rapidamente e, em caso de Vazamento ReLU não fazemos tudo negativo entradas para zero, mas para um valor próximo a zero, o que resolve o grande problema da ReLU função de ativação.
Função de Ativação Sigmóide
A função de ativação sigmóide é usado, principalmente, como ele faz a sua tarefa com grande eficiência, basicamente, ela é uma abordagem probabilística para a tomada de decisão e varia entre 0 a 1, por isso quando temos que tomar uma decisão, ou para prever uma saída usamos esta função de ativação devido a variedade é o mínimo, portanto, a previsão seria mais preciso.
função de Ativação Sigmóide
a equação para A função sigmóide é
f(x) = 1/(1+e(-x) )
A função sigmóide faz com que um problema principalmente denominado como fuga gradiente problema que ocorre porque nós converter um grande entrada entre o intervalo de 0 a 1 e, portanto, seus derivados tornam-se muito menores que não dar saída satisfatória. Para resolver este problema, uma outra função de ativação, como ReLU, é usada onde não temos um pequeno problema derivado.
função de ativação tangente hiperbólica(Tanh)
Tanh função de Ativação
Esta função de ativação é um pouco melhor do que a função sigmóide, como a função sigmóide é também usado para prever ou distinguir entre duas classes, mas ele mapeia a entrada negativa em quantidade negativa apenas e varia entre -1 a 1.
A função de activação de Softmax
Softmax é utilizada principalmente na última camada I.e camada de saída para tomar decisões da mesma forma que a ativação sigmoid funciona, o softmax basicamente dá valor à variável de entrada de acordo com o seu peso e a soma destes pesos é eventualmente um.
Softmax na Classificação Binária
Para classificação Binária, tanto sigmóide, bem como softmax, são igualmente acessível, mas no caso de multi-classe classificação problema geralmente usamos softmax e cross-entropy junto com ele.
conclusão
as funções de ativação são aquelas funções significativas que realizam uma transformação não-linear para a entrada e tornando-se proficiente para compreender e executar tarefas mais complexas. Temos discutido 7 funções de ativação usadas principalmente com sua limitação (se houver), essas funções de ativação são usadas para o mesmo propósito, mas em condições diferentes.