Aprendizagem de reforço: O que é, algoritmos, aplicações, exemplo

o que é Aprendizagem de reforço?

a aprendizagem de reforço é definida como um método de aprendizagem de máquina que se preocupa com a forma como os agentes de software devem tomar medidas num ambiente. A aprendizagem de reforço é uma parte do método de aprendizagem profunda que o ajuda a maximizar alguma parte da recompensa cumulativa. este método de aprendizagem em rede neural ajuda você a aprender como atingir um objetivo complexo ou maximizar uma dimensão específica em muitos passos.

em reforço tutorial de aprendizagem, você vai aprender:

  • O que é Aprendizagem de reforço? como funciona o reforço da aprendizagem? algoritmos de aprendizagem para reforço características da aprendizagem para reforço tipos de aprendizagem para reforço modelos de aprendizagem para reforço aprendizagem vs. aprendizagem supervisionada aplicações da aprendizagem para reforço porquê usar aprendizagem com reforço? quando não usar a aprendizagem de reforço?
  • os Desafios de Reforço de Aprendizagem

termos Importantes usados em Profundo Aprendizado por Reforço método

Aqui estão alguns termos importantes usados no Reforço AI:

  • Agente: Ele é uma suposta entidade que realiza ações em um ambiente de obter alguma recompensa. ambiente (e): um cenário que um agente tem de enfrentar. recompensa (R): Um retorno imediato dado a um agente quando ele ou ela executa uma ação ou tarefa específica.
  • Estado (s): estado refere-se à situação actual devolvida pelo ambiente. Política (?): É uma estratégia que se aplica pelo agente para decidir a próxima ação baseada no estado atual.valor (V): é esperado um retorno de longo prazo com desconto, em comparação com a recompensa de curto prazo.
  • função de valor: especifica o valor de um estado que é a quantidade total de recompensa. É um agente que deve ser esperado a partir desse estado.
  • Model of the environment: This mimics the behavior of the environment. Ele ajuda você a fazer inferências a serem feitas e também determinar como o ambiente se comportará. métodos baseados em Modelos: é um método para resolver problemas de aprendizagem de reforço que usam métodos baseados em modelos.
  • Q valor ou valor de Acção (Q): O valor Q é bastante semelhante ao valor. A única diferença entre os dois é que ele toma um parâmetro adicional como uma ação atual. como funciona o reforço da aprendizagem?

    vamos ver um exemplo simples que o ajuda a ilustrar o mecanismo de aprendizagem de reforço. considere o cenário de ensinar novos truques ao seu gato.como o gato não entende Inglês ou qualquer outra língua humana, não podemos dizer-lhe directamente o que fazer. Em vez disso, seguimos uma estratégia diferente. nós emulamos uma situação, e o gato tenta responder de muitas maneiras diferentes. Se a resposta do gato for a maneira desejada, nós vamos dar-lhe peixe. agora, sempre que o gato está exposto à mesma situação, o gato executa uma acção semelhante com ainda mais entusiasmo na expectativa de obter mais recompensa(alimentos). isso é como aprender que a cat recebe de” o que fazer ” de experiências positivas. ao mesmo tempo, o gato também aprende o que não fazer quando confrontado com experiências negativas.

explicação sobre o exemplo:


Como Reforço de Aprendizagem de obras

neste caso,

  • o Seu gato é um agente que estiver exposto ao ambiente. Neste caso, a casa é tua. Um exemplo de um estado pode ser o seu gato sentado, e você usa uma palavra específica para gato andar. o nosso agente reage executando uma transição de acção de um estado para outro estado. por exemplo, o seu gato vai de sentado a andar.
  • a reação de um agente é uma ação, e a política é um método de selecionar uma ação dado um estado na expectativa de melhores resultados. após a transição, eles podem receber uma recompensa ou penalidade em troca.

algoritmos de aprendizagem de reforço

Existem três abordagens para implementar um algoritmo de aprendizagem de reforço.

baseado em valores:

em um método de aprendizagem de reforço baseado em valores, você deve tentar maximizar uma função de valor V (s). Neste método, o agente espera um retorno a longo prazo dos actuais Estados sob Política ?.

baseado em Políticas:

em um método RL baseado em políticas, você tenta chegar a uma política tal que a ação realizada em cada Estado ajuda você a ganhar a recompensa máxima no futuro. dois tipos de métodos baseados em políticas são:

  • determinístico: para qualquer estado, a mesma ação é produzida pela política ?.
  • Stochastic: toda ação tem uma certa probabilidade, que é determinada pela seguinte equação.Política estocástica:
    n{a\s) = P\A, = a\S, =S]

modelo baseado:

neste método de aprendizagem de reforço, você precisa criar um modelo virtual para cada ambiente. O agente aprende a actuar nesse ambiente específico.

Características de Reforço de Aprendizagem

Aqui, são características importantes de reforço de aprendizagem

  • não Há supervisor, somente um número real ou uma recompensa sinal
  • Seqüencial de tomada de decisão
  • Tempo desempenha um papel crucial no Reforço de problemas
  • Feedback é sempre adiada, não instantânea
  • Agente de ações de determinar o posterior dados que recebe

Tipos de Reforço de Aprendizagem

Dois tipos de métodos de aprendizado por reforço são:

Positivo:

é definido como um evento, que ocorre por causa de um comportamento específico. Aumenta a força e a frequência do comportamento e impacta positivamente na ação do agente. este tipo de reforço ajuda-o a maximizar o desempenho e a manter a mudança por um período mais alargado. No entanto, muito reforço pode levar a sobre-otimização do Estado, o que pode afetar os resultados.

negativo:

reforço negativo é definido como reforço do comportamento que ocorre devido a uma condição negativa que deveria ter parado ou evitado. Ele ajuda você a definir o stand mínimo de desempenho. No entanto, a desvantagem deste método é que ele fornece o suficiente para atender o comportamento mínimo.

Modelos de Aprendizagem de Reforço

Existem dois principais modelos de aprendizagem em aprendizado por reforço:

  • Processo de Decisão de Markov
  • Q de aprendizagem

o Processo de Decisão de Markov

Os seguintes parâmetros são usados para obter uma solução:

  • Conjunto de ações – A
  • Conjunto de estados -S
  • Recompensa – R
  • Política – n
  • – V

A abordagem matemática para o mapeamento de uma solução em Aprendizado por reforço é recon como um Processo de Decisão de Markov ou (MDP).

Q-Learning

Q learning é um método baseado no valor de fornecer informações para informar qual a acção que um agente deve tomar.

vamos entender este método pelo seguinte exemplo:

  • há cinco salas num edifício que estão ligadas por portas.
  • Cada quarto é numerado de 0 a 4
  • fora do edifício pode ser uma grande área externa (5)
  • Portas de número 1 e 4 levam para o edifício da sala 5

em seguida, você precisa associar uma recompensa de valor para cada porta:

  • Portas que levam diretamente para a meta de ter uma recompensa de 100
  • Portas que não está diretamente ligado ao destino de quarto dá zero recompensa
  • Como portas são de duas vias e duas setas são atribuídos para cada sala
  • Cada seta na imagem acima contém uma recompensa instantânea valor

Explicação:

nesta imagem, você pode ver que o quarto representa um estado

Agente do movimento de uma sala para outra representa uma ação

No abaixo-determinada imagem, um estado é descrito como um nó, enquanto que as setas mostram a ação.

For example, an agent traverse from room number 2 to 5

  • Initial state = state 2
  • State 2-> state 3
  • State 3 -> state (2,1,4)
  • State 4-> state (0,5,3)
  • State 1-> state (5,3)
  • State 0-> state 4

Reinforcement Learning vs. Aprendizado supervisionado

Parâmetros Reforço de Aprendizagem Aprendizado Supervisionado
Decisão de estilos reforço de aprendizagem ajuda você a tomar suas decisões de forma sequencial. neste método, é tomada uma decisão sobre o input dado no início.
trabalhos em trabalhos em interacção com o ambiente. trabalha com exemplos ou dados de amostra.
a dependência da decisão no método RL a decisão de aprendizagem é dependente. Portanto, você deve dar rótulos a todas as decisões dependentes. aprendizagem supervisionada as decisões que são independentes umas das outras, por isso são dadas etiquetas para cada decisão.
mais adequado suporta e trabalha melhor na IA, onde a interação humana é prevalente. é operado principalmente com um sistema ou aplicações de software interativo.
Exemplo jogo de Xadrez reconhecimento de Objeto

Aplicações de Reforço de Aprendizagem

Aqui estão as aplicações de Reforço de Aprendizagem:

  • Robótica para automação industrial.planeamento da Estratégia empresarial aprendizagem de máquinas e processamento de dados ajuda a criar sistemas de formação que forneçam instrução e materiais personalizados de acordo com as necessidades dos estudantes.controlo de aeronaves e controlo de movimento de robots porquê usar a aprendizagem de reforço?

    Aqui estão as principais razões para usar a aprendizagem de reforço:

    • Ele ajuda você a encontrar qual situação precisa de uma ação
    • ajuda você a descobrir qual ação produz a maior recompensa ao longo do período mais longo.a aprendizagem de reforço também proporciona ao agente de aprendizagem uma função de recompensa. ele também permite que ele descubra o melhor método para obter grandes recompensas.quando não usar a aprendizagem de reforço?

      Você não pode aplicar o modelo de reforço de aprendizagem é toda a situação. Aqui estão algumas condições quando você não deve usar o modelo de aprendizagem de reforço.

      • Quando você tem dados suficientes para resolver o problema com um método de aprendizagem supervisionado
      • você precisa lembrar que a aprendizagem de reforço é computacional-pesado e demorado. em particular quando o espaço de ação é grande.

      os Desafios de Reforço de Aprendizagem

      Aqui estão os principais desafios que você vai enfrentar ao fazer Reforço de ganhar:

      • Característica/recompensa projeto que deve ser muito envolvido
      • Parâmetros podem afetar a velocidade de aprendizagem. os ambientes realistas podem ter uma observação parcial. demasiado reforço pode levar a uma sobrecarga de estados que podem diminuir os resultados. ambientes realistas podem ser não-estacionários.

      resumo:

      • A aprendizagem de reforço é um método de aprendizagem de máquina
      • ajuda-o a descobrir que Acção gera a maior recompensa ao longo do período mais longo.três métodos para reforçar a aprendizagem são 1) baseada em Valores 2)baseada em políticas e baseada em modelos.
      • agente, Estado, recompensa, ambiente, modelo de função de valor do ambiente, métodos baseados em modelos, são alguns termos importantes usando no método de aprendizagem RL
      • o exemplo de aprendizagem de reforço é o seu gato é um agente que está exposto ao ambiente.
      • A maior característica deste método é que não há nenhum supervisor, somente um número real ou uma recompensa sinal
      • Dois tipos de aprendizado por reforço são: 1) Positivo 2 Negativo
      • Duas amplamente utilizado o modelo de aprendizagem são: 1) o Processo de Decisão de Markov 2) Q de aprendizagem
      • Reforço de Aprendizagem método funciona em interação com o ambiente, considerando que o aprendizado supervisionado, o método funciona em determinada amostra de dados ou exemplo.os métodos de aprendizagem de aplicação ou reforço são: Robótica para automação industrial e de estratégia de negócios planejamento
      • Você não deve usar este método quando você tem dados suficientes para resolver o problema
      • O maior desafio deste método é que os parâmetros podem afetar a velocidade de aprendizagem

Deixe uma resposta

O seu endereço de email não será publicado.