um exemplo aplicado: registro do partido eleitor
vamos olhar para um exemplo um pouco mais realista. Suponha que temos um conjunto de dados de treinamento de eleitores cada um marcado com três propriedades: registro do partido eleitor, riqueza do eleitor, e uma medida quantitativa da religiosidade do eleitor. Estes dados simulados são apresentados abaixo de 2. O eixo x mostra riqueza crescente, o eixo y aumentando religiosidade e os círculos vermelhos representam eleitores republicanos, enquanto os círculos azuis representam votos democráticos. Queremos prever o registro de eleitores usando riqueza e religiosidade como predictores.
o algoritmo vizinho mais próximo de k
Existem muitas maneiras de realizar esta tarefa de modelagem. Para dados binários como o nosso, as regressões logísticas são frequentemente usadas. No entanto, se pensamos que há não linearidade nas relações entre as variáveis, uma abordagem mais flexível e adaptativa aos dados pode ser desejada. Uma técnica de aprendizado de máquina muito flexível é um método chamado K-neighbors.em K-vizinhos mais próximos, o registro partidário de um determinado eleitor será encontrado tramando-o no avião com os outros eleitores. O k Mais Próximo de outros eleitores para ele ou ela será encontrado usando uma medida geográfica da distância e a média de seus registros serão usados para prever o seu registro. Assim, se o eleitor mais próximo dele (em termos de riqueza e religiosidade) é um democrata, também será previsto ser um democrata.
A figura seguinte mostra os bairros mais próximos para cada um dos eleitores originais. Se k foi especificado como 1, um novo registro do partido do eleitor seria determinado se eles estão dentro de uma região vermelha ou azul
Se nós amostramos novos eleitores podemos usar nossos dados de treinamento existentes para prever o seu registro. A figura seguinte enrola a riqueza e religiosidade para estes novos eleitores e usa o algoritmo de Vizinhança Mais Próximo para prever o seu registo. Você pode passar o mouse sobre um ponto para ver a vizinhança que foi usada para criar a previsão do ponto.
também podemos traçar as regiões de previsão completa para onde os indivíduos serão classificados como democratas ou republicanos. A figura seguinte mostra isso.
uma parte chave do algoritmo de Vizinhança mais próximo do k é a escolha de K. até agora, temos usado um valor de 1 Para K. neste caso, cada novo ponto é previsto pelo seu vizinho mais próximo no conjunto de treino. No entanto, k é um valor ajustável, podemos ajustá-lo a qualquer coisa de 1 para o número de pontos de dados no conjunto de treinamento. Por baixo, poderá ajustar o valor de k Usado para gerar estes gráficos. À medida que o ajusta, tanto os gráficos a seguir como os anteriores serão actualizados para mostrar como as previsões mudam quando o k muda.
K-vizinhos mais próximos: 1
gerar novos dados de formação Qual é o melhor valor de k? Neste caso simulado, nós somos afortunados em que nós conhecemos o modelo real que foi usado classificar os eleitores originais como republicanos ou Democratas. Uma divisão simples foi usada e a linha divisória é plotada na figura acima. Os eleitores ao norte da linha foram classificados como republicanos, eleitores ao sul da linha Democratas. Algum ruído estocástico foi então adicionado para mudar uma fração aleatória dos registros dos eleitores. Você também pode gerar novos dados de treinamento para ver como os resultados são sensíveis aos dados de treinamento originais.
tente experimentar com o valor de k para encontrar o melhor algoritmo de previsão que corresponda bem com a linha de fronteira preta.
viés e variância
aumentando K resulta na média de mais eleitores em cada predição. Isto resulta em curvas de previsão mais suaves. Com um k de 1, a separação entre democratas e republicanos é muito irregular. Além disso, existem “ilhas” de Democratas em território geralmente Republicano e vice-versa. Como k é aumentado para, digamos, 20, a transição torna-se mais suave e as ilhas desaparecem e a divisão entre Democratas e Republicanos, faz um bom trabalho de seguir a linha de limite. À medida que k se torna muito grande, digamos, 80, a distinção entre as duas categorias torna-se mais borrada e a linha de previsão de limites não é muito bem correspondida em tudo.
em ” K ” pequenos, o jaggedness e as ilhas são sinais de variância. As localizações das ilhas e as curvas exatas das fronteiras irão mudar radicalmente à medida que novos dados são recolhidos. Por outro lado, no large k’s a transição é muito suave, então não há muita variância, mas a falta de uma correspondência com a linha de fronteira é um sinal de viés alto.
O que estamos observando aqui é que o aumento de k irá diminuir a variância e aumentar o viés. Enquanto diminuir k irá aumentar a variância e diminuir o viés. Dê uma olhada em como as previsões são variáveis para diferentes conjuntos de dados em baixo K. à medida que k aumenta esta variabilidade é reduzida. Mas se aumentarmos muito k, então não seguiremos mais a verdadeira linha de fronteira e observaremos viés alto. Esta é a natureza do Bias-Variance Tradeoff.
viés analítico e variância
No caso dos vizinhos mais próximos de k podemos derivar uma expressão analítica explícita para o erro total como uma soma de viés e variância:
$$ Err(x) = \left(f(x)-\frac{1}{k}\sum\limits_{i=1}^k f(x_i)\right)^2+\frac{\sigma_\epsilon^2}{k} + \sigma_\epsilon^2 $$
$$ Err(x) = \mathrm{Viés}^2 + \mathrm{Variância} + \mathrm{Irredutível\ Erro} $$
A variância é uma função do irredutível de erro e k com a variância do erro de forma constante, caindo à medida que k aumenta. O termo viés é uma função de quão grosseiro é o espaço Modelo (por exemplo, quão rapidamente na realidade os valores mudam à medida que nos movemos através do espaço de diferentes riquezas e religiões). Quanto mais áspero o espaço, mais rápido o termo de viés vai aumentar à medida que vizinhos mais distantes são trazidos em estimativas.