Os Fundamentos - agrupamento de dados
Introdução
O algoritmo K-means foi desenvolvido por J. MacQueen (1967) e, em seguida, por JA Hartigan e Wong MA em torno de 1975 Simplesmente falando k-means clustering, porque é um algoritmo para classificar ou agrupar os dados com base em atributos / características em número K de grupo. K é um número inteiro positivo. O agrupamento é feito através da minimização da soma dos quadrados das distâncias entre os dados eo centróide correspondente cluster (por exemplo: distância euclidiana).
O algoritmo é composto pelos seguintes passos:
|
Exemplo
Use k-Means e Distância Euclidiana para agrupar as 8 amostras seguintes em três grupos:
A1 = (2,10), A2 = (2,5), A3 = (8,4), A4 = (5,8), A5 = (7,5), A6 = (6,4), A7 = (1,2), A8 = (4,9)
No início, o centro inicial dos três grupos (seed1, seed2 e seed3) com A1, A4 e A7 (Figura 1 (b)).
Então, Epoch 1
Epoch 2 (Omitir), após a segunda época os resultados seriam:
1: {A1, A8}, 2: {A3, A4, A5, A6}, 3: {A2, A7} com centros C1 = (3, 9,5), C2 = (6,5, 5,25) e C3 = (1,5, 3.5)
Epoch 3 (Omitir), após a terceira época os resultados seriam:
1: {A1, A4, A8}, 2: {A3, A5, A6}, 3: {A2, A7} com centro C1 = (3,66, 9), C2 = (7, 4,33) e C3 = (1,5, 3.5)
Após Epoch 3, os centróides não se mover. Assim, o agrupamento finaliza.
Fonte: (Site bindichen.co.uk)
BONS ESTUDOS!!