Análisis de Clusters

Análisis de Clusters (método K-means) – datos Iris

Clasificando Flores – Clusters

Iris es un conjunto de datos multivariante introducido por Ronald Fisher en su paper de 1936 «The use of multiple measurements in taxonomic problems» (El uso de medidas múltiples en problemas taxonómicos) como un ejemplo de análisis discriminante lineal. Fue el botánico Edgar Anderson quien recopiló los datos para cuantificar la variación morfológica de las flores Iris de tres especies relacionadas.

Los datos consisten en 50 muestras de cada una de las siguientes tres especies de Iris (Iris setosa, Iris virginica e Iris versicolor). Cuatro parámetros fueron medidos de cada flor, el largo y ancho de los sépalos y los pétalos en centímetros.

A continuación usamos el método de agrupamiento no jerarquico K-means (k-medias) con la base Iris, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo más cercano al centroide (media).


Probá la aplicación con distintas variables y número de clusters