SlideShare a Scribd company logo
1 of 41
Download to read offline
Análise de Clusters
Mr. Kleverton Saath
O que a análise permite?
• Avaliar o tamanho da matriz de dados
• Identificar outliers multivariados
• Levar hipóteses relativas a relações
estruturais entre variáveis.
Introdução
• Análise de agrupamento ou Cluster analysis: é uma
técnica exploratória de análise multi-variada de
dados que permite classificar um conjunto de
categorias em grupos homogéneos, observando
apenas as similaridades ou dissimilaridades entre
elas.
Introdução
• Sequência de regras (algoritmo) para agrupar objetos sem
inferência de probabilidade a priori dos grupos.
• Não é necessário informações a priori sobre a composição
dos grupos.
• Dado um conjunto de ‘n’ unidades amostrais, os quais são
medidos segundo ‘p’ variáveis, obter um algoritmo que
possibilite reunir os indivíduos, tal que exista
homogeneidade dentro do grupo e heterogeneidade entre
grupos (Regazzi, 2000).
Como medimos as similaridades
e as dissimilaridade?
• MEDIDAS DE DISSIMILARIDADE
 Distância euclidiana
 Distância euclidiana média
 Distância de Mahalanobis
 A maioria dos algoritmos de análise de agrupamento têm
como base estas medidas de dissimilaridade;
Importante: Quanto maior for a medida de dissimilaridade
menor será a semelhança entre os indivíduos.
Nota
• É recomendável a padronização das variáveis antes de se
obter o valor da distância euclidiana, devido que
normalmente todos os dados não estão no mesmo padrão
de medidas.
𝑍𝑖𝑗 =
𝑋𝑖𝑗− 𝑋𝑗
𝑆𝑗
, 𝑍𝑖𝑗 ~ 0 , 1𝑗
𝑜𝑢 𝑍𝑖𝑗 =
𝑋𝑖𝑗
𝑆 𝑋𝑗
, 𝑍𝑖𝑗~ 𝑍𝑗 , 1
Distância euclidiana
• É a distância entre dois pontos, que pode ser
provada pela aplicação repetida do teorema
de Pitágoras.
• A Função da distância euclidiana de pq:
• Onde p e q são os pontos na reta.
Distância euclidiana
• De forma matricial temos:
𝑑 𝑎𝑏 = 𝑋 𝑎𝑗 − 𝑋 𝑏𝑗
2
𝑝
𝑗=1
1
2
𝑝 = 1,2, ⋯ , 𝑗;
𝑋 𝑎𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑣𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎;
𝑋 𝑏𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏.
Distância euclidiana média
• A distância euclidiana cresce à medida que cresce o
número de variáveis. Uma maneira de eliminar o efeito do
número de variáveis é dividir o valor da distância
euclidiana pela raiz quadrada do número de variáveis.
𝑑 𝑎𝑏 =
1
𝑝
∙ 𝑑 𝑎𝑏
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏;
𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠;
𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏.
Distância de Mahalanobis
• A distância de Mahalanobis entre os indivíduos a e b é
dada por:
𝐷 𝑎𝑏
2
= 𝑋 𝑎 − 𝑋 𝑏 ′ ∙ 𝑆−1 ∙ 𝑋 𝑎 − 𝑋 𝑏
em que,
𝐷 𝑎𝑏
2
é 𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑎ℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠 𝑒𝑛𝑡𝑟𝑒 𝑜𝑠 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑎 𝑒 𝑏;
𝑋 𝑎 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎;
𝑋 𝑏 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏;
𝑆 = 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜.
MEDIDAS DE
SIMILARIDADE
• As variáveis são agrupadas de acordo com
as medidas de correlação ou associação
apropriadas. O coeficiente de correlação é
uma medida de similaridade, enquanto que
a distância euclidiana é uma medida de
dissimilaridade;
Importante: quanto maior for a medida de
similaridade maior semelhança entre os
indivíduos.
Correlações apropriadas
• Variaríeis contínuas: Coeficiente de
correlação de Pearson (linear).
• Variáveis ordinais: Coeficiente de
Spearman. (posto)
• Variáveis nominais: Coeficiente Phi.
• Variáveis contínuas: características mensuráveis que assumem
valores em uma escala contínua (na reta real), para as quais valores
fracionais fazem sentido. Usualmente devem ser medidas através de
algum instrumento. Exemplos: peso (balança), altura (régua), tempo
(relógio), pressão arterial, idade.
• Variáveis Qualitativas (ou categóricas): são as características que
não possuem valores quantitativos, mas, ao contrário, são definidas
por várias categorias, ou seja, representam uma classificação dos
indivíduos. Podem ser nominais ou ordinais.
• Variáveis nominais: não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio.
• Variáveis ordinais: existe uma ordenação entre as categorias.
Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença
(inicial, intermediário, terminal), mês de observação (janeiro,
fevereiro,..., dezembro).
Definição de critérios de
agrupamento dos indivíduos
De cada um dos elementos
do cluster a cada um dos
restantes objetos.
Definição de critérios de
agrupamento (clusters)
Tipos de agrupamentos
• O agrupamento dos clusters podem ser realizados
através de dois métodos: hierárquico e não
hierárquico.
• Método Hierárquicos: que obrigam ao cálculo de
uma matriz de semelhança/distâncias. Permite a
obtenção de clusters, de sujeito e variáveis.
• Método não - hierárquicos: Se aplicam diretamente
sobre os dados originais e que partem de uma
repartição inicial dos indivíduos por um número de
grupos pré-definido. Não precisa de matriz de
dissemelhança.
Método Hierárquicos são subdivididos em
dois tipos: aglomerativos e divisivos
• Aglomerativo: são os mais comuns entre os métodos
hierárquicos. Nesse tipo de método inicia-se com
cada padrão formando seu próprio agrupamento e
gradualmente os grupos são unidos até que um único
agrupamento contendo todos os dados seja gerado
(Silva, 2005).
Método Hierárquicos
• Divisivo: esse método começa com um único
agrupamento formado por todos os padrões e
gradualmente vai dividindo os agrupamentos em
agrupamentos menores até que termine com um
agrupamento padrão. Os métodos divisivos são os
menos comuns entre os métodos hierárquicos devido
a sua ineficiência e exigem uma capacidade
computacional maior (Costa,1999).
Método Hierárquicos
• Nestes métodos os indivíduos são alocados nos
grupos em diferentes etapas, de modo hierárquico, o
resultado final é uma árvore de classificação. Entre
os critérios de junção :
• Vizinho mais próximo
• Vizinho mais distante
Método do vizinho mais próximo
• Também chamado de método do
encadeamento simples “single linkage
method”.
• Neste método calcula-se a matriz de
distâncias entre os ‘n’ indivíduos da
população, em seguida os indivíduos mais
próximos são agrupados.
Método do vizinho mais distante
• Também chamado de método do
encadeamento completo “complete linkage
method”.
• Este método é o inverso do vizinho mais
próximo. Calcula-se a matriz de distâncias
entre os ‘n’ indivíduos da população, em
seguida os indivíduos mais distantes são
agrupados.
• Método: vizinho mais próximo
• Dissimilaridade: distância euclidiana
• Dendrograma
Exemplo de agrupamento
• Matriz de distância euclidiana entre os ‘n’
indivíduos da população;
• Como d15 é a menor distância em D1, os
indivíduos 1 e 5 são agrupados.
Matriz de distância D1
Ind. (n) 1 2 3 4 5
1 0 5 10 7 1
2 0 5 2 6
3 0 3 11
4 0 8
5 0
• Distância euclidiana entre d15 e os demais
indivíduos da população ;
• O menor valor em D2 é D(2,4)=2, então os
indivíduos 2 e 4 são agrupados.
Matriz de distância D2
(15) 2 3 4
(15) 0 5 10 7
2 0 5 2
3 0 3
4 0
• Distância euclidiana entre d24 e os demais
indivíduos da população ;
• O menor valor em D3 é D(2,4)3 = 3, então
o indivíduo 3 é incluído no grupo de 2 e 4.
Matriz de distância D3
Ind. (15) (24) 3
(15) 0 5 10
(24) 0 3
3 0
• Distância euclidiana entre (234) e (15) ;
• O grupo (234) é incluído no grupo (15),
formando assim um único grupo. Fim do
agrupamento.
Matriz de distância D4
(15) (234)
(15) 0 5
(234) 0
• Tabela resumindo passos, grupos e
distâncias entre grupos.
Resumo do método do vizinho mais
próximo
PASSO GRUPOS DISTÂNCIA
1 1,5 1
2 2,4 2
3 24,3 3
4 15,234 5
Número de grupos
• Grupos constituem uma proposição sobre a
organização básica e desconhecida dos
dados;
• Os algoritmos de agrupamento não
apresentam solução para determinação do
número ideal de grupos;
• Uma maneira de determinar o número de
grupos é pelo exame do dendrograma.
Exame do dendrograma
• O dendrograma é um gráfico em forma de
árvore onde podemos observar alterações dos
níveis de similaridade para as sucessivas
etapas do agrupamento;
• O eixo vertical nível de similaridade;
• Eixo horizontal indivíduos;
• As linhas verticais partindo dos indivíduos
agrupados tem altura correspondente ao nível
que os indivíduos são considerados
semelhantes.
Exame do dendrograma
• No exemplo apresentado podemos observar
que o maior nível ocorreu na última etapa,
sugerindo a existência de dois grupos
homogêneos: (1,5) e (2,3,4).
Ajuste do agrupamento
• Devido a inexistência de um método para
selecionar a melhor técnica de agrupamento, é
importante avaliar o grau de ajuste do
agrupamento;
• Coeficiente de correlação cofenética (ccc),
proposto por Sokal & Rohlf (1962);
• Quanto maior ccc melhor agrupamento;
• ccc menor que 0,7 indica inadequação do
método de agrupamento (Rohlf, 1970).
• Mede o grau de ajuste entre a matriz de
dissimilaridade (matriz fenética F ou D1) e a matriz
resultante da simplificação devido ao método de
agrupamento (matriz cofenética C).
𝑐𝑐𝑐 =
𝐶𝑜𝑣 𝐹, 𝐶
𝑉 𝐹 ∙ 𝑉 𝐶
Quando ccc > 0,7 concluímos que o método de
agrupamento foi adequado.
Coeficiente de correlação
cofenética, ccc
• Sarle and Kuo (1993) teste de aproximação não
paramétrica para o número de grupos está
implementado no procedimento MODECLUS.
• Algumas vantagens do método:
1. Não pressupõe nenhuma distribuição ;
2. Robusto o suficiente para ser aplicado em
situações práticas;
3. Os dados podem ser vetor de características ou
distâncias.
Número de Grupos
Algoritmos de Análise de Agrupamentos:
• Os dois principais algoritmos de otimização
dos Métodos Hierárquicos são: AGNES e o
DIANA.
AGNES
• O AGNES (AGglomerative NESting), é um
algoritmo baseado no método hierárquico
aglomerativo, ou seja, no início cada objeto
forma um agrupamento e a cada nova
interação os agrupamentos mais próximos
são unidos, formando um só, de acordo com
um critério pré-estabelecido.
AGNES
• Entre os critérios de junção é possível citar
o que une os agrupamentos de acordo com a
média da dissimilaridade (average linkage)
entre os pontos de um agrupamento e outro,
o método do vizinho mais próximo (single
linkage) que usa a menor distância entre os
dois agrupamentos e o método do vizinho
mais longe (complete linkage) que usa a
maior distância entre os dois agrupamentos.
AGNES
• Comparado a outros algoritmos
aglomerativos, o AGNES apresenta as duas
vantagens: (1) utiliza um coeficiente que
mede a quantia de estruturas de
agrupamentos descobertas, que procura
minimizar as buscas e (2) a partir da árvore
gráfica usualmente usada para representá-lo
é possível prover novas representações.
DIANA
• O DIANA (DIvisive ANAlysis) é um
algoritmo hierárquico divisivo, ou seja, no
início todos os objetos estão no mesmo
agrupamento. A cada interação o
agrupamento é divido em outros dois, de
acordo com um critério pré-definido (os
mesmos do AGNES), até que cada
agrupamento contenha apenas uma
observação.
DIANA
• A escolha de qual agrupamento dividir se dá a cada
etapa do processo, sendo selecionado sempre o
agrupamento que tiver o maior diâmetro (maior
dissimilaridade entre qualquer duas de suas
observações). Para dividir o agrupamento selecionado,
o algoritmo primeiro procura pela observação mais
dissimilar dentro do grupo, esta observação será o
primeiro elemento do novo agrupamento. A seguir, ele
reagrupa as observações que porventura estejam mais
próximas do novo grupo do que do grupo original. O
resultado do processo é a divisão em dois novos
grupos.
Fases da análise de agrupamento
Fonte: Branco/Instituto Superior Técnico
Vamos Praticar?...

More Related Content

What's hot

Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
Cristiano Lemes da Silva
 
amostragem
amostragemamostragem
amostragem
socram01
 
Aula de distribuição de frequencia
Aula de distribuição de frequenciaAula de distribuição de frequencia
Aula de distribuição de frequencia
Linduart Tavares
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
Rodrigo Rodrigues
 

What's hot (20)

Análise de dependência espacial em R
Análise de dependência espacial em RAnálise de dependência espacial em R
Análise de dependência espacial em R
 
Análises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no GenesAnálises agrupamento e dissimilaridade no Genes
Análises agrupamento e dissimilaridade no Genes
 
Creswell, Lopes Livro.pdf
Creswell, Lopes Livro.pdfCreswell, Lopes Livro.pdf
Creswell, Lopes Livro.pdf
 
Análise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no GeodaAnálise de agrupamentos e regionalização - Prática no Geoda
Análise de agrupamentos e regionalização - Prática no Geoda
 
Correlação
CorrelaçãoCorrelação
Correlação
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Correlação Estatística
Correlação EstatísticaCorrelação Estatística
Correlação Estatística
 
Aula 7 análise fatorial
Aula 7  análise fatorialAula 7  análise fatorial
Aula 7 análise fatorial
 
Multivariate data analysis
Multivariate data analysisMultivariate data analysis
Multivariate data analysis
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Desenhos Experimentais (MIP 6)
Desenhos Experimentais (MIP 6)Desenhos Experimentais (MIP 6)
Desenhos Experimentais (MIP 6)
 
Aula 6 análise de conglomerados
Aula 6  análise de conglomeradosAula 6  análise de conglomerados
Aula 6 análise de conglomerados
 
amostragem
amostragemamostragem
amostragem
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 
Classificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATAClassificação de imagens não supervisionada - KMEANS e ISODATA
Classificação de imagens não supervisionada - KMEANS e ISODATA
 
Prática de Regressão Espacial
Prática de Regressão EspacialPrática de Regressão Espacial
Prática de Regressão Espacial
 
Interpolação e Geoestatística em R
Interpolação e Geoestatística em RInterpolação e Geoestatística em R
Interpolação e Geoestatística em R
 
Aula de distribuição de frequencia
Aula de distribuição de frequenciaAula de distribuição de frequencia
Aula de distribuição de frequencia
 
Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
 
Introdução à Análise Estatística Multivariada
Introdução à Análise Estatística MultivariadaIntrodução à Análise Estatística Multivariada
Introdução à Análise Estatística Multivariada
 

Similar to Analise de clusters

Estatística completa
Estatística completaEstatística completa
Estatística completa
Ronne Seles
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
EloGroup
 

Similar to Analise de clusters (20)

Sessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessõesSessao 6.pdf para aproveitametno em sessões
Sessao 6.pdf para aproveitametno em sessões
 
Data Mining - Clustering
Data Mining - ClusteringData Mining - Clustering
Data Mining - Clustering
 
MetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptxMetQuantI_Aula1 (1).pptx
MetQuantI_Aula1 (1).pptx
 
Aula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdfAula_6_Análise__de_Correspondência_-_CA.pdf
Aula_6_Análise__de_Correspondência_-_CA.pdf
 
Estatistica1
Estatistica1Estatistica1
Estatistica1
 
Análise de agrupamentos
Análise de agrupamentosAnálise de agrupamentos
Análise de agrupamentos
 
Agrupamento de sequências biológicas
Agrupamento de sequências biológicasAgrupamento de sequências biológicas
Agrupamento de sequências biológicas
 
Apostila estatistica-ufmg
Apostila estatistica-ufmgApostila estatistica-ufmg
Apostila estatistica-ufmg
 
Bioestatística
BioestatísticaBioestatística
Bioestatística
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Análise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroupAnálise de Clusters - White Paper ELOGroup
Análise de Clusters - White Paper ELOGroup
 
Apresentar dados
Apresentar dadosApresentar dados
Apresentar dados
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Apresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequênciasApresentar dados na forma de distribuição de frequências
Apresentar dados na forma de distribuição de frequências
 
Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03Probabilidade e Estatística - Aula 03
Probabilidade e Estatística - Aula 03
 
Raciocinio logico.pptx
Raciocinio logico.pptxRaciocinio logico.pptx
Raciocinio logico.pptx
 
Estatistica[1]
Estatistica[1]Estatistica[1]
Estatistica[1]
 
topico 2_Medidas descritivas.pdf
topico 2_Medidas descritivas.pdftopico 2_Medidas descritivas.pdf
topico 2_Medidas descritivas.pdf
 
kNN Algorithm
kNN AlgorithmkNN Algorithm
kNN Algorithm
 
Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)Resumo aulas (daniela gomes)
Resumo aulas (daniela gomes)
 

Recently uploaded

GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
RavenaSales1
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
AntonioVieira539017
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
FabianeMartins35
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
TailsonSantos1
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
LeloIurk1
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
marlene54545
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 

Recently uploaded (20)

GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdfGEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
GEOGRAFIA - COMÉRCIO INTERNACIONAL E BLOCOS ECONÔMICOS - PROF. LUCAS QUEIROZ.pdf
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
Revolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividadesRevolução russa e mexicana. Slides explicativos e atividades
Revolução russa e mexicana. Slides explicativos e atividades
 
Aula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIXAula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIX
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
2° ANO - ENSINO FUNDAMENTAL ENSINO RELIGIOSO
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéis
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
migração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenosmigração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenos
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia TecnologiaPROJETO DE EXTENSÃO I - Radiologia Tecnologia
PROJETO DE EXTENSÃO I - Radiologia Tecnologia
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 

Analise de clusters

  • 1. Análise de Clusters Mr. Kleverton Saath
  • 2. O que a análise permite? • Avaliar o tamanho da matriz de dados • Identificar outliers multivariados • Levar hipóteses relativas a relações estruturais entre variáveis.
  • 3. Introdução • Análise de agrupamento ou Cluster analysis: é uma técnica exploratória de análise multi-variada de dados que permite classificar um conjunto de categorias em grupos homogéneos, observando apenas as similaridades ou dissimilaridades entre elas.
  • 4. Introdução • Sequência de regras (algoritmo) para agrupar objetos sem inferência de probabilidade a priori dos grupos. • Não é necessário informações a priori sobre a composição dos grupos. • Dado um conjunto de ‘n’ unidades amostrais, os quais são medidos segundo ‘p’ variáveis, obter um algoritmo que possibilite reunir os indivíduos, tal que exista homogeneidade dentro do grupo e heterogeneidade entre grupos (Regazzi, 2000).
  • 5. Como medimos as similaridades e as dissimilaridade? • MEDIDAS DE DISSIMILARIDADE  Distância euclidiana  Distância euclidiana média  Distância de Mahalanobis  A maioria dos algoritmos de análise de agrupamento têm como base estas medidas de dissimilaridade; Importante: Quanto maior for a medida de dissimilaridade menor será a semelhança entre os indivíduos.
  • 6. Nota • É recomendável a padronização das variáveis antes de se obter o valor da distância euclidiana, devido que normalmente todos os dados não estão no mesmo padrão de medidas. 𝑍𝑖𝑗 = 𝑋𝑖𝑗− 𝑋𝑗 𝑆𝑗 , 𝑍𝑖𝑗 ~ 0 , 1𝑗 𝑜𝑢 𝑍𝑖𝑗 = 𝑋𝑖𝑗 𝑆 𝑋𝑗 , 𝑍𝑖𝑗~ 𝑍𝑗 , 1
  • 7. Distância euclidiana • É a distância entre dois pontos, que pode ser provada pela aplicação repetida do teorema de Pitágoras. • A Função da distância euclidiana de pq: • Onde p e q são os pontos na reta.
  • 8. Distância euclidiana • De forma matricial temos: 𝑑 𝑎𝑏 = 𝑋 𝑎𝑗 − 𝑋 𝑏𝑗 2 𝑝 𝑗=1 1 2 𝑝 = 1,2, ⋯ , 𝑗; 𝑋 𝑎𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑣𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎; 𝑋 𝑏𝑗 = 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙 𝑗 𝑝𝑎𝑟𝑎 𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏.
  • 9. Distância euclidiana média • A distância euclidiana cresce à medida que cresce o número de variáveis. Uma maneira de eliminar o efeito do número de variáveis é dividir o valor da distância euclidiana pela raiz quadrada do número de variáveis. 𝑑 𝑎𝑏 = 1 𝑝 ∙ 𝑑 𝑎𝑏 𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑚é𝑑𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏; 𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠; 𝑑 𝑎𝑏 = 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎 𝑒 𝑏.
  • 10. Distância de Mahalanobis • A distância de Mahalanobis entre os indivíduos a e b é dada por: 𝐷 𝑎𝑏 2 = 𝑋 𝑎 − 𝑋 𝑏 ′ ∙ 𝑆−1 ∙ 𝑋 𝑎 − 𝑋 𝑏 em que, 𝐷 𝑎𝑏 2 é 𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑑𝑒 𝑚𝑎ℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠 𝑒𝑛𝑡𝑟𝑒 𝑜𝑠 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑎 𝑒 𝑏; 𝑋 𝑎 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑎; 𝑋 𝑏 = 𝑣𝑒𝑡𝑜𝑟 𝑑𝑒 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎𝑠 𝑑𝑜 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜 𝑏; 𝑆 = 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑑𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜.
  • 11. MEDIDAS DE SIMILARIDADE • As variáveis são agrupadas de acordo com as medidas de correlação ou associação apropriadas. O coeficiente de correlação é uma medida de similaridade, enquanto que a distância euclidiana é uma medida de dissimilaridade; Importante: quanto maior for a medida de similaridade maior semelhança entre os indivíduos.
  • 12. Correlações apropriadas • Variaríeis contínuas: Coeficiente de correlação de Pearson (linear). • Variáveis ordinais: Coeficiente de Spearman. (posto) • Variáveis nominais: Coeficiente Phi.
  • 13. • Variáveis contínuas: características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), pressão arterial, idade. • Variáveis Qualitativas (ou categóricas): são as características que não possuem valores quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais. • Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio. • Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1o, 2o, 3o graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro,..., dezembro).
  • 14. Definição de critérios de agrupamento dos indivíduos De cada um dos elementos do cluster a cada um dos restantes objetos.
  • 15. Definição de critérios de agrupamento (clusters)
  • 16. Tipos de agrupamentos • O agrupamento dos clusters podem ser realizados através de dois métodos: hierárquico e não hierárquico. • Método Hierárquicos: que obrigam ao cálculo de uma matriz de semelhança/distâncias. Permite a obtenção de clusters, de sujeito e variáveis. • Método não - hierárquicos: Se aplicam diretamente sobre os dados originais e que partem de uma repartição inicial dos indivíduos por um número de grupos pré-definido. Não precisa de matriz de dissemelhança.
  • 17. Método Hierárquicos são subdivididos em dois tipos: aglomerativos e divisivos • Aglomerativo: são os mais comuns entre os métodos hierárquicos. Nesse tipo de método inicia-se com cada padrão formando seu próprio agrupamento e gradualmente os grupos são unidos até que um único agrupamento contendo todos os dados seja gerado (Silva, 2005).
  • 18. Método Hierárquicos • Divisivo: esse método começa com um único agrupamento formado por todos os padrões e gradualmente vai dividindo os agrupamentos em agrupamentos menores até que termine com um agrupamento padrão. Os métodos divisivos são os menos comuns entre os métodos hierárquicos devido a sua ineficiência e exigem uma capacidade computacional maior (Costa,1999).
  • 19. Método Hierárquicos • Nestes métodos os indivíduos são alocados nos grupos em diferentes etapas, de modo hierárquico, o resultado final é uma árvore de classificação. Entre os critérios de junção : • Vizinho mais próximo • Vizinho mais distante
  • 20. Método do vizinho mais próximo • Também chamado de método do encadeamento simples “single linkage method”. • Neste método calcula-se a matriz de distâncias entre os ‘n’ indivíduos da população, em seguida os indivíduos mais próximos são agrupados.
  • 21. Método do vizinho mais distante • Também chamado de método do encadeamento completo “complete linkage method”. • Este método é o inverso do vizinho mais próximo. Calcula-se a matriz de distâncias entre os ‘n’ indivíduos da população, em seguida os indivíduos mais distantes são agrupados.
  • 22. • Método: vizinho mais próximo • Dissimilaridade: distância euclidiana • Dendrograma Exemplo de agrupamento
  • 23. • Matriz de distância euclidiana entre os ‘n’ indivíduos da população; • Como d15 é a menor distância em D1, os indivíduos 1 e 5 são agrupados. Matriz de distância D1 Ind. (n) 1 2 3 4 5 1 0 5 10 7 1 2 0 5 2 6 3 0 3 11 4 0 8 5 0
  • 24. • Distância euclidiana entre d15 e os demais indivíduos da população ; • O menor valor em D2 é D(2,4)=2, então os indivíduos 2 e 4 são agrupados. Matriz de distância D2 (15) 2 3 4 (15) 0 5 10 7 2 0 5 2 3 0 3 4 0
  • 25. • Distância euclidiana entre d24 e os demais indivíduos da população ; • O menor valor em D3 é D(2,4)3 = 3, então o indivíduo 3 é incluído no grupo de 2 e 4. Matriz de distância D3 Ind. (15) (24) 3 (15) 0 5 10 (24) 0 3 3 0
  • 26. • Distância euclidiana entre (234) e (15) ; • O grupo (234) é incluído no grupo (15), formando assim um único grupo. Fim do agrupamento. Matriz de distância D4 (15) (234) (15) 0 5 (234) 0
  • 27. • Tabela resumindo passos, grupos e distâncias entre grupos. Resumo do método do vizinho mais próximo PASSO GRUPOS DISTÂNCIA 1 1,5 1 2 2,4 2 3 24,3 3 4 15,234 5
  • 28. Número de grupos • Grupos constituem uma proposição sobre a organização básica e desconhecida dos dados; • Os algoritmos de agrupamento não apresentam solução para determinação do número ideal de grupos; • Uma maneira de determinar o número de grupos é pelo exame do dendrograma.
  • 29. Exame do dendrograma • O dendrograma é um gráfico em forma de árvore onde podemos observar alterações dos níveis de similaridade para as sucessivas etapas do agrupamento; • O eixo vertical nível de similaridade; • Eixo horizontal indivíduos; • As linhas verticais partindo dos indivíduos agrupados tem altura correspondente ao nível que os indivíduos são considerados semelhantes.
  • 30. Exame do dendrograma • No exemplo apresentado podemos observar que o maior nível ocorreu na última etapa, sugerindo a existência de dois grupos homogêneos: (1,5) e (2,3,4).
  • 31. Ajuste do agrupamento • Devido a inexistência de um método para selecionar a melhor técnica de agrupamento, é importante avaliar o grau de ajuste do agrupamento; • Coeficiente de correlação cofenética (ccc), proposto por Sokal & Rohlf (1962); • Quanto maior ccc melhor agrupamento; • ccc menor que 0,7 indica inadequação do método de agrupamento (Rohlf, 1970).
  • 32. • Mede o grau de ajuste entre a matriz de dissimilaridade (matriz fenética F ou D1) e a matriz resultante da simplificação devido ao método de agrupamento (matriz cofenética C). 𝑐𝑐𝑐 = 𝐶𝑜𝑣 𝐹, 𝐶 𝑉 𝐹 ∙ 𝑉 𝐶 Quando ccc > 0,7 concluímos que o método de agrupamento foi adequado. Coeficiente de correlação cofenética, ccc
  • 33. • Sarle and Kuo (1993) teste de aproximação não paramétrica para o número de grupos está implementado no procedimento MODECLUS. • Algumas vantagens do método: 1. Não pressupõe nenhuma distribuição ; 2. Robusto o suficiente para ser aplicado em situações práticas; 3. Os dados podem ser vetor de características ou distâncias. Número de Grupos
  • 34. Algoritmos de Análise de Agrupamentos: • Os dois principais algoritmos de otimização dos Métodos Hierárquicos são: AGNES e o DIANA.
  • 35. AGNES • O AGNES (AGglomerative NESting), é um algoritmo baseado no método hierárquico aglomerativo, ou seja, no início cada objeto forma um agrupamento e a cada nova interação os agrupamentos mais próximos são unidos, formando um só, de acordo com um critério pré-estabelecido.
  • 36. AGNES • Entre os critérios de junção é possível citar o que une os agrupamentos de acordo com a média da dissimilaridade (average linkage) entre os pontos de um agrupamento e outro, o método do vizinho mais próximo (single linkage) que usa a menor distância entre os dois agrupamentos e o método do vizinho mais longe (complete linkage) que usa a maior distância entre os dois agrupamentos.
  • 37. AGNES • Comparado a outros algoritmos aglomerativos, o AGNES apresenta as duas vantagens: (1) utiliza um coeficiente que mede a quantia de estruturas de agrupamentos descobertas, que procura minimizar as buscas e (2) a partir da árvore gráfica usualmente usada para representá-lo é possível prover novas representações.
  • 38. DIANA • O DIANA (DIvisive ANAlysis) é um algoritmo hierárquico divisivo, ou seja, no início todos os objetos estão no mesmo agrupamento. A cada interação o agrupamento é divido em outros dois, de acordo com um critério pré-definido (os mesmos do AGNES), até que cada agrupamento contenha apenas uma observação.
  • 39. DIANA • A escolha de qual agrupamento dividir se dá a cada etapa do processo, sendo selecionado sempre o agrupamento que tiver o maior diâmetro (maior dissimilaridade entre qualquer duas de suas observações). Para dividir o agrupamento selecionado, o algoritmo primeiro procura pela observação mais dissimilar dentro do grupo, esta observação será o primeiro elemento do novo agrupamento. A seguir, ele reagrupa as observações que porventura estejam mais próximas do novo grupo do que do grupo original. O resultado do processo é a divisão em dois novos grupos.
  • 40. Fases da análise de agrupamento Fonte: Branco/Instituto Superior Técnico