Análise de dados
utilizando as bases
de dados “A4” e
“Iris”
com o software
“Weka”
Faculdade Cruzeiro do Sul
Autor: Mateus Amorim Marques; MARQUES, M. A.
Sumário
Apresentação
Banco de dados “A4”
Análise de dados utilizando 1 cluster
Análise de dados utilizando 2 cluster
Análise de dados utilizando 3 cluster
Análise de dados utilizando 4 cluster
Análise de dados utilizando 5 cluster
Análise de dados utilizando 6 cluster
Análise de dados utilizando 7 cluster
Análise de dados utilizando 8 cluster
Análise de dados utilizando 9 cluster
Análise de dados utilizando 10 cluster
Análise de dados utilizando 11 cluster
Análise de dados utilizando 12 cluster
Análise de dados utilizando 13 cluster
Análise de dados utilizando 14 cluster
Análise de dados utilizando 15 cluster
Conclusão Banco de dados “A4”
Banco de dados “Iris”
Análise de dados utilizando 1 cluster
Análise de dados utilizando 2 cluster
Análise de dados utilizando 3 cluster
Análise de dados utilizando 4 cluster
Análise de dados utilizando 5 cluster
Conclusão Banco de dados “Iris”
Relatório do Banco de dados “A4”:
Abertura de Arquivo e análise de dados com número de clusters = 1
Para o experimento utilizaremos o algoritmo “K-means” e vamos variar de 1 á
15 clusters para observar o decaimento do Erro RMS, a medida de distância
será a euclidiana.
O arquivo possui no total 6 atributos e 4773 instâncias.
Quando experimentamos com o número de clusters = 1 é possível observar que o valor
do erro amostral é extremamente alto.
Erro RMS = 2590.5480758155823
Análise com número de clusters = 2
Com o número de clusters = 2, os dados são agrupados em 2 grupos com a instância
“Acordo” com valores 0 e 1, que identificam as instâncias com acordo e sem acordo,
especificamente 3906 instâncias com acordo e 867 sem acordo, é possível observar
as instâncias bem divididas no gráfico, em azul as com acordo e em vermelho sem acordo.
Análise de dados com número de clusters = 3
Podemos observar que 2 grupos fecham acordo e 1 não fecha acordo.
Com Erro RMS = 1293.9811248173241
Análise de dados com número de clusters = 4
Podemos observar que 3 grupos fecham acordo e 1 não fecha acordo.
Com erro RMS = 1010.776154354433
Análise de dados com número de clusters = 5
Podemos observar 3 clusters com acordo, 1 sem acordo e 1 misturado com o
valor de “0,8773”, esse valor se aproxima mais de 1 do que de 0 o que indica que
a maioria fecha acordo.
Com o número de Erro RMS = 909.7776150855439
Análise de dados com número de clusters = 6
Podemos observar que 4 grupos fecham acordo, 1 não fecha acordo e 1
está misturado com o número de “0,8773”, indicando que a maioria fecha
acordo.
Com número de Erro RMS = 760.3477849099173
Análise de dados com número de clusters = 7
Podemos observar que 6 grupos fecham acordo e um grupo não fecha acordo.
Resta saber qual grupo é mais rentável investir em ligações de telemarketing, que
no caso será o grupo “5” que é o grupo que não fechou acordo.
Com Erro RMS = 712.1244016805499
Análise de dados com número de clusters = 8
Observamos 6 grupos que fecham acordo e 2 que não fecham acordo.
Nesse momento o experimento começa a dividir os grupos que não fecham
acordo, talvez irrelevantes para a análise, tornando o experimento muito
especializado.
Com Erro RMS = 594.6409667274219
Análise de dados com número de clusters = 9
Nesse caso, 7 grupos fecham acordo, 1 não fecha acordo e 1 tem o valor de “0.8773” o
que indica que sua maioria fecha acordo.
Com Erro RMS = 674.3703620353895
Análise de dados com número de clusters = 10
Aqui 8 grupos fecham acordo, 1 não fecha acordo e 1 tem o valor de “0.6789” indicando
que a sua maioria fecha acordo.
Com Erro RMS = 628.5464631055665
Análise de dados com número de clusters = 11
9 grupos fecham acordo e 2 não fecham acordo.
Com Erro RMS = 515.1967400904064
Análise de dados com número de clusters = 12
9 grupos fecham acordo e 3 não fecham acordo.
Com Erro RMS = 437.79620334747824
Análise de dados com número de clusters = 13
10 grupos fecham acordo e 3 não fecham acordo.
Com Erro RMS = 427.4340398244632
Análise de dados com número de clusters = 14
11 grupos fecham acordo e 3 não fecham acordo.
Com Erro RMS = 422.22307302215694
Análise de dados com número de clusters = 15
12 grupos fecham acordo e 3 não fecham acordo.
Com Erro RMS = 410.06087155939133
Conclusão
Quantidade de clusters x Erro RMS
Chego a conclusão que o número ideal de clusters para obter as informações necessárias,
sobre quais clientes devem receber as ligações da equipe de telemarketing, é de 7 clusters,
a partir daí o experimento passa a ficar muito especializado, dividindo dados talvez
irrelevantes.
Relatório do banco de dados “Iris”:
Essa é a imagem exibida após a abertura da base de dados “Iris”, podemos observar os valores
mínimo, máximo, média, desvio padrão, os atributos e o número de instâncias.
Utilizarei o algoritmo K-means e a medida de distância euclidiana para a execução do experimento.
Análise de dados com número de clusters = 1
Podemos notar que o Erro RMS é muito alto para esse experimento, impossibilitando uma
análise precisa, com todos os dados agrupados em um único grupo.
Erro RMS = 141.16611042137328
Análise de dados com número de clusters = 2
Podemos observar que os dados se dividem em 2 grupos, no entanto em um dos grupos
possui dados bem que ainda podem ser melhor agrupados.
Erro RMS = 62.127790750538175
Análise de dados com número de clusters = 3
Nesse momento podemos observar 3 grupos bem divididos, dividindo o atributo “variety” em
“Versicolor”, “Setosa” e “Virginica”.
0 50 ( 33%)
1 50 ( 33%)
2 50 ( 33%)
O erro RMS tem uma queda bem significativa.
Erro RMS = 7.801559361268048
Análise de dados com número de clusters = 4
Nesse momento o experimento divide o grupo “Versicolor” em 2, o que pode não ser muito
interessante para o experimento tornando muito especializado, e a queda do Erro RMS não
é tão significante para a análise.
0 24 ( 16%)
1 26 ( 17%)
2 50 ( 33%)
3 50 ( 33%)
Erro RMS = 6.597925743648829
Análise de dados com número de clusters = 5
Aqui o experimento divide o grupo “Versicolor” em 3, deixando ainda mais especializado,
dividindo dados talvez insignificantes, sendo difícil a análise, e tendo uma queda do Erro RMS
ainda baixo.
0 19 ( 13%)
1 19 ( 13%)
2 50 ( 33%)
3 50 ( 33%)
4 12 ( 8%)
Erro RMS = 6.277659330769319
Conclusão
Quantidade de clusters x Erro RMS
Chego a conclusão que o número ideal de clusters para obter as informações necessárias é
de 3 clusters, dividindo os tipos de flores de forma precisa e confiável; são eles: Versicolor, Setosa,
Virginica. Do número de cluster 4 em diante, o experimento começa a dividir dados não tão relevantes.
Comentários
Postar um comentário