Pular para o conteúdo principal

ANÁLISE DE DADOS COM WEKA

 

Análise de dados 

utilizando as bases 

de dados “A4” e 

“Iris”

com o software 

“Weka”





















Faculdade Cruzeiro do Sul

Autor: Mateus Amorim Marques; MARQUES, M. A.




















Sumário



  • Apresentação

  • Banco de dados “A4”

  • Análise de dados utilizando 1 cluster

  • Análise de dados utilizando 2 cluster

  • Análise de dados utilizando 3 cluster

  • Análise de dados utilizando 4 cluster

  • Análise de dados utilizando 5 cluster

  • Análise de dados utilizando 6 cluster

  • Análise de dados utilizando 7 cluster

  • Análise de dados utilizando 8 cluster

  • Análise de dados utilizando 9 cluster

  • Análise de dados utilizando 10 cluster

  • Análise de dados utilizando 11 cluster

  • Análise de dados utilizando 12 cluster

  • Análise de dados utilizando 13 cluster

  • Análise de dados utilizando 14 cluster

  • Análise de dados utilizando 15 cluster

  • Conclusão Banco de dados “A4”

  • Banco de dados “Iris”

  • Análise de dados utilizando 1 cluster

  • Análise de dados utilizando 2 cluster

  • Análise de dados utilizando 3 cluster

  • Análise de dados utilizando 4 cluster

  • Análise de dados utilizando 5 cluster

  • Conclusão Banco de dados “Iris”















Relatório do Banco de dados “A4”:

Abertura de Arquivo e análise de dados com número de clusters = 1

Para o experimento utilizaremos o algoritmo “K-means” e vamos variar de 1 á 

15 clusters para observar o decaimento do Erro RMS, a medida de distância

 será a euclidiana.


 O arquivo possui no total 6 atributos e 4773 instâncias.

 Quando experimentamos com o número de clusters = 1 é possível observar que o valor

do erro amostral é extremamente alto.


Erro RMS =  2590.5480758155823

Análise com número de clusters = 2



Com o número de clusters = 2, os dados são agrupados em 2 grupos com a instância

 “Acordo” com valores 0 e 1, que identificam as instâncias com acordo e sem acordo, 

especificamente 3906 instâncias com acordo e 867 sem acordo, é possível observar 

as instâncias bem divididas no gráfico, em azul as com acordo e em vermelho sem acordo. 












Análise de dados com número de clusters = 3



Podemos observar que 2 grupos fecham acordo e 1 não fecha acordo.

Com Erro RMS = 1293.9811248173241
















Análise de dados com número de clusters = 4



Podemos observar que 3 grupos fecham acordo e 1 não fecha acordo.

Com erro RMS = 1010.776154354433















Análise de dados com número de clusters = 5


Podemos observar 3 clusters com acordo, 1 sem acordo e 1 misturado com o

 valor de “0,8773”, esse valor se aproxima mais de 1 do que de 0 o que indica que

 a maioria fecha acordo.

Com o número de Erro RMS = 909.7776150855439













Análise de dados com número de clusters = 6



Podemos observar que 4 grupos fecham acordo, 1 não fecha acordo e 1 

está misturado com o número de “0,8773”, indicando que a maioria fecha

acordo.

Com número de  Erro RMS = 760.3477849099173














Análise de dados com número de clusters = 7



 Podemos observar que 6 grupos fecham acordo e um grupo não fecha acordo.

 Resta saber qual grupo é mais rentável investir em ligações de telemarketing, que 

no caso será o grupo “5” que é o grupo que não fechou acordo.


 Com Erro RMS = 712.1244016805499











Análise de dados com número de clusters = 8


 

 Observamos 6 grupos que fecham acordo e 2 que não fecham acordo.

 Nesse momento o experimento começa a dividir os grupos que não fecham 

acordo, talvez irrelevantes para a análise, tornando o experimento muito 

especializado.


 Com Erro RMS = 594.6409667274219












Análise de dados com número de clusters = 9



 Nesse caso, 7 grupos fecham acordo, 1 não fecha acordo e 1 tem o valor de “0.8773” o

 que indica que sua maioria fecha acordo.

 Com Erro RMS = 674.3703620353895










Análise de dados com número de clusters = 10



 Aqui 8 grupos fecham acordo, 1 não fecha acordo e 1 tem o valor de “0.6789” indicando

 que a sua maioria fecha acordo.


 Com Erro RMS = 628.5464631055665









Análise de dados com número de clusters = 11



 9 grupos fecham acordo e 2 não fecham acordo.

 

 Com Erro RMS = 515.1967400904064










Análise de dados com número de clusters = 12




 9 grupos fecham acordo e 3 não fecham acordo.


 Com Erro RMS = 437.79620334747824










Análise de dados com número de clusters = 13



10 grupos fecham acordo e 3 não fecham acordo.

 

 Com Erro RMS = 427.4340398244632










Análise de dados com número de clusters = 14




11 grupos fecham acordo e 3 não fecham acordo.


Com Erro RMS = 422.22307302215694











Análise de dados com número de clusters = 15



 12 grupos fecham acordo e 3 não fecham acordo.


 Com Erro RMS = 410.06087155939133














Conclusão


Quantidade de clusters x Erro RMS



 Chego a conclusão que o número ideal de clusters para obter as informações necessárias, 

sobre quais clientes devem receber as ligações da equipe de telemarketing, é de 7 clusters,

 a partir daí o experimento passa a ficar muito especializado, dividindo dados talvez

irrelevantes.  

 

 




















Relatório do banco de dados “Iris”:


Essa é a imagem exibida após a abertura da base de dados “Iris”, podemos observar os valores

 mínimo, máximo, média, desvio padrão, os atributos e o número de instâncias.

Utilizarei o algoritmo K-means e a medida de distância euclidiana para a execução do experimento.



















Análise de dados com número de clusters = 1


Podemos notar que o Erro RMS é muito alto para esse experimento, impossibilitando uma

 análise precisa, com todos os dados agrupados em um único grupo.


 Erro RMS = 141.16611042137328



Análise de dados com número de clusters = 2


 Podemos observar que os dados se dividem em 2 grupos, no entanto em um dos grupos

 possui dados bem que ainda podem ser melhor agrupados.


Erro RMS = 62.127790750538175









Análise de dados com número de clusters = 3


Nesse momento podemos observar 3 grupos bem divididos, dividindo o atributo “variety” em

 “Versicolor”, “Setosa” e “Virginica”.


0       50 ( 33%)

1       50 ( 33%)

2       50 ( 33%)


O erro RMS tem uma queda bem significativa.


Erro RMS = 7.801559361268048




Análise de dados com número de clusters = 4


Nesse momento o experimento divide o grupo “Versicolor” em 2, o que pode não ser muito

 interessante para o experimento tornando muito especializado, e a queda do Erro RMS não

 é tão significante para a análise.


0       24 ( 16%)

1       26 ( 17%)

2       50 ( 33%)

3       50 ( 33%)


Erro RMS = 6.597925743648829






Análise de dados com número de clusters = 5



Aqui o experimento divide o grupo “Versicolor” em 3, deixando ainda mais especializado, 

dividindo dados talvez insignificantes, sendo difícil a análise, e tendo uma queda do Erro RMS

 ainda baixo.


0       19 ( 13%)

1       19 ( 13%)

2       50 ( 33%)

3       50 ( 33%)

4       12 (  8%)


Erro RMS = 6.277659330769319


Conclusão


Quantidade de clusters x Erro RMS



Chego a conclusão que o número ideal de clusters para obter as informações necessárias é 

de 3 clusters, dividindo os tipos de flores de forma precisa e confiável; são eles: Versicolor, Setosa,

 Virginica. Do número de cluster 4 em diante, o experimento começa a dividir dados não tão relevantes.

Comentários

Postagens mais visitadas deste blog

Machine Learning com "Azure ML Studio", Redes Neurais e Regressão Linear

Altor: Mateus Amorim Marques; MARQUES, M. A. Machine Learning com “Azure Machine Learning Studio”  Inserindo a base de dados “ student-mat.csv ” e criação dos modelos treinados, com Redes Neurais e Regressão Linear:  A base de dados avalia o desempenho de alunos de determinada região.  A coluna que iremos prever será a G3.  Modelo de Redes Neurais:  Modelo de Regressão Linear:  Publicação do modelo treinado, para solicitação do usuário:  Prevendo média e desvio padrão da coluna G3, com base nos dados preenchidos pelo usuário:  Desempenho dos modelos: - Redes Neurais: - Regressão Linear: O modelo que apresentou o melhor desempenho foi o de Regressão Linear: Erro Absoluto Médio: 1.416767 Coeficiente de Determinação: 0.752131 Modelo de Redes Neurais: Erro Absoluto Médio: 1.700481 Coeficiente de Determinação: 0.711061

Criação e manipulação de banco de dados em Sql Server.

  Autor: Mateus Amorim Marques; MARQUES, M. A. Instituição: Universidade Cruzeiro do Sul Curso: Ciência de Dados      --CRIAÇÃO DE BASE DE DADOS --CREATE DATABASE F1; --CRIAÇÃO DE TABELAS --2018 create table TB_EQUIPE ( ID_EQUIPE INT PRIMARY KEY NOT NULL, NM_EQUIPE VARCHAR(100) NOT NULL, ID_PAIS INT NOT NULL ); CREATE TABLE TB_PILOTO ( ID_PILOTO INT PRIMARY KEY NOT NULL, NM_PILOTO VARCHAR(100) NOT NULL, DT_NASCIMENTO DATE NOT NULL, ID_PAIS INT NOT NULL, ID_EQUIPE INT NOT NULL ); CREATE TABLE TB_PAIS ( ID_PAIS INT PRIMARY KEY NOT NULL, NM_PAIS VARCHAR(100) NOT NULL, NR_POPULACAO INT NOT NULL ); CREATE TABLE TB_CIRCUITO ( ID_CIRCUITO INT PRIMARY KEY NOT NULL, NM_CIRCUITO VARCHAR(100) NOT NULL, NR_EXTENSAO VARCHAR(100) NOT NULL, ID_PAIS INT NOT NULL ); CREATE TABLE TB_PROVA ( ID_PROVA INT PRIMARY KEY NOT NULL, DT_PROVA DATETIME NOT NULL, NM_SITUACAO VARCHAR(100), ID_CIRCUITO INT NOT NULL ); CREATE TABLE TB_RESULTADO ( ID_PROVA INT NOT NULL, ID_PILOTO INT NOT NULL, NR...

Análise da cotação do dólar com Python.

  Autor: Mateus Amorim Marques; MARQUES, M. A. Instituição: Universidade Cruzeiro do Sul Curso: Ciência de Dados  Link do Dataset utilizado: https://br.investing.com/currencies/usd-brl-historical-data Link do meu vídeo de apresentação:   https://www.youtube.com/watch?v=qgM5SHOXnHQ   Plot1: Com esse gráfico de linha do mês de maio e início de junho, podemos observar que a cotação do dólar vem com uma tendência de queda,  apesar de lenta, apresenta seu ponto mais alto em 12/05/2022 onde  chega a mais de R$5,00 e a maior queda em 30/05/2022, abaixo de R$4,80.       Código fonte:   plt.figure ( figsize= ( 30 , 10 )) plt.plot ( x , y ) plt.title ( 'Cotação do Dólar (Maio e Junho de 2022)' ) plt.xlabel ( "Data" ) plt.ylabel ( "USD-BRL" ) plt.show ()   Plot2: Com esse gráfico de barras, podemos observar que a cotação do dólar vem  caindo devagar, apresenta seu ponto mais alto em 12/05/2022 onde chega a  mais de R$5,00 e a...