Mineração de Dados - cin.ufpe.brin940/Mineracao_de_Dados-AntonioBraz.pdf · • Mineração de...
-
Upload
duongkhanh -
Category
Documents
-
view
231 -
download
2
Transcript of Mineração de Dados - cin.ufpe.brin940/Mineracao_de_Dados-AntonioBraz.pdf · • Mineração de...
MineraçãodeDadosCONCEITOSEPRINCIPAISTÉCNICAS
Roteiro• Introdução• MineraçãodeDados
• DescobertadeConhecimentoemBasesdeDados• Principaistarefas
• Principaistécnicas
• ComoescolheramelhortécnicadeMD• MineraçãodeDadosComplexos
• ExemplodeFerramentadeMineração
• Referências
2
Introdução• SurgimentodosSistemasComputacionais
• UmdosprincipaisobjeKvos:ArmazenamentodeDados
• Comopassardosanos• AquisiçãodeHardware:custocadavezmaisbaixo• Estruturasdearmazenamentorobustas
• BancosdeDados• DataWarehouses• BibliotecasVirtuais• Web
3
Introdução• Volumesdedadosgeradosporalgumasaplicações
• NASA• ProjetoGenoma• GrandesinsKtuiçõesbancárias
4
MoKvação• Diantedisso,eisaquestão:
• Oquefazercoma-grandequan*dadededadosgerados-?
• Milhõesgastosemarmazenamentodedados• Organizaçõesricaemdados,pobreeminformação
• NecessidadedecriaçãodenovastecnologiasparaanáliseautomáKcaeinteligentedebancosdedados[Fayyadetal.1996].• Transformaçãodedadosinúteisemconhecimentosúteis
5
MineraçãodeDados• Propostanadécadade80
• “Mineraçãodedadoséaexploraçãoeaanálise,pormeioautomá6coousemiautomá6co,degrandesquan6dadesdedados,afimdedescobrirpadrõeseregrassignifica6vos.”(BerryeLinoff,1997).
• Potencial• AnálisematemáKcaparaderivarpadrõesetendências;• Lidarcomgrandesvolumesdedadoscomplexos
• Aplicaçãodeduasformas(Groth,1998)• ProcessodeVerificação• ProcessodeDescoberta
6
MineraçãodeDados• Camilo(2009)apresentaalgumasdasáreasnasquaisaMineraçãode
DadoséaplicadadeformasaKsfatória:
• Retençãodeclientes
• Bancos
• Medicina
• TelemarkeKng
• Eleitoral
7
DescobertadeConhecimentoembasesdedados
• Problema:Modelotradicionalparatransformaçãodosdadosemconhecimento(Fayyad,1996)
• Processamentomanual
• Produçãorelatóriosparaanálise
• Inviabilidade:volumededados
• Solução:KDD(KnowledgeDiscoveryinDatabasesouDescobertadeConhecimentonasBasesdeDados)
• "eradainformação":asobrecargadedados.
8
DescobertadeConhecimentoembasesdedados
• “UmprocessonãotrivialdeidenKficaçãodenovospadrõesválidos,úteisecompreensíveis".[Fayyad,1996]
• ÁreadinâmicaeevoluKva
• EstausKca,InteligênciaArKficialeBancosdeDados
• GaranKa
• Confiabilidade,uKlidadeecompreensibilidadedospadrões
9
DescobertadeConhecimentoembasesdedados
As5EtapasdoKDD
10
DescobertadeConhecimentoembasesdedados• Seleção:escolherumconjuntodedadoscontendotodasaspossíveis
variáveiseregistrosquefarãopartedaanálise.
11
DescobertadeConhecimentoembasesdedados• Pré-processamento:eliminaçãodedadosredundantese
inconsistentes
• Eventuaissituações:• DadosausenteseOutliers
12
DescobertadeConhecimentoembasesdedadosTransformação:organizaçãodosdadosnumformatoapropriadoparaaaplicaçãodealgoritmosdemineração.
13
DescobertadeConhecimentoembasesdedadosMineração:Aplicaçõesdetécnicasdereconhecimentoeextraçãodepadrões
14
DescobertadeConhecimentoembasesdedadosAvaliação:avaliaçãodosresultadospós-minerados
15
Principaistarefas
A Mineração de Dados é comumente classificada pela suacapacidadeemrealizardeterminadastarefas[Laroseetal,2005].Astarefasmaiscomunssão:• Classificação:
• visaidenKficaraqualclasseumdeterminadoregistropertence.• Exemplo
• ConjuntodeDados:Colaboradoresdeumaempresa• Classes:PerfilTécnico,PerfilNegocialePerfilGerencial• ObjeKvo:definiremqualperfilseencaixaumnovo
colaborador• Outrosexemplos
• Detecçãodefraudesdecomprascomcartãodecrédito• DiagnósKcodedoenças
16
Principaistarefas
• RegressãoouEsKmação:• esKmarovalordeumadeterminadavariávelanalisando-
seosvaloresdasdemais(atributosnuméricos)• OobjeKvoépreverosvaloresdeumavariável
dependentecombaseemresultadosdavariávelindependente
• RegressãoLinear:y=aX+B
• Exemplo• EsKmarapressãoidealdeumpaciente,combasena
altura,idadeepeso
17
Principaistarefas
• Agrupamento(Clustering)• IdenKficaeaproximaregistrossimilares,agrupando-osem
seguida
• Nãonecessitaqueosdadosestejapreviamentecategorizados
• Aprendizadonão-supervisionado• Exemplos
• Agruparpessoasporaltura,sexoehábitos• Agruparclientescomcomportamentodecompra
similar
18
Principaistarefas
• Associação• ConsisteemidenKficarquaisatributosestãorelacionados.• Apresentamaforma:SEatributoXENTÃOatributoY.
• Xéoantecedente• Yéoconsequente
• Encontrartendênciasquepossamserusadasparaentendereexplorarpadrõesdecomportamentodosdados.
• Exemplos
• IdenKficarquaisprodutossãolevadosjuntocomoutrospelosconsumidores(Cestadecompras)
19
Principaistécnicas
• AprendizadoSupervisionado• Necessitadedadospré-categorizados• Variável-alvopré-definida
• Não-Supervisionado• Nãonecessitadedadospré-categorizados• UKlizaçãodemedidasdesimilaridade
• Combinaçãodediversastarefas/técnicas• Comparaçõesacercadamelhortécnicaoudomelhor
conjuntodetécnicasparadeterminadoproblema
20
Principaistécnicas
• Harrison(1998)afirmaquenãoháumatécnicaqueresolvatodososproblemasdemineraçãodedados.
• Diferentesmétodosparadiferentespropósitos• Vantagensedesvantagens.• Importânciadafamiliaridadecomastécnicas
• PrincipaistécnicasdeMineraçãodeDados• RegrasdeAssociação
• estabeleceumacorrelaçãoestausKcaentrecertositensdedadosemumconjuntodedados(GoebeleGruenwald,1999).
• Regra:X1^...^Xn=>Y[C,S],ondeX1,...,XnsãoitensquepreveemaocorrênciadeYcomumgraudeconfiançaCecomumsuportemínimodeSe“^”denotaumoperadordeconjunção(AND).
21
Principaistécnicas
• RegrasdeAssociação(Cont.)
Conclusõessimples:• Quem compra leite,
quase sempre compraovos;
• Quem compra ovos eaçúcar sempre compraleite;
• Quem compra cervejasemprecomprafraldas.
22
Principaistécnicas
• RegrasdeAssociação(Cont.)
• Métricas(GaranKaderesultadosválidos)• Suporte
• porcentagemdetransaçõesondeumdeterminadoitem/itemsetaparece
• Confiança• DadoA->B,éporcentagemdastransaçõesque
suportam“AUB”divididaportodasastransaçõesquesuportamA
• Algoritmos
• Apriori,AprioriTid,AprioriHybrid,AIS,SETM(AgrawaleSrikant,1994)eDHP(Chenetal,1996).
23
Principaistécnicas
• RegrasdeAssociação(Cont.)
• Apriori(ProjetoQuest,IBM) 1.Entrada:coleçãodedadosassociados,suportemínimo, confiançamínima. 2.ConsiderarK=1paracriaçãodeK-itemsets 3.AnalisarosdadosassociadosecriarumatabeladeK- itemsetscomsuporteacimadosuportemínimo. 4.Criarcomositemsetsfiltradosumconjuntode candidatosa(K+1)itemsets. 5.Eliminaritemsetsinfrequentes. 6.RepeKrdesdeopasso3atéqueoconjuntogeradoseja vazio. 7.Listarregrasdeassociação(compermutações)eaplicar limitedeconfiança.
24
Principaistécnicas
• RegrasdeAssociação(Cont.)
• Apriori(S=25%,C=75%)
25
Principaistécnicas
• RegrasdeAssociação(Cont.)
• Apriori(S=25%,C=75%)
26
Principaistécnicas
• ÁrvoresdeDecisão• Árvore onde cada nó não-terminal representa um
teste ou decisão sobre o itemde dado considerado(GoebeleGruenwald,1999).
• MétricasuKlizadas• Entropia(aleatoriedadedavariável-objeKvo)• Ganho(diminuiçãodaentropia)
• Fluxo• Nóraiz(umadadaentrada)• Análisedenósnão-terminais(decisões)• Algumnó-folha(categoriaouclasse)
• Técnica simples, bom grau de asserKvidade e nãoprecisadeparâmetrosdeconfiguração
27
Principaistécnicas
• ÁrvoresdeDecisão• Entrada: base de dados, com atributos
preditivos e atributo-alvo.
• Saída: classificação do atributo alvo em função dos preditivos.
Id Idade Renda Carro 1 >40 > 8k Importado 2 18 – 40 0-8k Nacional 3 >40 0-8k Nacional
4 18 – 40 > 8k Nacional
5 18 – 40 0-8k Nacional
6 18 – 40 0-8k Nacional
7 18 – 40 0-8k Nacional
8 >40 > 8k Importado 28
Principaistécnicas
• K-means
• Aprendizagemnão-supervisionada• UKlizadaemtarefasdeAgrupamento• ConceitodeCentróides
• Entrada:• Instâncias:conjuntodedados• Medidadedistância(similaridade):
• DistânciaEuclidiana• Cosseno
• Númerodegrupos(clusters)• Saída:
• Centróidesdosgrupos,perKnênciadasinstâncias
29
Principaistécnicas
• K-means
• Algoritmo(iteraKvo)• 1.DefinirKcentróides iniciais,selecionandoKobjetos
aleatórios;• 2. Aloque cada objeto para o cluster correspondente
aocentróidemaissimilar;• DistânciaEuclidiana,Cosseno,Manha�an.
• 3.Recalcularoscentróidesdosclusters;• 4.Voltaraopasso2
30
Principaistécnicas
• K-means
• EncontraroscentrosóKmos• Minimizar a junção das distâncias quadráKcas
(médiadospontos)
• CritériodeParada• Não ocorrerem mais alterações nos centróides
(convergênciadoscentrosóKmos)• Se um centróide não Kver registros associados no
início, ele deve ser reiniciado para escolha de novocentróide
31
Principaistécnicas
• K-means
32
Principaistécnicas
• K-means
33
Principaistécnicas
• K-means
34
Principaistécnicas
• K-means
35
Principaistécnicas
• K-means
36
Principaistécnicas
• K-means
37
ComoescolheraTécnicadeMineraçãodeDadosMaisadequada
• Dependedosdadosdisponíveisparaanálise• Tarefaexpecíficaaserexecutada(Agrupamento,Classificação)
• 2passos(Harrison,1998)• 1. traduzir o problema de negócio a ser resolvido em séries de
tarefasdemineraçãodedados;• 2. compreender a natureza dos dados (conteúdo, campos,
relações).
• SegundoChenetal,1996• ComqueKposdebancosdedadostrabalhar• QualoKpodeconhecimentoaserexplorado• QualKpodetécnicaaseruKlizada
38
Mineraçãodedadoscomplexos
• MineraçãorealizadosobrediversosKposdedados
• Inicialmente:Repositóriosestruturadosdedados• BancosdeDados,DataWarehouses,etc.
• Atualmente:Repositóriosdedadosemgeral• MulKmídia,Web,Temporal,Grafos
• AlgunsTipos• Mineraçãodefluxodedados:
• altovolumededados(análisesobdemanda)• Algoritmoappearing-bit-sequence-basedincrementalmining
• Mineraçãodesériestemporais• Informaçõesdeeventosnumdadotempo• Mineração temporal por agrupamento: fatores de risco na
áreamédica
39
• Tipos(Cont)
• Mineraçãodetextos:• RecuperaçãodeInformacão(documentos)• Resolver problemas como cocumentos não relacionados,
volumealtodedocumentos,informaçõesdispensáveis
• MineraçãodaInternet(ouWebMining)• Consisteemminerarasestruturasdeligação,oconteúdo,os
padrõesdeacesso,classificaçãodedocumentos,entreoutras
40
Mineraçãodedadoscomplexos
• Weka• So�warelivreopensourceparamineraçãodedados,desenvolvidoemJava.
• DesenvolvidoporpesquisadoresdaUniversidadedeWaikato,NovaZelândia.
• Consolidou-secomoaferramentadedataminingmaisuKlizadaemambienteacadêmico.
• Potenciais:Classificação,RegrasdeAssociaçãoeClusterização
• MododeUso:WekaAPIJava,WekaExplorer
• Arquivos.arffparaexpressarabasedeconhecimento
41
ExemplodeferramentadeMineração
• Weka• Titanic(ExemplodeAplicação)
• ObjeKvo:classificaçãodossobreviventesdonaufrágio• ProblemaidealizadoporKaggle
h�ps://www.kaggle.com/c/Ktanic#evaluaKon
• UKlizarinformaçõesdospassageiros(treinamento)• Criarumclassificador(RedeBayesiana,ÁrvoredeDecisão,Regressão)uKlizandoosdadosdetreinamento
• Classificarumconjuntodetestes• Atributo-alvo:survived{0,1}
42
ExemplodeferramentadeMineração
@relationtrain
@attributePassengerIdnumeric@attributeSurvived{0,1}@attributePclassnumeric@attributeSex{male,female}@attributeAgenumeric@attributeSibSpnumeric@attributeParchnumeric@attributeTicket{'A/521171','PC17599’,...}@attributeFare{7.925,53.1,8.05,84.583,518.625,...}@attributeEmbarked{S,C,Q}
43
ExemplodeferramentadeMineração
@data
1,0,3,male,22,1,0,'A/521171',7.25,S2,1,1,female,38,1,0,'PC17599',712.833,C3,1,3,female,26,0,0,'STON/O2.3101282',7.925,S4,1,1,female,35,1,0,113803.0,53.1,S5,0,3,male,35,0,0,373450.0,8.05,S6,0,3,male,?,0,0,330877.0,84.583,Q7,0,1,male,54,0,0,17463.0,518.625,S8,0,3,male,2,3,1,349909.0,21.075,S9,1,3,female,27,0,2,347742.0,111.333,S10,1,2,female,14,1,0,237736.0,300.708,C...
44
ExemplodeferramentadeMineração
@relationtest
@attributePassengerIdnumeric@attributeSurvived{0,1}@attributePclassnumeric@attributeSex{male,female}@attributeAgenumeric@attributeSibSpnumeric@attributeParchnumeric@attributeTicket{'A/521171','PC17599’,...}@attributeFare{7.925,53.1,8.05,84.583,518.625,...}@attributeEmbarked{S,C,Q}
45
ExemplodeferramentadeMineração
@data
892,?,3,male,34.5,0,0,330911.0,78.292,Q893,?,3,female,47,1,0,363272.0,7.0,S894,?,2,male,62,0,0,240276.0,96.875,Q895,?,3,male,27,0,0,315154.0,86.625,S896,?,3,female,22,1,1,3101298.0,122.875,S897,?,3,male,14,0,0,7538.0,9.225,S898,?,3,female,30,0,0,330972.0,76.292,Q899,?,2,male,26,1,1,248738.0,29.0,S900,?,3,female,18,0,0,2657.0,72.292,C
...
46
ExemplodeferramentadeMineração
47
ExemplodeferramentadeMineração
Resultado
892,0,3,male,34.5,0,0,330911.0,78.292,Q893,1,3,female,47,1,0,363272.0,7.0,S894,1,2,male,62,0,0,240276.0,96.875,Q895,0,3,male,27,0,0,315154.0,86.625,S896,0,3,female,22,1,1,3101298.0,122.875,S897,0,3,male,14,0,0,7538.0,9.225,S898,0,3,female,30,0,0,330972.0,76.292,Q899,0,2,male,26,1,1,248738.0,29.0,S900,1,3,female,18,0,0,2657.0,72.292,C
...
48
ExemplodeferramentadeMineração
Referências• FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From
dataminingtoknowledgediscoveryindatabases.AImagazine,v.17,n.3,p.37,1996.
• HAN,J;KAMBER,M.DataMining:ConceptsandTechniques.Elsevier,2006.
• BERRY, Michael J. A.; LINOFF, Gordon. Data Mining Techniques: ForMarketing, Sales, and Customer Support. New York: Wiley ComputerPublishing,1997.
• GROTH, R. DataMining: a hands-on approach for business professionals.PrenticeHall,NewJersey,1998.
• CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados:Conceitos,tarefas,métodoseferramentas.Goiânia:UniversidadeFederaldeGoiás,2009.
• HARRISON,T.H.INTRANETDATAWAREHOUSE.Berkley,1998
49
Referências• GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge
discoverysoftwaretools.In:SIGKDDExplorations,1999.
• LAROSE, D. T. Discovering Knowledge in Data: An IntroducKon to DataMining.JohnWileyandSons.Inc.,2005.
50