Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น text-mining, web-mining, image-mining
1 Data Mining
-
Upload
salgado-angie -
Category
Documents
-
view
216 -
download
0
Transcript of 1 Data Mining
-
7/22/2019 1 Data Mining
1/14
Introduccin al DataIntroduccin al Data MiningMining Fernando Berzal, Fernando Berzal, [email protected]@acm.org
Introduccin al DataIntroduccin al Data MiningMining
Qu es la minera de datos?Qu es la minera de datos?
AplicacionesAplicaciones
KDD (KDD (KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases)) El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento
Carcter multidisci linarCarcter multidisci linar
Tcnicas de minera de datosTcnicas de minera de datos Modelos descriptivos y modelos predictivosModelos descriptivos y modelos predictivos
Clasificacin de las tcnicas de minera de datosClasificacin de las tcnicas de minera de datos
Fuentes de datosFuentes de datos
Evaluacin de resultadosEvaluacin de resultados Sistemas de minera de datosSistemas de minera de datos
11
-
7/22/2019 1 Data Mining
2/14
Qu es la minera de datos?Qu es la minera de datos?
Extraccin de patrones (conocimiento)Extraccin de patrones (conocimiento)enen grandesgrandes bases de datos.bases de datos.
22
Qu es la minera de datos?Qu es la minera de datos?
Extraccin deExtraccin de conocimientoconocimientoen grandes bases de datos.en grandes bases de datos.
RequisitosRequisitos
No trivialNo trivial
ImplcitoImplcito
PreviamentePreviamente desconocidodesconocido
PotencialmentePotencialmente tiltil
33
-
7/22/2019 1 Data Mining
3/14
Qu es la minera de datos?Qu es la minera de datos?
DefinicionesDefiniciones
NonNon--trivial extraction of implicit, previously unknowntrivial extraction of implicit, previously unknownand potentially useful information from data.and potentially useful information from data.
FrawleFrawle PiatetskPiatetsk --Sha iro &Sha iro & MatheusMatheus::Knowledge Discovery in Databases: An Overview.Knowledge Discovery in Databases: An Overview.MIT Press, 1991.MIT Press, 1991.
Exploration and analysis, by automatic orExploration and analysis, by automatic or
semisemi--automatic means, of large quantities of data inautomatic means, of large quantities of data inorder to discover meaningful patterns.order to discover meaningful patterns.Berry &Berry & LinoffLinoff::Data Mining Techniques.Data Mining Techniques.Wiley, 1997Wiley, 1997
44
Qu es la minera de datos?Qu es la minera de datos?
How can I analyze this data?
55
Data rich,Information poor
Knowledge
Conocimiento(patrones interesantes)
-
7/22/2019 1 Data Mining
4/14
AplicacionesAplicaciones
MarketMarket basketbasket analysisanalysis (compras)(compras)
Perfiles de usuario en la WebPerfiles de usuario en la Web Segmentacin de clientesSegmentacin de clientes
Deteccin de fraudes / intrusosDeteccin de fraudes / intrusos
66
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
Extraccin de conocimiento en bases de datosExtraccin de conocimiento en bases de datos77
-
7/22/2019 1 Data Mining
5/14
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento
Limpieza de datosLimpieza de datos(eliminacin de ruido e inconsistencias)(eliminacin de ruido e inconsistencias)
Integracin de datosIntegracin de datos(combinacin de mltiples fuentes de datos)(combinacin de mltiples fuentes de datos)
Reduccin/Seleccin de datosReduccin/Seleccin de datos(identificacin de datos relevantes para el problema)(identificacin de datos relevantes para el problema)
Transformacin de datosTransformacin de datos(preparacin de los datos para su anlisis)(preparacin de los datos para su anlisis)
Minera de datosMinera de datos(tcnicas de extraccin de patrones y medidas de inters)(tcnicas de extraccin de patrones y medidas de inters)
Presentacin de resultadosPresentacin de resultados(tcnicas de visualizacin y de representacin del conocimiento)(tcnicas de visualizacin y de representacin del conocimiento)
88
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:
99
-
7/22/2019 1 Data Mining
6/14
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
Carcter multidisciplinarCarcter multidisciplinar
Bases de datos Estadstica
Evaluacin de resultadosEvaluacin de resultados
Resumen de datosResumen de datosGestin de grandes cantidades de datosGestin de grandes cantidades de datos
1010
Data Mining
IA Visualizacin
AprendizajeAprendizajeRepresentacin del conocimientoRepresentacin del conocimiento
Presentacin de resultadosPresentacin de resultados
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
I keep saying the sexy job in the next ten years will beI keep saying the sexy job in the next ten years will bestatisticians. People think Im joking, but who wouldvestatisticians. People think Im joking, but who wouldve
guessed that computer engineers wouldve been the sexyguessed that computer engineers wouldve been the sexy
job of the 1990s? The ability to take datajob of the 1990s? The ability to take datato be able toto be able tounderstand it, to process it, to extract value from it, tounderstand it, to process it, to extract value from it, to
v sua ze , o commun ca ev sua ze , o commun ca e a s go ng o e a uge ya s go ng o e a uge yimportant skill in the next decadesimportant skill in the next decades
Because now we really do have essentially free andBecause now we really do have essentially free andubiquitous data. So the complimentary scarce factor is theubiquitous data. So the complimentary scarce factor is theability to understand that data and extract value from it.ability to understand that data and extract value from it.
Hal R. VarianHal R. VarianGoogles Chief EconomistGoogles Chief Economist
Professor of Information Sciences, Business, and EconomicsProfessor of Information Sciences, Business, and Economicsat the University of California at Berkeleyat the University of California at Berkeley
1111
-
7/22/2019 1 Data Mining
7/14
KDDKDD ((KnowledgeKnowledge DiscoveryDiscovery inin DatabasesDatabases))
Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:
1212
Tcnicas de minera de datosTcnicas de minera de datos
Modelos de minera de datosModelos de minera de datos
1313
-
7/22/2019 1 Data Mining
8/14
Tcnicas de minera de datosTcnicas de minera de datos
Clasificacin de los modelos de minera de datosClasificacin de los modelos de minera de datos
En funcin de su propsito general:En funcin de su propsito general:
(describen el comportamiento de los datos de forma(describen el comportamiento de los datos de formaque sea interpretable por un usuario experto).que sea interpretable por un usuario experto).
Modelos predictivosModelos predictivos(adems de describir los datos, se utilizan para(adems de describir los datos, se utilizan parapredecir el valor de algn atributo desconocido).predecir el valor de algn atributo desconocido).
1414
Tcnicas de minera de datosTcnicas de minera de datos
EjemplosEjemplos
Reglas de asociacin (modelo descriptivo)Reglas de asociacin (modelo descriptivo)Los compradores de paales tambin suelen comprar cerveza.Los compradores de paales tambin suelen comprar cerveza.
us er ngus er ng mo e o escr p vomo e o escr p vo
Segmentacin de los clientes de un hipermercado:Segmentacin de los clientes de un hipermercado:
-- Clientes ocasionales que gastan mucho.Clientes ocasionales que gastan mucho.
-- Clientes habituales con presupuesto limitado.Clientes habituales con presupuesto limitado.
-- Clientes ocasionales con presupuesto limitado.Clientes ocasionales con presupuesto limitado.
Clasificacin (modelo predictivo):Clasificacin (modelo predictivo):-- Datagramas que corresponden a intentos de intrusin.Datagramas que corresponden a intentos de intrusin.
-- Perfil de un cliente de alto riesgo para prstamos bancarios.Perfil de un cliente de alto riesgo para prstamos bancarios. 1515
-
7/22/2019 1 Data Mining
9/14
Tcnicas de minera de datosTcnicas de minera de datos
Algunas tcnicas de minera de datosAlgunas tcnicas de minera de datos
Caracterizacin o resumenCaracterizacin o resumen
Discriminacin o contrasteDiscriminacin o contraste
,,
Clasificacin y prediccinClasificacin y prediccin
Deteccin de agrupamientos (Deteccin de agrupamientos (clusteringclustering))
Deteccin de anomalas (Deteccin de anomalas (outliersoutliers))
Anlisis de tendencias (series temporales)Anlisis de tendencias (series temporales)
1616
Tcnicas de minera de datosTcnicas de minera de datos
Las tcnicas de minera de datosLas tcnicas de minera de datos
tambin se pueden clasificar atendiendo atambin se pueden clasificar atendiendo a
el tipo de conocimiento que se obtieneel tipo de conocimiento que se obtiene
el tipo de herramienta que se utilizael tipo de herramienta que se utiliza
el dominio de aplicacinel dominio de aplicacin1717
-
7/22/2019 1 Data Mining
10/14
Fuentes de datosFuentes de datos
Fuentes de datosFuentes de datos
1818
Fuentes de datosFuentes de datos
Fuentes de datosFuentes de datos
Bases de datos relacionalesBases de datos relacionales
Bases de datos multidimensionales (DW)Bases de datos multidimensionales (DW)
Series temporales, secuencias y dataSeries temporales, secuencias y data streamsstreams
Datos estructurados (grafos, redes sociales)Datos estructurados (grafos, redes sociales)
Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales
Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web)
Bases de datos multimedia (p.ej. Imgenes)Bases de datos multimedia (p.ej. Imgenes)
1919
-
7/22/2019 1 Data Mining
11/14
Evaluacin de resultadosEvaluacin de resultados
Evaluacin de resultadosEvaluacin de resultados
2020
Evaluacin de resultadosEvaluacin de resultados
Un resultado es interesante siUn resultado es interesante si
es comprensible (por seres humanos)es comprensible (por seres humanos)
es vlido con cierto grado de certezaes vlido con cierto grado de certeza
es novedoso o sirve para validar una hiptesises novedoso o sirve para validar una hiptesis
El inters de los resultados se puede evaluarEl inters de los resultados se puede evaluar
objetivamente (criterios estadsticos)objetivamente (criterios estadsticos)
subjetivamente (perspectiva del usuario)subjetivamente (perspectiva del usuario)
2121
-
7/22/2019 1 Data Mining
12/14
Sistemas de minera de datosSistemas de minera de datos
ArquitecturaArquitecturatpicatpica
Evaluacin de patrones
Interfaz de usuario
2222
Base de datos odata warehouse
Motor de minera de datos
DB DW WWW
Base deBase deconocimientoconocimiento
Limpieza, integracin, seleccin y transformacin de datos
Sistemas de minera de datosSistemas de minera de datos
Descripcin de una tarea de minera de datos:Descripcin de una tarea de minera de datos:
Datos relevantesDatos relevantes(lo que hay que analizar)(lo que hay que analizar)
(lo que se desea obtener)(lo que se desea obtener)
Conocimiento previoConocimiento previo((backgroundbackground knowledgeknowledge, para guiar el proceso), para guiar el proceso)
Medidas de intersMedidas de inters
(para evaluar los resultados obtenidos)(para evaluar los resultados obtenidos) Tcnicas de representacinTcnicas de representacin
(para representar los resultados obtenidos)(para representar los resultados obtenidos)2323
-
7/22/2019 1 Data Mining
13/14
Sistemas de minera de datosSistemas de minera de datos
Software de minera de datosSoftware de minera de datos
KNIMEKNIMEhttp://www.knime.org/http://www.knime.org/
RapidMinerRapidMinerhtt : ra idminer.comhtt : ra idminer.com
WekaWekahttp://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/
RR
http://www.rhttp://www.r--project.org/project.org/ SPSSSPSS ModelerModeler
http://www.spss.com/software/modeler/http://www.spss.com/software/modeler/
SAS EnterpriseSAS Enterprise MinerMinerhttp://www.sas.com/http://www.sas.com/ 2424
Temas de investigacinTemas de investigacin
Tcnicas eficientes de minera de datosTcnicas eficientes de minera de datos EscalabilidadEscalabilidad
Tcnicas incrementalesTcnicas incrementales
Algoritmos paralelosAlgoritmos paralelos
Incorporacin de conocimiento previoIncorporacin de conocimiento previo
Evaluacin de resultados (inters)Evaluacin de resultados (inters)
Interaccin con el usuarioInteraccin con el usuario Tcnicas interactivas (a distintos niveles de abstraccin)Tcnicas interactivas (a distintos niveles de abstraccin)
Tcnicas de presentacin y visualizacin de resultadosTcnicas de presentacin y visualizacin de resultados
Anlisis de nuevos tipos de datosAnlisis de nuevos tipos de datos Estructuras complejas (grafos, redes sociales)Estructuras complejas (grafos, redes sociales)
Bases de datos heterogneasBases de datos heterogneas
2525
-
7/22/2019 1 Data Mining
14/14
PangPang--NingNing Tan,Tan,MichaelMichael SteinbachSteinbach&& VipinVipin KumarKumar::IntroductionIntroduction toto DataData MiningMining
BibliografaBibliografa
AddisonAddison--WesleyWesley, 2006., 2006.ISBN 0321321367ISBN 0321321367
JiaweiJiawei HanHan
&& MichelineMicheline KamberKamber::DataData MiningMining::ConceptsConcepts andand TechniquesTechniquesMorganMorgan KaufmannKaufmann, 2006., 2006.ISBN 1558609016ISBN 1558609016 2626
RevistasRevistas ACMACM TransactionsTransactions onon KnowledgeKnowledge DiscoveryDiscovery fromfrom Data (TKDD)Data (TKDD)
IEEEIEEE TransactionsTransactions onon KnowledgeKnowledge and Dataand Data EngineeringEngineering (TKDE)(TKDE)
DataData MiningMining andand KnowledgeKnowledge DiscoveryDiscovery (DMKD)(DMKD) ACMACM SIGKDDSIGKDD ExplorationsExplorations
Bibliografa (investigacin)Bibliografa (investigacin)
DataData && KnowledgeKnowledge EngineeringEngineering (DKE(DKE))
KnowledgeKnowledge andand InformationInformation SystemsSystems (KAIS)(KAIS)
CongresosCongresos KDDKDD (ACM SIGKDD International(ACM SIGKDD International ConferenceConference onon KDD)KDD)
ICDMICDM (IEEE International(IEEE International ConferenceConference onon DataData MiningMining))
SDMSDM (SIAM Data(SIAM Data MiningMining ConferenceConference)) PKDDPKDD ((PrinciplesPrinciples andand PracticesPractices of KDD)of KDD)
SIGMODSIGMOD (Management of Data)(Management of Data)
CIKMCIKM ((InformationInformation andand KnowledgeKnowledge ManagementManagement))2727