Linda Terlouw ([email protected])
Tutorial Data Science
Data Science is een vakgebied dat zich richt op het verzamelen, organiseren en analyseren van (grote) data sets om patronen te ontdekken.
Hadden we niet al BI?
Data Science is niet nieuw. De populariteit ervan neemt wel toe door ontwikkelingen die de opslag en verwerking van grote datasets gemak-kelijker maken (Big Data). Hieronder vallen bijv. NoSQL data stores en in-memory databases.
De data scientist bestaat niet. Mensen werkzaam in data science hebben verschillende achtergronden.
Data Analytics combineert technieken uit o.a. de volgende vakgebieden: Statistiek, Opera-
tional research en Software engineering.
Google introduceerde PageRank; een algoritme dat keek naar “het belang” van webpagina’s.
Search engines als AltaVista gebruikten traditionele information retrieval-technieken.
Kaggle heeft een wedstrijd uitgezet om met behulp van data science meer “te zien” dan artsen voor het voor-
komen en genezen van oogafwijkingen bij diabetici.
Met behulp van data science kun je weten dat de klant ver-trekt voordat hij het zelf weet.
privacy?
Tom M. Mitchell: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E”.
Machine Learning?
Overfitting versus
underfitting
Enkele aanpakken in data science zijn:- classificatie- regressie- clustering- similarity matching- association rule discovery- graafanalyse
Dit is geen complete lijst!
Classificatie voorspelt een niet-numerieke waarde
Voorbeeldhet onderscheiden van normale en frauduleuze transacties voor het automatisch blokkeren van
credit cards
Regressievoorspelt een numerieke waarde
Voorbeeldhet voorspellen van het aantal flesjes bier dat verkocht wordt
aan de hand van prijs en het weer
Clusteringontdekt groepen van gelijksoortige dingen
Voorbeeldhet segmenteren van klant-groepen met verschillende
behoeftes
SIMILARITY MATCHINGvoorspelt gelijksoortige producten
Voorbeeldhet voorspellen van een Net-flix-serie op basis van eerder
kijkgedrag
Association rule discoverybepaalt gelijkheid van dingen op basis van transacties
Voorbeeldhet bieden van gepersonaliseerde aan-
biedingen op basis van producten die al in de kar liggen
Graafanalyseanalyseert netwerken van mensen of dingen
Voorbeeldhet vinden van fraudenetwerken
in de zorgsector
In Nederland is het nieuwe vakgebied Process Mining ontwikkeld.
Dit is Data Science toegepast op bedrijfsprocessen.
Business Understanding
Data Understanding
Data Preparation
Modeling
Evaluation
Deployment
Het data science-proces is geen rechte lijn van A naar B.
Demo
Process mining as a Service: www.processminingfactory.com
icrismeasure facts, treasure knowledge
Top Related