Machine intelligente d’analyse financiere
-
Upload
sabrine-mastoura -
Category
Engineering
-
view
102 -
download
3
Transcript of Machine intelligente d’analyse financiere
MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE
Réalisé par: Sabrine MASTOURA
Encadrant ENICarthage: Mr. Walid BARHOUMIEncadrante CIMF : Mme. Wahiba BEN FREDJ
2015-2016
Projet de Fin d’ ÉtudesSoutenu le 29/06/2016
PLAN
Cadre général du projet Apprentissage automatique Compréhension du marché Compréhension des données Préparation des données Modélisation Évaluation Conclusion et perspectives
CADRE GÉNÉRAL DU PROJET
1
Fraudeur
Mesures anti-fraude
Contrôle
Etat tunisien
Recettes fiscales
CADRE GÉNÉRAL DU PROJET
2
DECISIONEL
SINDA
TGT
SADEC
RAFIC
PGT
ADEB
Apprentissage
automatique
CADRE GÉNÉRAL DU PROJET
3
« Connect »Une détection des
incohérences dans les
déclarationsfiscales
Une luttecontre
l’escroquerie à la TVA
« Redditometro »Une comparaison
sommairedes revenues
déclarés et l’estimation
des dépenses
CADRE GÉNÉRAL DU PROJET
4
CRISP-Dm 1.0: Cross-Industry Standard Process
APPRENTISSAGE AUTOMATIQUE
5
Programmationtraditionnelle
Données
Résultats
Algorithmes
Apprentissageautomatique
Résultats
Données
Algorithmes
APPRENTISSAGE AUTOMATIQUE
6
Apprentissage
automatique
Apprentissage
non supervisé Régression
Classification
Apprentissage
supervisé
Valeurdu
redressement
Détection de la fraude
APPRENTISSAGE AUTOMATIQUE
7
P(X,Y)
(X,Y)
X Y'
MinimiserY-Y'
Y
Fonction
de coût
Apprentissage
automatique
( )h X( )h X
0 1 1( ) ... n nh X x x
Pour un modèle linéaire, la fonction hypothèse est:
2( )
0 11
( )1( , ,.., ) ( ( ) )2
im
inJ y
mh x
Ces paramètres inconnues minimisent la fonction de coût: i
( ) ( ) ( )
1
1: ( )( ) i ij j j
im
répéter y xm
h x
Le choix des paramètres se fait par l’algorithme de descente de gradient:i
APPRENTISSAGE AUTOMATIQUE
8
Sélection du modèle :
Régression :
Jeu de données = base d’apprentissage (70%) + base de test (30%)
• Choisir le modèle qui minimise la fonction de coût de test
sous-apprentissage
bon modèle
sur-apprentissage
• Détecter des anomalies d’apprentissage
• Choisir les paramètres minimisant la fonction de coût d’apprentissage i
VraiPositive
(VP)
FauxNégative
(FN)Faux
Positive(FP)
VraiNégative
(VN)
Classe prédite Positive Négative
Clas
se ré
elle
Néga
tive
Po
sitiv
e
Précision=VP / (VP+FP)
Classification :
Rappel= VP/(VP+FN)
COMPRÉHENSION DU MARCHÉ
9
PétroleAvocats
Médecins
Architectes
Généraliste
Pédiatre8
Secteurs
694Activités
156Sous
secteurs
PersonnesPhysiques
PersonnesMorales
80% de la
massesalariale
COMPRÉHENSION DU MARCHÉ
10
DGI
Centre de
contrôleBureau
de contrôle Bureau
de contrôle
DGEVérificationsapprofondies
Vérificationssommaires
Redressementsapprofondis
Redressementssimples
COMPRÉHENSION DU MARCHÉ
11
COMPRÉHENSION DES DONNÉES
12
DécisionnelAnalyse des risques
decsoc
132 Mo
dectva
73,2 Mo
agrpay 547 Mo
sitfis
17 Go
cnss
506 Mo
entreprise
1 Go
resvap
186 Mo agranx
1,66 Go
actagr
338 Moagrtva
567 Mo
asinda
251 Mo
nomimp
4Ko
decird
164 Mo
decirp
163 Mo
COMPRÉHENSION DES DONNÉES
13
Contrôle des donnéesTypes des donnéesErreurs de saisieVolumes des fichiers
Sitfis 17 Go 0.61 Go
COMPRÉHENSION DES DONNÉES
14
Somme des tva chiffre d’affaire par année Somme des redressements par année
Nombre des enregistrements par année
Pairplot de l’échantillon 2011
PRÉPARATION DES DONNÉES
15
Critères dedétection
de la fraude
decsoc
decirp
Jointuregauche
CritèresPhysiqu
e+
Données Physiqu
e
Jointuregauche
Critèresmorales
+Données morales
.pkl Personnes physiques
172 005 enregistrements355 variables
.pkl Personnes morales
2 394 enregistrements358 variables
PRÉPARATION DES DONNÉES
16
Nettoyage des données :
Normalisation des données :
iixx
Écart-type
Moyenne de X
Examiner manuellement les données.
Eliminer les valeurs manquantes : • Champs équivalents
• Valeurs significatives• 0
PRÉPARATION DES DONNÉES
17
Augmentation du nombre des enregistrements
Unicité: Identifiant & Année N: Non redevable R: En règle D: En défaut
012
PRÉPARATION DES DONNÉES
18
Binarisation
MODÉLISATION
19
Régression linéaires :
0 1 1( ) ... n nh X x x
Coefficientsestimateurs
X1 ...Xn
Yi
Modèle élémentaire de la modélisation linéaire
Estimation de la relation entre Y et
La recherche d’un modèle de prévision de Y en fonction de X. 1( ,..., )nX X
MODÉLISATION
20
Régression ridge :
Eviter le sur-apprentissage.
Simplifier la fonction hypothèse.
Ajouter un terme de régularisation
( ) 2 21
1 1
1( ,..., ) ( ( ) ) ( )2
m mi i
n ji j
J h x ym
terme de régularisation
Paramètre derégularisation
MODÉLISATION
21
Réseau de neurones (NN) :
nx
11
.
.
.
.
.
.2x
1x( )h x
couche entrée couche cachée couche de sortie
nx
11
Perceptron multicouche (MLP) :En propagation
jia
( )j( 1)j
1 1
( )j ji i
j j ji i
a g z
z a
i-1
i
i+1 j-1 j
j+1 En rétro propagation( ) ( ) ( 1) ' ( )( ) .* ( )
j ji i i
j j T j j
a y
g z
ji
( )j
MODÉLISATION
22
Machine à vecteurs de support (SVM) :
Vecteurs de supportHyperplan optimal
Marge maximale
Appliquer un noyau
Recherche de la marge de séparation maximale.
augmenter la dimension de l’espace de représentation des données d’entrées.
MODÉLISATION
23
Forêts d'arbres décisionnels :
arbre 1 arbre 2 arbre n
k 1 k 2 k n
vote
k
ÉVALUATION
24
La modélisation linéaire :
« LinearRegression » «Ridge »
Objectif :
• Estimation de la valeur du redressement approfondie
• Estimation de la valeur du redressement simple
Mini Small Medium Large Xlarge[0 , 100K[ [100K ,
1M[[1M , 10M[ [10M ,
25M[[25M , Inf.[
• Découpage des contribuables selon les chiffres d’affaires
ÉVALUATION
25
Régression linéaire :
Estimation du redressement simplepour la catégorie Xlarge
Estimation du redressement approfondiepour la catégorie MEDIUM
ÉVALUATION
26
Régression ridge :
Estimation du redressement simplepour la catégorie Xlarge
Estimation du redressement approfondie
pour la catégorie Medium
ÉVALUATION
27
La modélisation non linéaire :
Objectif:
• Classifier l’intervalle de la fraude
• Variable cible = redressement simple + redressement approfondi
[0 , 1 000[ [1 000,3 500[ [3 500,10 000[
[10 000,30 000[
[30 000,60 000[
[60 000,Infinie[
• Découper les contribuables selon la catégorie
«Multi Layer Perceptron » «Support Vector Classifier » « ExtraTreeClassifier »
ÉVALUATION
28
Réseau de neurones :
Le rapport de classification
Les paramètres
ÉVALUATION
29
Réseau de neurones :
Les paramètres
Le rapport de classification
ÉVALUATION
30
Machine à vecteurs de support : Les paramètres
Le rapport de classification
ÉVALUATION
31
Machine à vecteurs de support :
Les paramètres
Le rapport de classification
ÉVALUATION
32
Forêts d'arbres décisionnels : Les paramètres
Le rapport de classification
ÉVALUATION
33
Forêts d'arbres décisionnels :
Le rapport de classification
Les paramètres
CONCLUSION ET PERSPECTIVES
34
Réseau de neurones
• 41%• 30%
Machine à vecteurs de
support
• 42%• 31%
Forêts d’arbres décisionnels
• 46%• 42%
Personnephysique Personne
morale
MERCI POUR VOTRE ATTENTION
35