Machine intelligente d’analyse financiere

MACHINE INTELLIGENTE D’ANALYSE FINANCIÈRE

Réalisé par: Sabrine MASTOURA

Encadrant ENICarthage: Mr. Walid BARHOUMIEncadrante CIMF : Mme. Wahiba BEN FREDJ

2015-2016

Projet de Fin d’ ÉtudesSoutenu le 29/06/2016

PLAN

Cadre général du projet Apprentissage automatique Compréhension du marché Compréhension des données Préparation des données Modélisation Évaluation Conclusion et perspectives

CADRE GÉNÉRAL DU PROJET

1

Fraudeur

Mesures anti-fraude

Contrôle

Etat tunisien

Recettes fiscales


2

DECISIONEL

SINDA

TGT

SADEC

RAFIC

PGT

ADEB

Apprentissage

automatique


3

« Connect »Une détection des

incohérences dans les

déclarationsfiscales

Une luttecontre

l’escroquerie à la TVA

« Redditometro »Une comparaison

sommairedes revenues

déclarés et l’estimation

des dépenses


4

CRISP-Dm 1.0: Cross-Industry Standard Process

APPRENTISSAGE AUTOMATIQUE

5

Programmationtraditionnelle

Données

Résultats

Algorithmes

Apprentissageautomatique

Résultats

Données

Algorithmes


6

Apprentissage

automatique

Apprentissage

non supervisé Régression

Classification

Apprentissage

supervisé

Valeurdu

redressement

Détection de la fraude


7

P(X,Y)

(X,Y)

X Y'

MinimiserY-Y'

Y

Fonction

de coût

Apprentissage

automatique

( )h X( )h X

0 1 1( ) ... n nh X x x

Pour un modèle linéaire, la fonction hypothèse est:

2( )

0 11

( )1( , ,.., ) ( ( ) )2

im

inJ y

mh x

Ces paramètres inconnues minimisent la fonction de coût: i

( ) ( ) ( )

1

1: ( )( ) i ij j j

im

répéter y xm

h x

Le choix des paramètres se fait par l’algorithme de descente de gradient:i


8

Sélection du modèle :

Régression :

Jeu de données = base d’apprentissage (70%) + base de test (30%)

• Choisir le modèle qui minimise la fonction de coût de test

sous-apprentissage

bon modèle

sur-apprentissage

• Détecter des anomalies d’apprentissage

• Choisir les paramètres minimisant la fonction de coût d’apprentissage i

VraiPositive

(VP)

FauxNégative

(FN)Faux

Positive(FP)

VraiNégative

(VN)

Classe prédite Positive Négative

Clas

se ré

elle

Néga

tive

Po

sitiv

e

Précision=VP / (VP+FP)

Classification :

Rappel= VP/(VP+FN)

COMPRÉHENSION DU MARCHÉ

9

PétroleAvocats

Médecins

Architectes

Généraliste

Pédiatre8

Secteurs

694Activités

156Sous

secteurs

PersonnesPhysiques

PersonnesMorales

80% de la

massesalariale


10

DGI

Centre de

contrôleBureau

de contrôle Bureau

de contrôle

DGEVérificationsapprofondies

Vérificationssommaires

Redressementsapprofondis

Redressementssimples


11

COMPRÉHENSION DES DONNÉES

12

DécisionnelAnalyse des risques

decsoc

132 Mo

dectva

73,2 Mo

agrpay 547 Mo

sitfis

17 Go

cnss

506 Mo

entreprise

1 Go

resvap

186 Mo agranx

1,66 Go

actagr

338 Moagrtva

567 Mo

asinda

251 Mo

nomimp

4Ko

decird

164 Mo

decirp

163 Mo


13

Contrôle des donnéesTypes des donnéesErreurs de saisieVolumes des fichiers

Sitfis 17 Go 0.61 Go


14

Somme des tva chiffre d’affaire par année Somme des redressements par année

Nombre des enregistrements par année

Pairplot de l’échantillon 2011

PRÉPARATION DES DONNÉES

15

Critères dedétection

de la fraude

decsoc

decirp

Jointuregauche

CritèresPhysiqu

e+

Données Physiqu

e

Jointuregauche

Critèresmorales

+Données morales

.pkl Personnes physiques

172 005 enregistrements355 variables

.pkl Personnes morales

2 394 enregistrements358 variables


16

Nettoyage des données :

Normalisation des données :

iixx

Écart-type

Moyenne de X

Examiner manuellement les données.

Eliminer les valeurs manquantes : • Champs équivalents

• Valeurs significatives• 0


17

Augmentation du nombre des enregistrements

Unicité: Identifiant & Année N: Non redevable R: En règle D: En défaut

012


18

Binarisation

MODÉLISATION

19

Régression linéaires :

0 1 1( ) ... n nh X x x

Coefficientsestimateurs

X1 ...Xn

Yi

Modèle élémentaire de la modélisation linéaire

Estimation de la relation entre Y et

La recherche d’un modèle de prévision de Y en fonction de X. 1( ,..., )nX X

MODÉLISATION

20

Régression ridge :

Eviter le sur-apprentissage.

Simplifier la fonction hypothèse.

Ajouter un terme de régularisation

( ) 2 21

1 1

1( ,..., ) ( ( ) ) ( )2

m mi i

n ji j

J h x ym

terme de régularisation

Paramètre derégularisation

MODÉLISATION

21

Réseau de neurones (NN) :

nx

11

.

.

.

.

.

.2x

1x( )h x

couche entrée couche cachée couche de sortie

nx

11

Perceptron multicouche (MLP) :En propagation

jia

( )j( 1)j

1 1

( )j ji i

j j ji i

a g z

z a

i-1

i

i+1 j-1 j

j+1 En rétro propagation( ) ( ) ( 1) ' ( )( ) .* ( )

j ji i i

j j T j j

a y

g z

ji

( )j

MODÉLISATION

22

Machine à vecteurs de support (SVM) :

Vecteurs de supportHyperplan optimal

Marge maximale

Appliquer un noyau

Recherche de la marge de séparation maximale.

augmenter la dimension de l’espace de représentation des données d’entrées.

MODÉLISATION

23

Forêts d'arbres décisionnels :

arbre 1 arbre 2 arbre n

k 1 k 2 k n

vote

k

ÉVALUATION

24

La modélisation linéaire :

« LinearRegression » «Ridge »

Objectif :

• Estimation de la valeur du redressement approfondie

• Estimation de la valeur du redressement simple

Mini Small Medium Large Xlarge[0 , 100K[ [100K ,

1M[[1M , 10M[ [10M ,

25M[[25M , Inf.[

• Découpage des contribuables selon les chiffres d’affaires

ÉVALUATION

25

Régression linéaire :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondiepour la catégorie MEDIUM

ÉVALUATION

26

Régression ridge :

Estimation du redressement simplepour la catégorie Xlarge

Estimation du redressement approfondie

pour la catégorie Medium

ÉVALUATION

27

La modélisation non linéaire :

Objectif:

• Classifier l’intervalle de la fraude

• Variable cible = redressement simple + redressement approfondi

[0 , 1 000[ [1 000,3 500[ [3 500,10 000[

[10 000,30 000[

[30 000,60 000[

[60 000,Infinie[

• Découper les contribuables selon la catégorie

«Multi Layer Perceptron » «Support Vector Classifier » « ExtraTreeClassifier »

ÉVALUATION

28

Réseau de neurones :

Le rapport de classification

Les paramètres

ÉVALUATION

29

Réseau de neurones :

Les paramètres


ÉVALUATION

30

Machine à vecteurs de support : Les paramètres


ÉVALUATION

31

Machine à vecteurs de support :

Les paramètres


ÉVALUATION

32

Forêts d'arbres décisionnels : Les paramètres


ÉVALUATION

33

Forêts d'arbres décisionnels :


Les paramètres

CONCLUSION ET PERSPECTIVES

34

Réseau de neurones

• 41%• 30%

Machine à vecteurs de

support

• 42%• 31%

Forêts d’arbres décisionnels

• 46%• 42%

Personnephysique Personne

morale

MERCI POUR VOTRE ATTENTION

35

Machine intelligente d’analyse financiere

Engineering

Transcript of Machine intelligente d’analyse financiere