Laboratoire 4 Développement d’un système intelligent
description
Transcript of Laboratoire 4 Développement d’un système intelligent
Laboratoire 4 Développement d’un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI GTI770 - SYSTÈMES INTELLIGENTS ET APPRENTISSAGE MACHINE
ÉTÉ 2014
Enseignant :
Patrice Boucher
Chargés de laboratoire :
Faten M’hiri
Objectif
Développement d’un système intelligent pour:
• Reconnaissance faciale
OU• Filtrage de pourriels
Projet 1 : La reconnaissance faciale
• Objectif: Reconnaitre une personne parmi K individus à partir de sa photo.
• Problème de classification à K classes
Source : http://www.doc.ic.ac.uk/~sl203/?id=9
Projet 1 : La reconnaissance faciale
• Algorithmes suggérés:• Eigenfaces,• Fisherfaces,• Les machines à vecteurs de support (SVM),• Les réseaux de neurones.
Eigenfaces
Source: http://vision.stanford.edu/teaching/cs231a/lecture/lecture2_face_recognition_cs231a.pdf
Images d’apprentissage Eigenfaces
Support Vector MachineSVM
Source : http://www.cs.columbia.edu/~kathy/cs4701/documents/jason_svm_tutorial.pdf
Réseaux de neuronesNN
Source: Artificial Neural Network-Based Face Recognition, Boukelif & Adjoudj, 2004
Projet 1 : La reconnaissance faciale
• Données:• Faces-dataset.zip :
• Dossier train:• 40 dossier (donc nombre de classes = 40):
• 1 dossier pour chaque individu : 9 images
• Dossier test:• 40 images de chaque individu
• Format des images : PNG
Projet 2 : Le filtrage de pourriels
• Objectif: Identifier les courriels non sollicités (spam) à partir d’un ensemble de courriel.
• Problème de classification binaire: spam et non-spam.
Source: http://ploum.net/post/89-the-ploum-s-ultimate-anti-spam-solution
Projet 2 : Le filtrage de pourriels
• Algorithmes suggérés:• Classifieur naïf de Bayes,• Latent semantic indexing (LSI),• Les arbres de décisions,• Les machines à vecteurs de support (SVM),• Les réseaux de neurones.
Latent Semantic Indexing
• Faites une recherche google pour : ~tutorial
Google a désactivée cette option depuis un an (http://searchenginewatch.com/article/2277383/Google-Kills-Tilde-Search-Operator)
Arbre de décision
Source : http://aqualonne.free.fr/Teaching/csc/DM.pdf
Projet 2 : Le filtrage de pourriels
• Données: Prétraitées avec seulement les mots les plus pertinents dans les documents.• Spam-dataset.zip:
• Train.txt : • 1 ligne représente 1 document:
0,0,0,0,0.32,0.32,0,0,0,0,0,0.32,0,0,0,0,0,0,1.3,0,0.98,0,0,0,0,0,0,0,0.32,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0.65,0,0,0,0,0,0.257,0,0,0,0,1.3,7,104,0
• Test.txt: même format que train
Voir les fichier README.txt et name.txt pour plus de détails
La fréquence calculée freq(w) des 48 mots significatifs
La fréquence calculée freq(c) des 6 caractères significatifs
La longueur moyenne des séquences ininterrompues de lettres majuscules La longueur de la plus longue séquence
ininterrompue de lettres majusculesLe nombre total de lettres majuscules
1 valeur binaire indiquant si le courriel est un pourriel (1) ou non (0)
Travail à réaliser
1. Conception de la méthode: comprenant• Une courte revue de la littérature,• Analyse de données : types d’attributs, distributions des
exemples,etc.• Sélection d’un algorithme,• Définition du modèle et ses paramètres,• Définition de l’approche de validation.
• Remettre le rapport de conception (3-4 pages maximum) décrivant la conception et la justification de vos choix : à remettre dimanche le 13 juillet 2014 à 18h.
Travail à réaliser (2)
2. Implémentation de la méthode:• Le langage de votre choix,• Possibilité d’utiliser le logiciel/la librairie de votre
choix (ex: weka).• NOTE: Il est interdit d’utiliser tout logiciel
implémentant la totalité de votre projet.• Pas de correction interactive pour ce laboratoire :
votre code source doit contenir un fichier README.txt décrivant les étapes à suivre pour exécuter votre travail.
Travail à réaliser (3)
3. Validation de la méthode: • Les données d’entrainement : pour la sélection et
l’apprentissage des paramètres,• Les données de tests serviront à évaluer le travail
de chacun,• Décrire les résultats obtenus.
Remettre le rapport final du laboratoire 4 : concentré uniquement sur les parties
implémentation et résultats (vous n'avez pas à fournir la partie conception de nouveau)
Remise
• À remettre:– Code source – Rapport (voir l’énoncé et le gabarit)
• Date de remise:– Le 8 Août 2014 à 8h am
• Note: – Voir l’énoncé pour les consignes de la remise