Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Graphes de terrainProblématiques générales et cas de la métrologie de l’internet
Clémence Magnien
LIP6 – CNRS and Université Pierre et Marie CurieÉquipe Complex Networks
1/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
2/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
3/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Graphes de terrain
informatique : internet, web, pair-à-pair, usages, etc
sciences sociales : collaboration, amitié, contacts sexuels,échanges, économie, etc
biologie : cerveau, gènes, protéines, écosystèmes, etc
linguistique : synonymie, co-occurrence, etc
transport : routier, aérien, électrique, etc
etc, etc
réseaux de relations
contextes très différents
4/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Graphes de terrain
Contextes différents, mais
Propriétés communes→ Ressemblance
Problématiques communes
5/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Mesure
opération de mesure
graphe réel vue obtenue
Impossible de mesurer l’objet complet :
Taille
Contraintes techniques
. . .
6/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Métrologie
opération de mesure
?inférence
graphe réel vue obtenue
que peut on dire sur l’objet réel à partir de la mesure ?
Comparer aux instituts de sondage
Vue représentative : complexe
Ici, choix limité sur la procédure de mesure
impact sur les propriétés observées ?impact des propriétés sur la vue?
mesures ciblant certaines propriétés?...
7/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Analyse
décrire
extraire de l’information pertinente
statistiques structure
densitédegrés
densité localecorrélations
...
8/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Analyse
décrire
extraire de l’information pertinente
statistiques structure
densitédegrés
densité localecorrélations
...
8/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Modélisation
Modèle : générateur de graphes
génération de graphes réalistes
(i.e. ayant les propriétés observées)
motivations : approches formelles, simulation, explication
9/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Algorithmique
Taille
→ problèmes classiques à revisiter→ restrictions en espace
10/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Problématique – Algorithmique
Taille
→ problèmes classiques à revisiter→ restrictions en espace
+ problèmes spécifiques
10/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Notations
On note :
n = |V | le nombre de sommets
m = |E | le nombre d’arêtes
u et v sont voisins s’il y a une arête entre eux.
Degré : d◦(v) : nombre de voisins de v
11/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
12/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
13/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Degré moyen, densité
degré moyen du graphe, d◦(G)
moyenne des degrés de tous les sommets
14/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Degré moyen, densité
densité du graphe, δ
= probabilité d’existence de tout lien
= à quel point tout le monde est lié
δ =2m
n(n − 1)
14/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Densité
En pratique, densité faible pour les graphes de terrain.
Faible ?
Degré moyen très faible par rapport à n
15/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Connexité
Composante connexe : ensemble maximal de sommets t. q. ∃ unchemin entre toutes les paires de sommets.
Graphe connexe : une seule composante connexe
16/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Connexité
Pour les graphes de terrain
En général, composante géante→ Contient la plupart des sommets
17/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distance
Pour les graphes de terrain
En général, distances courtes (∼ log(n))
Expérience de Milgram“Six degrés de séparation”Kevin Bacon game
18/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution des degrés (1/2)
Distribution des degrés :4 nœuds, degrés : 2 3 3 1
19/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution des degrés (1/2)
Distribution des degrés :4 nœuds, degrés : 2 3 3 1
Distribution : combien de nœuds ont degré k, en fonction de k.
1 → 1, 2 → 1, 3 →2
1 2 3
1
2
19/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Loi de puissance (power-law)
Loi de puissance
Nk ∼ k−α
droite en échelle log-log
Distribution hétérogène : proche d’une loi de puissance
Loi de puissance
droite en échelle log-logsur plusieurs ordres de
grandeur
6=
Hétérogène
plusieurs ordres degrandeur
proche d’une droite enéchelle log-log
20/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Exemple
1
10
100
1000
10000
100000
1e+06
1 10 100 1000 10000 100000 1e+06 1
10
100
1000
10000
100000
1 10 100 1000 10000 100000
21/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distributions hétérogènes : échelle log-log
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
0 50000 100000 150000 200000 250000 1
10
100
1000
10000
100000
1e+06
1 10 100 1000 10000 100000 1e+06
échelle linéaire échelle logarithmique
22/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distributions hétérogènes vs homogènes
0
2000
4000
6000
8000
10000
12000
0 5 10 15 20 25 30 35 1
10
100
1000
10000
100000
1e+06
1 10 100 1000 10000 100000 1e+06
Homogène
Notion de normalité (et d’exceptions)
Hétérogène
Tous les comportements existent→ pas de notion de normalité
23/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distributions normalisées
Distribution des degrés, deux choix :
Nk : nombre de sommets de degré k
pk : fraction de sommets de degré k
→ Distribution normalisée
pk = Nk
n
Permet de comparer des graphes de tailles différentes
Notations :
〈k〉 =∑
kpk : moyenne
〈k2〉 =∑
k2pk : deuxième moment (dispersion)
24/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution cumulative inverse
Nk : nombre de nœuds de degré égal à k
Ck : nombre de nœuds de degré inférieur ou égal à k
0
2000
4000
6000
8000
10000
12000
0 5 10 15 20 25 30 35 0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
0 5 10 15 20 25 30 35
Échelle linéaire
25/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution cumulative inverse
Nk : nombre de nœuds de degré égal à k
Ck : nombre de nœuds de degré inférieur ou égal à k
1
10
100
1000
10000
100000
1 10 100 1
10
100
1000
10000
100000
1 10 100
Échelle log-log
25/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution cumulative inverse
Nk : nombre de nœuds de degré égal à k
Ck : nombre de nœuds de degré inférieur ou égal à k
Échelle
Distributions homogènes/hétérogènes
Se distingue sur la distribution normale ou cumulative
Ex : loi de puissance
Nk ∼ k−α =⇒ Ck ∼ k−α+1
25/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Distribution des degrés (2/2)
Pour les graphes de terrain
En général, distributions des degrés hétérogènes
26/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Coefficient de clustering
coefficient de clustering cc(v)
= probabilité que deux voisins de v soient reliés
= # paires de voisins reliés / # paires de voisins= densité locale
27/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Coefficient de clustering
Coefficient de clustering du graphe :moyenne sur tous les sommets de degré ≥ 2
Pour les graphes de terrain
En général, clustering fort
Plusieurs ordres de grandeur au dessus de la densité
28/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
29/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Définir les communautés
But
Rechercher une structure interne au graphe.
Définition
intuitive: personnes partageant un intérêt commun, pages webau contenu similaire...
structurelle: zone du graphe dense en liens
30/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Communautés: démarche usuelle
Partition communautaire (un nœud appartient à une et uneseule communauté)
Optimisation d’un estimateur de qualité:la modularité:
Q =∑
I
(eII − a2I )
(≃ −1: structure anti-communautaire,≃ 0 : pas ou peu de structure,≃ 1 : fortement structuré)
31/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés communes – conclusion
La plupart des graphes de terrain ont des propriétés communes :
densité faibleconnexité comp. géantedistances faiblesdegrés hétérogènesclustering fortcommunautés oui
32/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
33/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Graphes aléatoires – Motivation
Propriétés observées normales ?Réponse : comparer à un graphe aléatoire
tiré au hasard (avec proba. uniforme) dans l’ensemble des graphes(d’une taille donnée)
Propriétés communes à l’immense majorité des graphes→ propriétés attendues
34/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Modèle d’Erdös-Rényi
Gn,p
n sommets
Chaque arête existe avec probablité p
35/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Notion de propriété attendue
Exemple : graphe aléatoire, n = m = 4950
Résultat : clique de 100 sommets (les autres ont degré 0)
Étonnant ?
Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.
Nombre attendu de sommets de degré 0 :
nq ∼ 683683 6= 6= 6= 4850
→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)
36/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Notion de propriété attendue
Exemple : graphe aléatoire, n = m = 4950
Résultat : clique de 100 sommets (les autres ont degré 0)
Étonnant ?
Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.
Nombre attendu de sommets de degré 0 :
nq ∼ 683683 6= 6= 6= 4850
→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)
36/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Notion de propriété attendue
Exemple : graphe aléatoire, n = m = 4950
Résultat : clique de 100 sommets (les autres ont degré 0)
Étonnant ?
Probabilité d’avoir degré 0 : q = (1 − p)n−1 ∼ 0.14.
Nombre attendu de sommets de degré 0 :
nq ∼ 683683 6= 6= 6= 4850
→ on ne peut pas obtenir ce graphe par tirage aléatoire(autre processus en jeu)
36/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés des graphes aléatoires
Densité
Connexité
Distance moyenne, diamètre
37/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés des graphes aléatoires
Densité fixée
Connexité composante géante, taille O(n)(pour m ≥ O(n))
Distance moyenne, diamètre ∼ log(n)(pour m ≥ O(n))
37/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés des graphes aléatoires
Distribution des degrés
Coeffecient de clustering
37/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés des graphes aléatoires
Distribution des degrés homogène
Coeffecient de clustering = δ
37/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés des graphes aléatoires
de terrain aléatoiredensité faible faibleconnexité comp. géante comp. géantedistances faibles faiblesdegrés hétérogènes homogènesclustering fort faiblecommunautés oui non
37/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Graphes d’Erdös-Rényi – Conclusion
Les graphes de terrain sont très différents des graphes aléatoiresd’Erdös-Rényi
Conséquences
Leur ressemblance est significative
Les graphes d’ER ne sont pas des bons modèles (simulations,preuves, . . . )
→ Autres modèles ?
38/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Graphes aléatoires à distribution des degrés fixés
Distribution des degrésp1, p2, p3, . . .
Tirer les degrés des sommets selon la distribution1 2 4 3 2 1 3
Associer à chaque sommet des demi-arêtes
Tirer au hasard des paires de demi-arêtes
39/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
PropriétésStructure communautaireGraphes aléatoires
Propriétés – Comparaison
de terrain aléatoire degrés fixésdensité faible faible faibleconnexité comp géante comp géante comp géantedistances faibles faibles faiblesdegrés hétérogènes homogènes hétérogènesclustering fort faible faiblecommunautés oui non non
→ le clustering n’est pas une conséquence des degrés hétérogènes
40/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
41/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Topologie de l’internet
Exploration : traceroute
Quelques sources, bcp de destinations :
On sait qu’on ne voit pas tout
Vue représentative ? (→ biais ?)
42/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Distribution des degrés
Une propriété dont on a beaucoup parlé :Distribution des degrés de l’internet en loi de puissance
[Pansiot, Grad, 1998Faloutsos, Faloutsos, Faloutsos, 1999]
43/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Distribution des degrés observée surprenante → biais ?
Conséquences :
Diminuer le biais
Mesure depuis un plus grand nombre de sources
Estimer le biais
Études théoriques et expérimentales
44/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
45/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
46/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Multiplier les sources et les destinations
Intérêt d’utiliser plusieurs sources et destinations
→ Quantité d’information ?→ Diminution du biais ?
47/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Quantité d’information
[On the Marginal Utility of Network Topology MeasurementsBarford, Bestavros, Byers, Crovella, 2001]
Idée
Utiliser des données issues de mesures (vs simulation)
Estimer le nombre de nœuds/liens vus en fonction du nombrede sources/destinations
48/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Données
Deux jeux de données
8 sources
1277 destinations
1 traceroute toute les 30 minutes
7 mois (?)
12 sources
> 300 000 destinations
même méthode de mesure
durée ?
49/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Données
Note :
Intérêt de répêter les mesures ?
Load-balancing, . . .→ répêter donne plus d’informations
Plus de détails dans un cours suivant
49/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Méthodologie
Estimer le nombre de nœuds vus en fonction :
du nombre de sources
du nombre de destinations
s sources, d destinations→s × d choix possibles
Beaucoup d’informationsInterprétation ?
50/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Méthodologie
Ce qu’on veut :
nb sources
nb IP vues
50/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Méthodologie
Ce qu’on veut :
nb sources
nb IP vues
même chose pour les destinations
50/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Problème
nb sources
nb IP vues
3
Nombre d’IP vues avec 3 sources : quelles 3 sources ?
51/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Exemple
une source → ensemble des IP vues
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
s1 + s3 + s6 →5 IPs1 + s4 + s5 →10 IP
Pas de choix naturel
52/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Exemple
une source → ensemble des IP vues
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
s1 + s3 + s6 →5 IPs1 + s4 + s5 →10 IP
Pas de choix naturel
52/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
1 sources : s1
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
2 sources : s1s5
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
3 sources : s1s5s4
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
4 sources : s1s5s4s2
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
5 sources : s1s5s4s2s3
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
6 sources : s1s5s4s2s3s6
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Stratégie gloutonne
À chaque étape :ajouter la source qui ajoute le plus d’informations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
sources : s1s5s4s2s3s6
Motivation : “meilleur” des cas
53/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Complexité
Union de deux ensembles
complexité minimum : taille du plus petit(dépend de l’implémentation)
Deuxième étape
calcul de n − 1 unions→ (n − 1) × k si tous les ensembles ont taille k.
À l’étape i
n − i unions→ (n − i) × k
54/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Complexité
À l’étape i
n − i unions→ (n − i) × k
k(n − 1 + n − 2 + . . . + 2 + 1)= kn(n−1)
2O(kn
2)
Long si on a un grand nombre de sources
54/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Premier jeu de données
55/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Deuxième jeu de données
55/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Observations
Convergence de la courbe :les dernières sources n’apportent quasiment pas d’informations →marginal utility
à discuter plus tard
56/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Utilité des destinations
Dans l’idéal, approche inverse :Chaque destination → ensemble des IP vues
Stratégie gloutonne coûteuse→ stratégie aléatoire
Pour une source
À chaque étape :
Rajouter une destination au hasard
Comparer les courbes pour toutes les sources
57/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
58/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Observations
Croissance linéaire :apport similaire pour toutes les destinations
59/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Différence entre sources et destinations
Différence entre les courbes→ différence entre les sources et les destinations ?
s sources, d destinations ⇐⇒ d sources, s destinations
→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire
60/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Différence entre sources et destinations
Différence entre les courbes→ différence entre les sources et les destinations ?
s sources, d destinations ⇐⇒ d sources, s destinations
→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire
60/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Différence entre sources et destinations
Différence entre les courbes→ différence entre les sources et les destinations ?
s sources, d destinations ⇐⇒ d sources, s destinations
→ Importance de la stratégie utilisée pour les courbesgloutonne, aléatoire
60/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Critiques
Papier intéressant, mais :
Manque de détails sur :
→ disparité entre les sources(une source voit seulement 184 nœuds (> 4000 pour la plus
grande))→ influence de la stratégie
Question : choix des sources plus important que le nombre ?
61/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Critiques
Dernières sources : peu d’apport en soiLa stratégie gloutonne conditionne l’allure de la courbepas de stratégie naturelle
61/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Pour mieux comprendre
Comparer les différentes stratégies
62/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Données
[Ouédraogo, Magnien, 2009]
Données11 sources
3 000 destinations
100 traceroutes par jour
∼ 2 mois
63/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Différence entre les sources
Nombre d’IP vues par sources
Varie entre :
∼ 16 500
∼ 26 500
Toutes les sources ne sont pas équivalentes
64/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Trois stratégies naturelles
gloutonne
aléatoire
gloutonne-minajouter la source qui apporte le moins d’information
65/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Stratégie gloutonne 6= maximum possible avec k sources
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, e, f }
s3 : {a, c , d , g}
66/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Stratégie gloutonne 6= maximum possible avec k sources
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, e, f }
s3 : {a, c , d , g}
1 sources : s1
66/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Stratégie gloutonne 6= maximum possible avec k sources
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, e, f }
s3 : {a, c , d , g}
2 sources : s1s2
66/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Stratégie gloutonne 6= maximum possible avec k sources
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, e, f }
s3 : {a, c , d , g}
3 sources : s1s2s3
66/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Stratégie gloutonne 6= maximum possible avec k sources
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, e, f }
s3 : {a, c , d , g}
3 sources : s1s2s3
s2 + s3 : 7 IP
Représentativité du maximum ?Coût du calcul du maximum
66/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Autres stratégies
Max → max sur 1000 ordres aléatoires
Min → min sur 1000 ordres aléatoires
Aléatoire → moyenne sur 1000 ordres aléatoires
67/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Influence des sources ou des destinations
Exemple
s1 : {a, b, c , d , e}s2 : {a, b, c , d , f }s3 : {a, b}
s4 : {g , h}s5 : {i , j , k}s6 : {a, d}
s3 s4 s6 s5 s2 s1
2 4 5 8 10 11s5 s6 s2 s4 s3 s1
3 5 7 9 10 11Min 2 4 5 8 10 11Max 3 5 7 9 10 11
Moyenne 2.5 4.5 6 8.5 10 11
67/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
15000
20000
25000
30000
35000
40000
45000
0 2 4 6 8 10 12
M’(k)Random maxRandom avg.Random min
m’(k)
Influence des sources
68/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
0 500 1000 1500 2000 2500 3000
M(k)Random maxRandom avg.Random min
m’(k)
Influence des destinations
69/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Observations
Toutes les courbes finissent au même point : n
Glouton + moyenne : comportements similaires pour lessources et les destinatiosn
Variabilité plus grande en pratique pour les sourcesPeu de sources
70/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Conclusion
Utilité diminue, ne devient pas nulleChoix des sources peut-être plus important que le nombre
71/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Outline
1 Introduction – Contexte
2 Propriétés des graphes de terrainPropriétésStructure communautaireGraphes aléatoires
3 Topologie de l’internet
4 MétrologieInfluence des sources et des destinationsBiais sur les degrés
72/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Biais lié à l’exploration
[Sampling Biases in IP Topology MeasurementsLakhina, Byers, Crovella, Xie, 2003]
Principe : simulations
Générer des graphes → topologie
Simuler des traceroute → mesure
Observer les résultats
Caractère explicatif
73/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Implémentation
Générer des graphes
Aléatoires → Erdös-Rényi
Degrés fixés → modèle de configurations
74/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Implémentation – traceroute
Comment simuler traceroute ?Plusieurs possibilités
75/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Implémentation – traceroute
Comment simuler traceroute ?Plusieurs possibilités
Choix courants
route = plus court chemin (faux mais on n’a pas mieux)
Plus court chemin
Un seul/tous les plus courts chemins ?
Si un seul, lequel ?
75/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Choix des auteurs
Associer un poids à chaque lien (→ graphe pondéré)
1 + ǫ, ǫ ∈ [−1/n, 1/n]
Longueur d’un chemin : somme des poids des liens→Tous les chemins ont des longueurs différentes
76/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Choix des auteurs
Associer un poids à chaque lien (→ graphe pondéré)
1 + ǫ, ǫ ∈ [−1/n, 1/n]
Longueur d’un chemin : somme des poids des liens→Tous les chemins ont des longueurs différentes
0.99 0.98
1.01 0.99
76/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Simulations
Examen de deux hypothèses
Graphes d’Erdös-Rényi (degrés homogènes)
n = 100 000
m = 750 000 (d◦(G) = 15)
sources : 1, 5, 10
destinations : 1000Choisies au hasard
Distribution des degrés fixés (hétérogène)
n ∼ 100 000
m ∼ 190 000
loi de puissance, α ∼ 2.1
77/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes d’Erdös-Rényi
1
10
100
1000
10000
100000
1 10 100
originals=1, d=1000
78/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes d’Erdös-Rényi
1
10
100
1000
10000
100000
1 10 100
originals=1, d=1000s=5, d=1000
78/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes d’Erdös-Rényi
1
10
100
1000
10000
100000
1 10 100
originals=1, d=1000s=5, d=1000
s=10, d=1000
78/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes à degrés fixés hétérogènes
1e-06
1e-05
0.0001
0.001
0.01
0.1
1
1 10 100 1000 10000 100000 1e+06
originals=1, d=1000
79/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes à degrés fixés hétérogènes
1e-06
1e-05
0.0001
0.001
0.01
0.1
1
1 10 100 1000 10000 100000 1e+06
originals=1, d=1000s=5, d=1000
79/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Résultats
Graphes à degrés fixés hétérogènes
1e-06
1e-05
0.0001
0.001
0.01
0.1
1
1 10 100 1000 10000 100000 1e+06
originals=1, d=1000s=5, d=1000
s=10, d=1000
79/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Observations
Distribution observée 6= distribution réelle
Graphes aléatoires : différence qualitativehomogène → hétérogène
Graphes à degrés fixés : différence quantitativepente, degré max, . . .
Attention :Graphes aléatoires : Degré maximum observé ∼ 30→impossible de conclure sur l’hétérogénéité
80/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Observations
Distribution observée 6= distribution réelle
Graphes aléatoires : différence qualitativehomogène → hétérogène
Graphes à degrés fixés : différence quantitativepente, degré max, . . .
Attention :Graphes aléatoires : Degré maximum observé ∼ 30→impossible de conclure sur l’hétérogénéité
80/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Conclusion de l’article
On peut avoir une differenceDistribution observée hétérogène 6 =⇒ distribution réellehétérogène
Pas de conclusion sur la distribution réelle
81/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Discussion (1/2)
Résultat très important
D’un point de vue théorique
Besoin de faire attention en pratique
Quelles conclusions tirer en pratique ?
Distribution observée hétérogène
→ Distribution réelle homogène ?→ Distribution réelle hétérogène ?
82/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Discussion (2/2)
Cas de graphes aléatoires :Degré maximal observé :proche du degré moyen du graphe.
En pratique, degré maximum observé > 1000→ graphe aléatoire de degré moyen = 1000 ?
→distribution réelle probablement hétérogèneBesoin de plus d’études
83/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biais
Biais dans l’échantillon des noeuds?
Pour chaque nœud : comparer le degré observé au vrai degré
84/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biais
Biais dans l’échantillon des noeuds?
distrib. observée / distrib. dugraphe
distrib. des vrais degrés / dis-trib. du graphe
Avec 1 source
84/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biais
Biais dans l’échantillon des noeuds?
distrib. observée / distrib. dugraphe
distrib. des vrais degrés / dis-trib. du graphe
Avec 5 sources
84/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biais
Biais dans l’échantillon des noeuds?
distrib. observée / distrib. dugraphe
distrib. des vrais degrés / dis-trib. du graphe
Avec 10 sourcesLes nœuds sont choisis sans biais sur le degré
84/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biaisBiais dans l’échantillon des liens?
degré observé vs degré réelAvec 1 source
85/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biaisBiais dans l’échantillon des liens?
degré observé vs degré réelAvec 5 sources
85/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biaisBiais dans l’échantillon des liens?
degré observé vs degré réelAvec 10 sources
85/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biaisVisibilité des arêtes en fonction de leur distance à la source
gauche : 10 000 sommets droite : 1 000 000 sommets
86/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Sources du biaisVisibilité des arêtes en fonction de leur distance à la source
gauche : 10 000 sommets droite : 1 000 000 sommets
Plus une arête est loin de la source,moins elle a de chances d’être vue
86/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Échantillon donné → biais ?Étant donné un échantillon (et pas le graphe original),peut-on savoir s’il y a du biais ?
87/87
Introduction – ContextePropriétés des graphes de terrain
Topologie de l’internetMétrologie
Influence des sources et des destinationsBiais sur les degrés
Échantillon donné → biais ?Étant donné un échantillon (et pas le graphe original),peut-on savoir s’il y a du biais ?
Probabilité d’avoir degré d et distance h
Les nœuds les plus éloignés ont les plus faibles degrés87/87
Top Related