Deck seo campus 2011 utiliser les logs serveurs
-
Upload
philippe-yonnet -
Category
Technology
-
view
6.394 -
download
0
Transcript of Deck seo campus 2011 utiliser les logs serveurs
![Page 2: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/2.jpg)
Les logs serveurs c’est quoi ?
-------------------------------------------------------
Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
Log
![Page 3: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/3.jpg)
Les logs serveurs c’est quoi ?
Les « logs » sont des fichiers texte créés par les serveurs web.
Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.
Chaque ligne du fichier de logs représente une requête http
![Page 4: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/4.jpg)
A quoi cela ressemble ?
194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
Format Apache par défaut
Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte
![Page 5: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/5.jpg)
Quelles informations y trouve-t’on ?
• L’adresse IP de la source
• L’identité du client
• Le nom de l’utilisateur distant (si http auth)
• Date, heure, fuseau de la requête
• La requête http://
• Le code réponse renvoyé par le serveur
• La taille du bloc de données retourné par le serveur en octets
• Les “-” symbolisent une information manquante
![Page 6: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/6.jpg)
Pourquoi pas une solution de web analytics
Deux types de mesure différents et
complémentaires
Le problème des « signaux faibles »
Le problème de la volumétrie des
rapports
Tracker correctement un robot avec un tag
javascript : impossible
Les « autres »
![Page 7: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/7.jpg)
Pb spécifique à Google Analytics : la source « autres »
Près de 10% d’ « autres »…Comment fait-on si on veut justement
analyser ces urls là ?
![Page 8: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/8.jpg)
Usage n°1 : connaître les pages crawlées
Homes / Rubriques
Pages catégories
Fiches Produits
Pages recherches
Pages Tags Divers0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
1800000
Non crawlées
Crawlées
Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
![Page 9: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/9.jpg)
Usage n°1ter : caractériser le comportement de crawl
Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
23-J
un-1
0
24-J
un-1
0
25-J
un-1
0
26-J
un-1
0
27-J
un-1
0
28-J
un-1
0
29-J
un-1
0
30-J
un-1
0
01-J
ul-10
02-J
ul-10
03-J
ul-10
04-J
ul-10
05-J
ul-10
06-J
ul-10
07-J
ul-10
08-J
ul-10
09-J
ul-10
10-J
ul-10
11-J
ul-10
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
20000
Crawl des fiches produits : pages uniques
Crawl des fiches produits : avec recrawl
L’analyse des logs permet d’analyser les logs
templates par template et de savoir si les pages sont crawlées plus souvent ou si
plus de pages sont crawlées
![Page 10: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/10.jpg)
Usage n°2 : déterminer les pages qui reçoivent du trafic organique
Homes / Rubriques
Pages catégories
Fiches Produits
Pages recherches
Pages Tags
Divers0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
1800000
Non crawlées
Crawlées
Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées
Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
![Page 11: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/11.jpg)
Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée
Ratios intéressant :
Longueur des requêtes / type de pagesNombre d’expressions différentes / page
![Page 12: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/12.jpg)
Usage n°4 : identifier les pb techniques
Erreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site
![Page 13: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/13.jpg)
Usage n°5 : monitorer les perfs côté serveur
Apache 2 : temps pour délivrer la page mesuré en microsecondes
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined
Résultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
Soit 0,095491 secondes
Avec Apache 1,3 seul le temps en sec est disponible
Ne pas confondre avec le temps de génération de la page
![Page 14: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/14.jpg)
COMMENT FAIRE ?
![Page 15: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/15.jpg)
1. Vérifier que vos logs sont bien générés
Les logs prennent de la place
Personne ne les consulte
Les logs finissent par être désactivés volontairement ou involontairement
![Page 16: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/16.jpg)
2. Vérifiez le format de vos logs
HostSéparer
correctement les données des sous domaines
ReferrerIdentifier les
visites organiques
Identifier les backlinks
User Agent
Identifier les visites des
robots
Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs
![Page 17: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/17.jpg)
3. Utiliser une application du marché
Awstats / Webalizer : peu d’infos SEO
![Page 18: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/18.jpg)
3. Utiliser une application du marché : Urchin
![Page 19: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/19.jpg)
3. Utiliser une application du marché : Urchin
Rapports riches, graphes
Relativement facile à installer et à utiliser
QualitésGourmand en ressources
Plante facilement sur des logs corrompus
Analyse SEO limitée
Défauts
![Page 20: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/20.jpg)
3. Utiliser une application du marché
SawMill
![Page 21: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/21.jpg)
3. Utiliser une application du marché
Gère des volumétries importantes
API disponible
QualitésGraphes intégrés indigents
Plus fiable en version Linux
Analyse SEO limitée
Défauts
Sawmill
![Page 22: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/22.jpg)
3. Utiliser une application du marché
Analogx http://www.analog.cx/
![Page 23: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/23.jpg)
3. Utiliser une application du marché
Analogx http://www.reportmagic.org/index.html
![Page 24: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/24.jpg)
4. Créer ses propres outils
Permet de créer un monitoring personnalisé
Alertes pb de crawl Alertes rescodes
Permet de s’adapter à tous les contextes
CDN, proxies, load balancers Formats exotiques, lignes corrompues
Permet de réaliser toutes les analyses détaillées
Rescodes Crawl Referrers Visites organiques Mots clés
![Page 25: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/25.jpg)
4. Créer ses propres outils : les obstacles
Utiliser les bons algorithmes
Utiliser un langage bas niveau
(langage C par exemple)
Utiliser une machine puissante
(système 64 bits, gros proc, mémoire >
4 Go)
Stocker des volumes impressionnant de
données
(téraoctets)
Etre rigoureux(nombreuses sources
d’erreur possibles)
La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche
![Page 26: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/26.jpg)
5. Utiliser des outils spécialisés
ssed et nawk : Outils Unix / Linux
Awk, Nawk, Gawk sont des langages de
traitement de lignes• Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)
• Nawk : New Awk => disponible sur plateformes Linux (Ubuntu)
• Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux
![Page 27: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/27.jpg)
Quelques exemples de commandes awk
awk -F\" '{print $6}' combined_log | sort | uniq -c | sort –fr
Affiche la liste des user agents triées par ordre décroissant de nombre de hits
awk -F\" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘
Affiche la liste des hits (visites) de Googlebot
awk '($9 ~ /404/)' combined_log
Liste les erreurs 404
![Page 28: Deck seo campus 2011 utiliser les logs serveurs](https://reader035.fdocument.pub/reader035/viewer/2022062313/5586bacdd8b42a8d428b4672/html5/thumbnails/28.jpg)
Merci !
Si vous avez des questions, n’hésitez pas