« Déjà le 100ème article et quel bilan pour mon blog ? I Quel hébergeur choisir pour son blog ? »

Créer un fichier robots.txt pour améliorer le référencement (2ème partie)


Lors du dernier article consacré à l’amélioration de votre référencement, nous avons parlé du fichier sitemap. Ce fichier, une fois créé et publié, permet aux robots des moteurs de recherche de consulter votre site et donc de référencer l’intégralité de vos pages. On pourrait penser qu’on pourrait s’arrêter là. En effet, vous allez me dire que maintenant que toutes vos pages sont référencées, à quoi bon de continuer ? Et bien non! Il va falloir créer un fichier robots.txt qui aura pour fonction de définir l’accès ou non de certaines de vos pages car : 1) des pages sont confidentielles; 2) Évitons trop de contenu dupliqué pour les moteur.

1) certaines de vos pages sont ‘confidentielles’ : on ne va pas permettre aux robots de référencer vos fichiers wordpress du style : /wp-admin/, /wp-include/, /wp-content/, ni les /cgi-bin/ car cela n’a aucun intérêt pour le lecteur;

2) Évitons le duplicate content (contenu dupliqué) : le contenu dupliqué nuit au référencement. Je ne vais pas entrer dans les détails car j’en ai suffisamment parlé sur mon blog, aller consulter mes articles traitant de ce sujet. On va donc demander aux robots de ne pas aller dans certains fichiers où l’on trouve le même contenu dans d’autres fichiers.

Pour résumer, quand on va créer ce fichier robots.txt, on va vouloir :

1. Bloquer l’accès à des fichiers délicats, inutiles pour le lecteur;
2. Bloquer l’accès à des fichiers dont le contenu est “dupliqué”.

Créons donc ce fichier robots.txt. Ouvrez par exemple votre ‘bloc note’ et nommez le ‘robots.txt’. On le placera à la racine de votre site : http://www.monblogwordpress.com/robots.txt

Voici ce que nous allons indiquer dans ce fichier :

Sitemap: http://www.monblogwordpress.com/sitemap.xml
User-agent: *

L’URL du sitemap indique aux robots de balayer toutes les pages de votre blog wordpress. Ensuite, on indique que cela s’adresse à tous les robots des moteurs de recherche. Et enfin, on indique que les robots ont accès à l’ensemble des fichiers de votre blog WordPress.

La deuxième étape consiste à bloquer l’accès à certains dossiers et fichiers pour des raisons expliquées plus haut. Pour se faire, on ajoute :

Disallow: /cgi-bin/
Disallow: /wp-

Avec ces 2 lignes, on bloque l’accès aux fichiers ‘délicats’. Je retiendrais l’astuce de Fran6art qui au lieu d’indiquer un disallow à /wp-admin/, /wp-include/, /wp-content/, on va juste indiquer /wp- qui empêche l’accès à tous les fichiers commençant par “wp-”.

On ajoute ces 3 autres lignes pour limiter le duplicate content en bloquant l’accès aux flux, trackback et commentaires.

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

Par exemple, voici à quoi ressemble mon fichier robots.txt :

Sitemap: http://blogityourself.net/sitemap.xml

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/
Allow: /category/
Allow: /page/
Allow: /tag/
Disallow: /search/

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Vous pouvez voir que d’autres lignes ont été ajoutées et je vous expliquerai leurs fonctions dans une 3ème partie ainsi que l’utilisation du plugin WordPress All in one SEO Pack pour bloquer aussi l’accès à certaines URL afin toujours d’éviter ce satané duplicate content ;)

Partager et découvrir :
  • Digg
  • del.icio.us
  • Facebook
  • Blogasty
  • Bruxello
  • Scoopeo
  • Tapemoi
  • TwitThis
  • Wikio
  • Blinklist France
  • Digg France
  • Fuzz
  • Nuouz
  • Reddit France
  • StumbleUpon
  • Technorati
Si cet article vous a plu, n'hésitez pas à vous abonner au blog
Pour aller plus loin dans vos recherches ...


Laissez un commentaire

  • Articles récents

  • Derniers commentaires

  • Error 500 - Internal server error chez 1&1 ?  12
    fabien thomas, David, MrGermain, David, Vibe972, David [...]
  • Gimp ou Photoshop ?  5
    David, Deps, debbie, Grrrr, le blogueur masqué
  • Comment utiliser la fonction more de WordPress  1
    Jérôme
  • Mise à jour du Pagerank Google  4
    David, Creads, David, jayer
  • Mon thème wordpress en français perso  9
    David, Thomas, David, Thomas, David, mariga(z) [...]
  • 13 000 thèmes wordpress gratuits  11
    David, le blogueur masqué, David, Adrian, David, Adrian [...]
  • J'en parle

  • J'écoute en ce moment Thursday


    Découvrez Thursday!
  •