Communauté Digitale Francophone - InfographiK

Communauté Digitale Francophone - InfographiK (http://www.infographik.fr/forum.html)
-   Conception et Intégration Web (http://www.infographik.fr/tutoriaux/web-et-autres/conception-et-integration-web/)
-   -   [Astuce web] Robots.txt (http://www.infographik.fr/tutoriaux/web-et-autres/conception-et-integration-web/4947-astuce-web-robots-txt.html)

Smike 23/06/2004 11h23

[Astuce web] Robots.txt
 
Qu' est-ce que le fichier robots.txt ?

les grands moteurs de recherche scrutent inlassablement nuit et jour le web à la recherche de nouveaux sites afin de les indexer.

Bien sûr, ils visiteront les innombrables nouveautés qu'on leur propose tous les jours mais ils rechercheront aussi ceux qui n'ont pas demandé leur inscription. Or, pour diverses raisons, il se peut que vous ne souhaitiez pas que votre site soit indexé et que son contenu soit dévoilé au public internaute. C'est là qu'intervient le fichier robots.txt qui contiendra les interdictions de visites entières ou partielles que vous y aurez indiquées. En effet, les moteurs de recherche utilisent un robot, dénommé spider (araignée) ou crawler, qui, lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu ce fichier qui doit se trouver à la racine du site.

Si le vôtre s'appelle "http://www.monsite.com/", le spider examinera en premier lieu "http://www.monsite.com/robots.txt". S'il ne le trouve pas, il visitera et indexera éventuellement toutes les pages. S'il le trouve, le spider se conformera aux interdictions éventuelles.


Construction du fichier
Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCII pur.

Le fichier est composé des deux instructions suivantes :

Code:

User-agent: { nom du robot }
Disallow: { document-a-exclure }

Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :

Code:

User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html

Syntaxe :
User-agent User-agent: { nom du robot } L' ordre concerne un robot précis
User-agent:* L' ordre concerne tous les robots.


Disallow Disallow:/index2.htm Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm situé à la racine du site.
Disallow:/admin/ Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
Disallow: Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant.


Noindex
Noindex Ne pas indexer les pages

Commentaires # commentaires Vos commentaires doivent être précédé d' un #


Google
Quelques commandes réservées uniquement à Google

Code:

nosnippet  Ne pas mettre d' extraits de pages
 noarchives  Émécher l' archivage des pages

Règles et précautions

Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
Il doit être situé à la racine de votre site
L' astérisque (*) n' est acceptée que dans le champ User-agent.
Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s' applique à différents moteurs de recherche.
Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
Votre fichier robots.txt doit être en mode ASCII.
Ne jamais laisser de lignes vierges, le robot l'interprèterait comme étant la fin du fichier.

Voici un exemple d'un site ki a bcp a cacher : whitehouse.gov/robots.txt

:!: Ne mettez pas les fichiers confidentiels car ce fichier peu etre lu par n'importe qui.

Protégez vos répertoires sensibles avec un .htaccess ça bloquera les crowlers et les utilisateurs mal intentionnés ;)

Voila vous savez tout :)

Pierrot la Lune 23/06/2004 13h13

bien l'astuce :)

Venom 21/12/2004 03h05

Ouaip merci pour l'astuce :)

JoJoWoRLd 01/01/2005 20h38

Très astucieux. En effet le site a beaucoup à cacher :p

Dommage qu'il ne soit pas possible de rendre impossible l'accés robots.txt pour les utilisateurs mais le rendre accéssible uniquement pour les robots concernés.

Smike 27/01/2005 10h56

voici un petit lien qui analyse la validité de votre fichier :

http://www.yooda.com/outils_referenc...robots_txt.php

remi94 24/05/2005 16h36

je savais pas que sa existé
merci smike


Fuseau horaire GMT +2. Il est actuellement 16h03.

Powered by vBulletin® Version 3.8.3
Copyright ©2000 - 2018, Jelsoft Enterprises Ltd.
Version française #20 par l'association vBulletin francophone
Communauté Graphique
CNIL : 1130886