S'inscrire |

 
TEAM
Avatar de Smike
Smike est déconnecté Smike est un Homme 05/02
XP de Smike 3 420 Nombre total de messages de Smike
Voir le profil Facebook de Smike Voir le compte Twitter de Smike Voir le compte DeviantART  de Smike
Administrateur
  #1 (permalink)  
Vieux 23/06/2004, 11h23
Bien ! [Astuce web] Robots.txt

Qu' est-ce que le fichier robots.txt ?

les grands moteurs de recherche scrutent inlassablement nuit et jour le web à la recherche de nouveaux sites afin de les indexer.

Bien sûr, ils visiteront les innombrables nouveautés qu'on leur propose tous les jours mais ils rechercheront aussi ceux qui n'ont pas demandé leur inscription. Or, pour diverses raisons, il se peut que vous ne souhaitiez pas que votre site soit indexé et que son contenu soit dévoilé au public internaute. C'est là qu'intervient le fichier robots.txt qui contiendra les interdictions de visites entières ou partielles que vous y aurez indiquées. En effet, les moteurs de recherche utilisent un robot, dénommé spider (araignée) ou crawler, qui, lorsqu'il scrute un site nouveau ou un site proposé, va chercher en premier lieu ce fichier qui doit se trouver à la racine du site.

Si le vôtre s'appelle "http://www.monsite.com/", le spider examinera en premier lieu "http://www.monsite.com/robots.txt". S'il ne le trouve pas, il visitera et indexera éventuellement toutes les pages. S'il le trouve, le spider se conformera aux interdictions éventuelles.


Construction du fichier
Il est conseillé d' utiliser un éditeur de texte tel que le Bloc-notes. Des programmes comme Word sont utilisables, mais avec précaution, car le fichier sauvé sur le serveur peut parfois ne pas être au format ASCII pur.

Le fichier est composé des deux instructions suivantes :

Code:
User-agent: { nom du robot }
Disallow: { document-a-exclure }
Par exemple, pour indiquer au spider d'Alta Vista, dénommée Scooter, de ne pas indexer les fichiers perso.html et emploi.html, il faut insérer les lignes suivantes dans robots.txt :

Code:
User-agent: Scooter
Disallow: perso.html
Disallow: emploi.html
Syntaxe :
User-agent User-agent: { nom du robot } L' ordre concerne un robot précis
User-agent:* L' ordre concerne tous les robots.


Disallow Disallow:/index2.htm Indique aux robots qu 'ils ne doivent pas indexer la page /index2.htm situé à la racine du site.
Disallow:/admin/ Indique aux robots qu 'ils ne peuvent indexer les fichiers contenus dans le répertoire admin.
Disallow: Indique aux robots que tout doit être indexé. Identique à un fichier robots.txt inexistant.


Noindex
Noindex Ne pas indexer les pages

Commentaires # commentaires Vos commentaires doivent être précédé d' un #


Google
Quelques commandes réservées uniquement à Google

Code:
 nosnippet   Ne pas mettre d' extraits de pages 
 noarchives   Émécher l' archivage des pages
Règles et précautions

Il doit exister un seul fichier robots.txt sur l' ensemble de votre site.
Il doit être situé à la racine de votre site
L' astérisque (*) n' est acceptée que dans le champ User-agent.
Vous devez créer plusieurs sections User-agent si vous souhaitez que votre fichier robots.txt s' applique à différents moteurs de recherche.
Le nom du fichier (robots.txt) doit être écrit impérativement en minuscule.
Votre fichier robots.txt doit être en mode ASCII.
Ne jamais laisser de lignes vierges, le robot l'interprèterait comme étant la fin du fichier.

Voici un exemple d'un site ki a bcp a cacher : whitehouse.gov/robots.txt

Ne mettez pas les fichiers confidentiels car ce fichier peu etre lu par n'importe qui.

Protégez vos répertoires sensibles avec un .htaccess ça bloquera les crowlers et les utilisateurs mal intentionnés

Voila vous savez tout
Réponse avec citation
Avatar de Pierrot la Lune
Pierrot la Lune est déconnecté Sexe Non renseigné 06/04
XP de Pierrot la Lune 70 Nombre total de messages de Pierrot la Lune
Membre Habitué
  #2 (permalink)  
Vieux 23/06/2004, 13h13
bien l'astuce
Réponse avec citation
Avatar de Venom
Venom est déconnecté Sexe Non renseigné 06/04
XP de Venom 9 Nombre total de messages de Venom
Nouveau iker
  #3 (permalink)  
Vieux 21/12/2004, 03h05
Ouaip merci pour l'astuce
Réponse avec citation
Avatar de JoJoWoRLd
JoJoWoRLd est déconnecté Sexe Non renseigné 01/05
XP de JoJoWoRLd 18 Nombre total de messages de JoJoWoRLd
Petit-posteur
  #4 (permalink)  
Vieux 01/01/2005, 20h38
Très astucieux. En effet le site a beaucoup à cacher

Dommage qu'il ne soit pas possible de rendre impossible l'accés robots.txt pour les utilisateurs mais le rendre accéssible uniquement pour les robots concernés.
Réponse avec citation
TEAM
Avatar de Smike
Smike est déconnecté Smike est un Homme 05/02
XP de Smike 3 420 Nombre total de messages de Smike
Voir le profil Facebook de Smike Voir le compte Twitter de Smike Voir le compte DeviantART  de Smike
Administrateur
  #5 (permalink)  
Vieux 27/01/2005, 10h56
voici un petit lien qui analyse la validité de votre fichier :

http://www.yooda.com/outils_referenc...robots_txt.php
Réponse avec citation
Avatar de remi94
remi94 est déconnecté Sexe Non renseigné 11/04
XP de remi94 25 Nombre total de messages de remi94
Petit-posteur
  #6 (permalink)  
Vieux 24/05/2005, 16h36
je savais pas que sa existé
merci smike
Réponse avec citation
Réponse

Outils de la discussion

Config des règles de ce forum
Règles de messages
Vous ne pouvez pas créer de nouvelles discussions
Vous ne pouvez pas envoyer des réponses
Vous ne pouvez pas envoyer des pièces jointes
Vous ne pouvez pas modifier vos messages

Les balises BB sont activées : oui
Les smileys sont activés : oui
La balise [IMG] est activée : oui
Le code HTML peut être employé : non
Trackbacks are oui
Pingbacks are oui
Refbacks are oui


A propos d'IK

Infographik alias IK est un forum d'entre-aide dans le domaine de l'infographie numerique
Depuis plus de 10 ans ce forum propose des tutoriaux un espace communautaire francophone.

We need You !

Faire un don permet de régler les frais de fonctionnement du site tel que l'hebergement, le ndd etc...
Faire un don

Fuseau horaire GMT +2. Il est actuellement 23h27.