Quel contenu indexer ?

Quel contenu indexer ?

L'indexation du contenu est fait parti des signaux retenus par les moteurs de recherche pour déterminer la qualité d'un site web. Plus les réglages seront fins, plus vous enverrez un bon signal. Nous allons donc voir ensemble ce qu'il n'est pas nécessaire d'indexer.

La recherche

Ne riez pas ! Quel référenceur ne s'est pas rendu compte lors d'un audit que les pages de recherche d'un site étaient indexables. C'est la première erreur à ne pas faire. Toutes ces pages ne doivent en aucun être aspirées par les robots des moteurs. Vu le nombre de combinaisons possibles (1 mot, 2 mots, etc.), vous pourriez avoir des millions de pages visibles dans les moteurs de recherche. Bonjour le squattage !

Selon la configuration du site, vous pouvez bloquer l'indexation via le fichier robots.txt ou la balise meta robots (ou les deux si vous êtes paranos ^^).

Les pages de tags

Les tags, ce n'est ni plus ni moins une recherche assistée. On permet à l'internaute de retrouver des pages ou des articles selon un mot-clé précis. La aussi, et pour les mêmes raisons que pour la recherche, je préfère ne pas les indexer.

Daniel pense que c'est un non sens de ne pas le faire comme il l'explique dans son article sur les mots-clés. Son point de vue se défend mais je reste perplexe quand au nombre de webmasters qui gèrent ces pages rigoureusement. J'éviterais de citer les annuaires où ces tags se comptent par milliers devenant une foire à tout et surtout au n'importe quoi. Au lancement d'Infinisearch, j'avais proposé cette possibilité et j'ai vite fait marche arrière.

Pour bloquer ces pages, même logique : le fichier robots.txt et/ou la balise meta robots.

Les catégories avec pager

J'avoue que jusqu'à pas plus tard que vendredi, j'indexais ces pages. Mais un tweet de Sylvain, m'a fait me poser la question quant à l'utilité d'indexer toutes les pages d'une même catégorie (ou des pages suivantes d'une home dans le cas d'un blog). J'aime bien son approche qui consiste à dire qu'il est préférable de se concentrer sur les articles (le véritable contenu) plutôt que les catégories. J'ai donc regardé ce que Google avait indexé pour ce blog dont la home fonctionne avec un pager :

Indexation de plusieurs pages

Effectivement, je ne vois pas ce que j'ai à y gagner d'indexer toutes les pages depuis la home (au total 21). Ceci étant, il faut laisser les moteurs de recherche suivre les pages pour indexer le contenu profond mais rien de plus. Sur Infinisearch c'était encore plus flagrant à mes yeux puisque certaines catégories contenaient jusqu'à 75 pages.

Dans ce cas précis, le mieux est d'utiliser la meta robots comme suit pour toutes les pages au delà de la première tout en permettant aux moteurs de suivre les liens présents dans celles-ci :

<meta name="robots" content="noindex" />

Les catégories vides

Qui n'a pas découvert un annuaire ou un site de publication d'articles avec toutes les catégories visibles, donc accessibles, depuis une box alors qu'elles ne possédaient aucun contenu autre qu'un message signalant qu'il n'y avait aucun contenu.

Généralement, ce sont des SEO qui lancent ce type de sites, donc respecter les bases me semblent important. OK, c'est plus complexe car il faut soit :

  • Masquer la catégorie sans contenu
  • Rendre la page non indexable tant qu'elle n'a pas de contenu

Je dis plus complexe car dans de nombreux cas, le script utilisé ne le permet pas en natif. Il faut donc se retrousser les manches et mettre les mains dans le cambouis.

Les mentions légales

Bien que cette page soit obligatoire et correctement renseignée, il arrive dans certains cas de ne pas avoir envie de la voir apparaitre dans les moteurs de recherche. Vous n'avez pas une idée ? Dans le cas d'un réseau de sites, afficher le lien en footer ou dans une box est une chose, la rendre indexable permettra de vous pister.

La raison ? Généralement, vous n'allez pas réécrire le contenu de cette page. En tout cas, je ne le fais pas. Je préfère mettre un noindex sur celle-ci.

La page Contact

Tout dépend du contenu de cette page. Si elle contient un texte de présentation de votre entreprise ou vos coordonnées, il est judicieux de la rendre indexable. Dans le cas contraire, quel intérêt d'indexer 5 pauvres champs ? La question est à se poser pour tous les formulaires que vous proposez sur votre site Internet.

Je conseille toutefois de proposer toutes les informations utiles sur cette page pour permettre au visiteur de mieux vous connaitre et de vous contacter rapidement, d'autant plus si vous proposez vos services. Là aussi, cela dépend du site. Pour un réseau, autant la masquer des yeux indiscrets.

L'espace-membre

Normalement la question ne devrait pas se poser, un espace-membre ne doit pas être indexable. Si le boulot est bien fait, il n'est pas possible d'y accéder sans renseigner un login ou un mot de passe. Je me suis récemment occupé de la refonte d'un site qui tournait sous Drupal dont la page de connexion à l'administration était indexée (et super mal protégée puisque j'ai pu accéder à l'admin sans identifiant).

Voici un exemple de pages de connexion indexées : https://www.google.fr/search?q=allintitle%3AConnexion+%C3%A0+l%27espace+membre

Pour une page d'inscription à des services que vous proposez, le cas est différent. C'est l'occasion d'y rédiger un texte percutant pour attirer de nouveaux membres ou de nouveaux clients. Il est donc essentiel que ce texte soit présent dans les moteurs de recherche.

Je pense avoir fait le tour des principaux exemples. Si vous en avez d'autres auxquels je n'ai pas pensé, n'hésitez pas à les partager dans les commentaires.

L'image adorable du robot est une photo sous licence CC BY NC SA de Johnson Cameraface

Catégorie Référencement - Écrit par le 21/09/2014 - Article lu 2 273 fois - 10 commentaires

10 réflexions sur ce billet

Hello Hervé, alors pour les tags je suis du même avis que Daniel mais à la seule condition qu'ils soient gérés correctement. A savoir que ce ne soit pas un simple agrégat d'extraits (ou pire) d'articles. Il faut un vrai contenu à valeur ajoutée en plus.

Il m'est arrivé par exemple lors d'un audit, de voir qu'un site avait 3700 tags différents. Nul besoin de dire que la valeur ajoutée tu pouvais toujours la chercher. Ex de page tag "10euros" : c'était un très gros site high-tech qui une fois avait traité d'un produit à 10€ et l'un des rédacteurs a cru bon d'en faire un tag. D'ailleurs, cela a été le seul et unique article. Mais bon, tout ceci est aussi valable pour les catégories.

Pour moi le raisonnement est simple, pour savoir si une page doit être indexée, tu regardes si elle apporte quelque chose au visiteur et si elle a un apport en unicité. Tu évites ainsi les risques, après tu agis en connaissance de cause (ou pas d'ailleurs pour certains).

Pour le reste je suis d'accord sauf la page contact. Perso je ne l'indexe jamais, c'est dans 99% du temps une page pauvre.

Écrit par Magicyoyo du site http://www.naunaute.com/
Le 22/09/2014 à 11h27

Pour la page contact, je penche également pour l'indexation, en particulier si elle contient l'adresse et que le site vise aussi un référencement local.

Écrit par Aurélien du site http://www.e-influence.fr/
Le 22/09/2014 à 11h41

Je n'ai aucun souci à indexer les mentions légales et la page de contact (bien au contraire pour cette dernière), le tout est de ne pas forcément y envoyer énormément de popularité.
Pour la pagination, je te rejoins sur la page d'accueil, par contre sur les catégories profondes, cela peut faire sens, tout dépendra de la construction du site. ;)

Écrit par Ponger du site http://antoinesacco.fr/
Le 22/09/2014 à 12h07

Perso, je mettrais que de la meta robots, le robot.txt n'empêche pas l'indexation et mettre les deux ne sert à rien puisque robot.txt bloque le crawler sans qu'il puisse voir l'en tête http. D'accord avec moi ?

Écrit par Astrid du site http://www.synoptim.fr/
Le 23/09/2014 à 12h09

Je suis d'accord avec Ponger : si la balise méta robots est fiable à 100%, le fichier Robots.txt l'est beaucoup moins car il est juste indicatif pour Google. Concernant la page Mentions légales, j'interdis son indexation sinon elle peut parfois apparaître dans les SERP. et comme porte d'entrée pour un site, ce n'est pas l'accès le plus "sexy" ni le plus direct !

Plutôt que de s'interroger sur les typologies de pages, je pense qu'il faut se poser une seule et unique question : la page indexée apporte t-elle quelque chose à l'internaute ? Si la réponse est non, alors il est inutile de l'indexer.

Écrit par Marie du site http://www.mar1e.fr
Le 24/09/2014 à 14h31

Totalement d'accord avec tes préconisations. Je travaille actuellement sur 2 très gros sites sur lesquels nous passons notre temps à nous demander si nous faisons indexer ou pas certaines pages et à chercher les pages que nous devons désindexer. En desindexant certaines pages on observe une hausse du trafic SEO car nous éliminons les pages à faible contenu unique ou intéressant.

On peut aussi regarder dans les statistiques, si nos URL permettent une bonne segmentation des différentes rubriques du site, si les rubriques qui comprennent beaucoup de pages sont celles qui drainent beaucoup de trafic Google. Si il y a peu de trafic sur certains types de pages alors qu'elles sont très nombreuses, il faut se poser la question de la désindexation.
C'est ainsi que les pages de /tags/ qui sont vite très nombreuses sur un site peuvent être analysées via les statistiques pour savoir si elles font beaucoup de visites via Google. On peut parier que non...

PS : ça doit faire un peu plus de 6 mois que je n'ai pas commenté un blog SEO, je signe mon grand retour chez toi !

Écrit par Hervé
Le 25/09/2014 à 00h18

@Raph : tu cites le cas précis où avec un nombre de tags conséquent, tu as forcément à un moment donné du déchet. Ça demande une gestion ultra rigoureuse que je préfère m'éviter.

@Lionel : pas bête pour la page Contact pour le référencement local.

@Gwaraden : il faut aussi tenir compte du site. Dans le cas d'un annuaire est-ce bien utile d'indexer les pager des catégories.

@Ponger, @Astrid : je n'ai jamais eu ce genre de problème avec le htaccess.

@Mickaël : je suis entièrement d'accord avec toi mais dans ce cas, l'article aurait pu se résumer à seulement trois lignes. :-)

@Marie : Je ne suis pas surpris que cela engendre une hausse de trafic. Et merci pour le PS, ça me fait plaisir. ;)

Écrit par Antoine du site http://soref.fr/
Le 25/09/2014 à 09h25

J'ai remarqué que les pages maigres n'intéressaient pas, de toutes façons, Google. Sur la plupart de petits sites clients, les pages mentions légales, CGU, CGV n'étaient pas indexées, tout comme les pages de type "plan du site" (globales ou intermédiaires à des catégories).

C'est tout à fait vrai qu'un référenceur n'a pas à faire indexer des pages à faible valeur ajoutée à tout prix, la pertinence et la qualité d'un site ne dépendent seulement pas du nombre de pages indexées (fournies par de très nombreux tools et considérés par beaucoup de SEO comme faisant partie des critères de réussite)

Écrit par Frédéric Jutant
Le 01/10/2014 à 09h45

Personnellement je laisse la page Contact indexée sur les petits sites (hors blogs & e-commerce), car c'est typiquement le genre de pages que Google choisi pour ses sitelinks. J'aime à penser en effet qu'un beau lien "Contact" dans les résultats de Google facilite le nombre de conversions et fait bosser mon client.

Et si mon client fait du business grâce à ça, ça me va ! ;)

Les commentaires de ce billet sont fermés

Haut de page