Un gros coup de gueule contre le duplicate content

Un gros coup de gueule contre le duplicate content

Une fois n'est pas coutume, je vais pousser un coup de gueule contre les types qui n'hésitent pas à dupliquer le contenu lors de leurs inscriptions diverses.

Un script qui contrôle le duplicate content

Ces types, et là je vais rester poli parce que ce n'est pas ce terme qui me vient à l'esprit en premier lieu, soumettent leur(s) site(s) sur mon annuaire et n'hésitent pas, lors de leurs inscriptions sur d'autres annuaires ou des sites de communiqués de presse, à pomper le texte inséré pour en faire un simple copier-coller.

Suite à une discussion hier soir par Skype avec Olivier, l'administrateur du portail Net-Addict, j'ai décidé de coder un script me permettant de vérifier si les sites inscrits dans l'annuaire ne souffraient pas de duplication de contenus. L'idée venant d'Olivier, je vais adapter le script pour son annuaire ;)

Je vous décris en quelques étapes les actions pour contrôler les sites enregistrés :

A - Les actions automatisées via une tâche cron :

  • Ajout des nouveaux sites validés de la veille dans une nouvelle table (id du site et tag de contrôle)
  • Transformation du code HTML en texte brut
  • Envoi d'une requête vers Google pour vérifier l'éventuelle duplication de contenus
  • Envoi d'un mail à l'administrateur si le duplicate content est suspecté
  • Le premier de chaque mois, tous les sites sont détaggés et testés de nouveau

B - Les actions manuelles :

  • Contrôle du texte (inclus dans le mail) avec l'outil de Positeo car un doute peut subsister
  • Suppression du site dupliqué s'il est effectivement copié
  • Bannissement du membre si c'est un habitué de la duplication (plusieurs sites dans ce cas)

Forcément, j'ai testé le script pour m'assurer qu'in fonctionnait bien et il a détecté pas moins 74 suspicions de duplication de contenus. Mon sang s'est mis à bouillir et j'ai effectué la première étape manuelle sur une dizaine de descriptions qui m'a confirmé ce que le script avait détecté.

Des résultats qui mon scotché sur mon fauteuil

L'annuaire est jeune et 435 sites sont inscrits (au moment de la rédaction de ce billet). Cela représente un taux de 17% de textes copiés à l'identique (ou presque) sur différents portails. C'est tout sauf négligeable.

Je ne vais pas m'étendre sur la nécessité de proposer du contenu unique, Aymeric l'a parfaitement expliqué dans son article "Les annuaires sont nos amis...". Il n'est donc pas nécessaire de tout réexpliquer de nouveau ici. Juste l'essentiel...

Si deux sites ont un contenu identique et que la notoriété du site A est plus importante que celle du site B, les informations du site B seront tout simplement ignorées par les moteurs de recherche.

Lors de l'inscription sur l'annuaire, il est précisé à deux reprises qu'une description unique est exigée. Visiblement, ces petits malins se foutent royalement du service qu'il leur est proposé gratuitement. Je rappelle également que les sites sont contrôlés manuellement avant leur validation.

Certains vont sans doute venir commenter cet article pour nous dire qu'il est difficile de créer 10 contenus différents sans diluer le message initial. Je réponds simplement que si vous n'êtes pas capable de le faire vous-même, faites appel à un rédacteur professionnel. Vous ne souhaitez pas faire l'effort de jouer le jeu, cassez-vous de mon annuaire. Je n'ai pas besoin que des pollueurs viennent saccager mon travail et pourrir l'indexation de mon site dans les moteurs de recherche ! Il y a des règles, elles ne vous plaisent pas, ciao !

C'est terminé de me prendre pour un bisounours

Et je vais être encore plus sévère. Dans les 74 sites qui sont ressortis en duplication, il y a le site d'une agence de référencement. Oui, vous avez bien lu, une agence de référencement. Je ne vais pas citer son nom, parce que cela lui ferait de la pub gratuite, mais elle va se reconnaître rapidement quand elle verra que son site n'est plus présent dans l'annuaire.

Au départ je voulais être gentil. J'avais prévu d'envoyer un mail pour prévenir que le site inscrit sur Infinisearch était dupliqué et qu'il avait été supprimé. Et bien que dalle. Je supprime le site sans aucune sommation et sans prévenir l'intéressé.

Voilà, il fallait que ça explose, l'article a été écrit à chaud, mais il fallait que cela sorte.

Je vais pouvoir valider les sites et les articles en attente et communiquer sur le sujet sur l'annuaire plus calmement.

Comme d'habitude, je vous invite à partager votre expérience ;)

Catégorie Référencement - Écrit par le 06/11/2010 - Article lu 2 222 fois - 23 commentaires

23 réflexions sur ce billet

Hello !

C'est mon tout premier com' ici et je me suis déjà laché sur le pseudo ! :-)

En espérant qu'Hervé ne va pas me dégager à coup de spammeur-bourrin.com aux fesses !

Je partage entièrement ton point de vue sur la question, comme je l'ai déjà fait remarqué dans mes articles dont celui ci :
http://www.webmeimfamous.com/referencement-seo/tutoriel-comment-soumettre-un-site-dans-un-annuaire/

(Hervé, j'espère que tu ne m'en veux pas trop !)

Il ne faut pas (trop) en vouloir aux petits sites internet (maintenus par un petit webmaster ou pas webmaster du tout bien souvent et de plus en plus, vu que les prestations de référencement sont plutôt onéreuses) qui ne connaissent pas les ravages du "duplicate content"... Par contre pas de pitié pour les agences !!

Le problème quant on a un annuaire, on a beau filtrer autant que possible, si le webmaster n'a pas effectué de "duplicate content" AVANT mais APRES avoir inscrit son site web dans notre annuaire, difficile de le dégager par la suite (à moins de contrôler tous les sites x mois après validation, ce qui demande un travail de dingue). A moins d'avoir un super script, ce que tu as l'air d'avoir en ta possession ! :-)

La vie d'un annuaire est cruelle...

@+++

C'est clair y'a des trucs qui énervent parfois :p

Ca fait plusieurs mois que je pense à mettre en place cette vérification du duplicate sur les sites déjà inscrits. Pour la méthode ça va, seulement mes compétences limitées en php font que je repousse sans arrêt. Heureusement que t'es là pour me donner un (très gros) coup de main.
Je vais m'amuser quand le script va commencer à tourner, y'a quand meme près de 2 000 sites inscrits... gros ménage en perspective^^

MERCI A TOI. A s'aider réciproquement sur différents trucs, on obtient un vrai partenariat entre annuairistes ;)

En tant qu'internaute qui inscrit ses sites dans les annuaires, je suis également saoulé de retrouver parfois le même contenu rédigé par mes concurrents alors que j'essaye du mieux que je peux d'éviter toute redite pour interpeller sur une accroche ou une problématique différente les internautes au sein de chaque annuaire que je choisis. Mais je suppose que certains privilégient les outils censés ré-écrire "sans que cela se voit" les contenus automatiquement. A chacun sa gestion du temps.

Écrit par Hervé
Le 06/11/2010 à 17h33

@Florian, pas de problèmes entre nous ;) En tout cas, quand tu participes, tu ne fais pas semblant.

@VeeTouine
Effectivement cela va te créer du travail supplémentaire au quotidien mais c'est malheureusement le prix à payer.

Après le contrôle des sites, je viens de terminer celui des articles. Ca va dégager sec de l'annuaire dans quelques minutes. Et le premier à en faire les frais, c'est une agence qui se dit experte en référencement ;)

@LaurentCW
C'est clair que les concurrents qui copient ton texte, ce n'est pas mieux non plus. Je compatis ;)

Mais ce n'est pas aux annuairistes de faire la police, ce contrôle nous permettra de conserver un contenu unique.

Écrit par cabane dans les arbres du site http://www.location-cabane.net
Le 07/11/2010 à 13h31

Le pire, c'est que ces gens qui copient/collent des dizaines de fois leur description, ça va leur porter préjudice. Au final, pensant gagner du temps, il y a des chances pour qu'il en ai perdu. C'est dommage pour eux et pour les annuairistes qui s'efforcent à faire des sites de qualité.

Bref, tout le monde y perd en faisant ça !

Moi j'en ai marre qu'on me vole des extraits de mes fiches produits pour les placer en copier/coller dans des présentations d'annuaires pour d'autres sociétés que la mienne. C'est vraiment ne pas respecter le travail des autres.

Beaucoup de webmasters ne vont pas prendre la peine de vérifier s'il y des problèmes de contenu dupliqué. Cela passe encore, mais les soumissions automatiques sont encore plus chiantes.

Écrit par Nicolas du site http://www.e-seo.fr
Le 17/11/2010 à 10h01

Bon pour ne pas être bateau en disant que le duplicate c'est mal, etc...

Je me contenterais de dire que cet idée de script est vraiment très bien et devrait être proposé par la majorité des annuaires...

Car il est en effet très simple de valider rapidement un site et d'ensuite, considérant que la soumission est bien validée, pomper la description.

Une des autres solutions est celle de el-annuaire....5 mois de validation ;) ce n'est pas plus optimal, on avait parler sur vuduweb.fr de la possibilité de mettre en place des listes de confiance sur El-annuaire pour réduire ce temps de validation, bref.

Un script automatique, c'est bien mieux !

Écrit par Djolhan du site http://www.hdclic.info/
Le 17/11/2010 à 11h00

Assez d'accord avec toi, j'ai le même genre de problèmes sur notre annuaire, mais partons du principe qu'un gars veuille faire du negative seo sur un site web, il récupère les descriptions de ton annuaire pour les soumettre ailleurs dans le seul but de désindexer le site en question... Je sais, c'est un peu tordu, mais dans ce domaine la, y a des gars qui sont prêts à tout.

Cela dit, si tu connais un script du genre qui tourne sur wordpress, je suis preneur. Ne serais-ce que pour prévenir les webmaster et leur laisser une chance de corriger leur texte par exemple.

Écrit par Hervé
Le 17/11/2010 à 11h08

@Djolhan
J'ai réussi à adapter mon script pour le faire tourner sous un script Joomla pour Net-Addict, non sans mal.

Cela ne devrait pas être difficile de le faire tourner sous WP ;) Ceci étant, je ne ferais pas la démarche pour tout le monde. Ton annuaire étant de qualité, si je peux t'aider, ce sera avec plaisir.

Tu me contactes en privé et on en discute, l'idéal étant par Skype (pseudo : infiniclick) pour que je t'explique en détail.

Écrit par Djolhan
Le 17/11/2010 à 11h46

Contact ajouté :)

Bonjour,

J'ai pris la peine de lire ce billet avant de soumettre 3 sites sur cet annuaire. Je ne suis qu'un amateur webmaster et ne m'occupe que de ces 3 sites, mais j'aimerais en savoir un peu plus sur le fonctionnement de ces scripts.
J'ai récement eu une inscription refusé sur arfooo qui m'accusait de duplicate alors que je n'utilise JAMAIS de copier coller! Par contre, il est évident que même en tapant une description unique, certaines expressions et peut-être même phrases peuvent se retrouver à l'identique en plusieurs lieux!
Forcement, l'originalité à ses limites lorsqu'on ne vend qu'un type de produit.

Alors, comme vous, je m'insurge contre le duplicate, mais je pense aussi qu'un minimum de tolérance est nécessaire. Pensez à nous pauvres "webmasters".

Écrit par Hervé
Le 21/11/2010 à 18h57

@lait d'anesse
Merci d'avoir pris la peine de lire cet article. C'est déjà un point positif.

Ensuite, Infinisearch n'a pas été développé avec un script Arfooo mais c'est un script unique dévéloppé par Infini'click.

Je vous invite à soumettre votre site. Si je détecte une éventuelle duplication de contenus, je vous l'expliquerais en détail ;)

Écrit par Djoko
Le 21/11/2010 à 19h32

Je comprends ce que veux dire, heu, "lait d'anesse" (j'adore ce genre de pseudo...). J'ai récemment soumis un site a un script de vérification de duplicate, ce site parlait de mariage.

Et bien, malgré le fait que ce texte soit rédigé à la mano, on retrouvait effectivement des expressions clé en duplicate, donc, ce n'est pas forcément évident effectivement.

Écrit par Quentin du site http://www.travelnight.fr
Le 23/11/2010 à 15h52

Bonjour,
Je viens de m'apercevoir qu'il y avait un blog pour le moteur, un peu bête de ma part de ne pas y avoir penser avant.
Je ne m'occupe que d'un site, et je suis un tout petit webmaster, un de ceux que dont vous parlez un peu plus haut donc je vous dis ma pensée.

Franchement, je ne vois pas du tout comment sur un texte entre 600 et 1500 caractères en moyenne, on peut faire du duplicate content si on ne fait pas de copier coller. J'ai du faire une 50ene d'annuaires et aucun ne m'a encore fait de réflexion la dessus. Même si certaines de mes phrases sont clairement similaires parfois, sur le texte entier ça diffère forcément. Et puis je suis sûr que vous administrateurs d'annuaire êtes tolérant si ça n'arrive qu'une fois et laissez le concerné tenter à nouveau sa chance.

Quant à supprimer et bannir ceux qui font du duplicate, moi je dis en avant ;) Je suis sûr que tous ceux qui comme moi seront heureux de voir les autres sites nous laisser un peu d'espace et un peu de visibilité supplémentaire en sortant de l'annuaire. En plus ils nous pique de l'espace pour un texte qui ne sert à rien pour le référencement, vu que google ne va pas le prendre en compte enfin bon.

Bon courage à tous et merci pour votre boulot.

Écrit par relaxniky du site http://www.bebesbonheur.com
Le 24/12/2010 à 13h32

Bonjour,

Après toute cette lecture instructive, j'ai une question :

Au 9 février 2010 mon site s'appelait " bebe-bonheur.org " le nom de domaine est encore valide avec une redirection vers le nouveau nom de domaine " bebesbonheur.com" Seul le nom change ; tous les textes de chaque page restent identiques.

Exemple :

Je reprends l'article "les premières dents" (sur le site .com) je le copie dans votre outil de contrôle et j'obtiens "Duplicate content détecté !" je vérifie les résultats sur Google et je vois ce même texte sur "bebe-bonheur.org". «a me parait logique vu ce que j'explique ci-dessus.

Y a t-il une solution ? Comment faire pour que le site en ".org" ne se voit plus sur Internet ?

Merci pour votre aide

@relaxniky
Si tu as un compte Google, connectes toi à Google Webmaster Tools et demande la suppression de ton .org

Écrit par relaxniky du site http://www.bebesbonheur.com
Le 26/12/2010 à 18h09

Merci Hervé pour cette réponse que je viens d'appliquer.
Cordialement

Écrit par Alecsy du site http://www.alecsy.fr
Le 01/01/2011 à 22h33

Comme beaucoup j'ai commencé comme cela, sans temps et sans moyens à copier/coller des contenus. Et je galérais pour référencer des sites.

Je dois avouer que depuis que je référence avec des contenus uniques, cela met plus de temps à la rédaction mais permet de référencer plus vite et plus efficacement.

Sans compter qu'en rédigeant des contenus uniques, on aide les annuaires à être mieux référencés et donc à avoir un meilleur retour de ces annuaires. Donc la boucle est bouclé et tous le monde est content.

Lorsque j'ai ouvert mon site, j'avais ignoré les référencements annuaire, à cause de ces descriptions dupliquées à la louche qui me semblaient sans intérêt. Je redécouvre aujourd'hui les annuaires à description unique, et je vais m'y coller.
Pour reprendre un com précédent, je viens de référencer ici mon blog, avec une description unique. Mais mon site est sur un sujet pointu : j'ai donc utilisé pour ma description dans l'annuaire des mots très présents dans mon blog, et j'ai été suspectée de DC. Mais pas de panique : quelques minutes plus tard, je recevais dans ma boîte mail un mail d'acceptation de mon blog.
Merci pour ces outils et cette réactivité :-)

Écrit par Hervé
Le 18/01/2011 à 12h35

@Cathy B
Quand les annuaires refusent le duplicate content, c'est pour éviter des paragraphes copiés à l'identique. Il est bien évident que l'on retrouve certains mots clés utilisés pour le référencement.

Si le texte est propre et qu'un mot sur deux n'est pas présent sur un autre site, il n'y a aucune raison de le refuser ;)

Je pense que tout repose sur une chose : le travail, c'est la seule façon de référencer correctement un site.
Chacun a sa part de travail à faire, d'un côté, les webmasters d'annuaires veillent à la qualité de ceux ci et d'autre part, les référenceurs consciencieux rédigent des descriptions originales et de qualité.
L'ensemble doit former une osmose, mais là ou ca coince, c'est que d'un coté, beaucoup d'annuairistes négligent leur répertoire et se laissent submerger par bon nombre de soumissions de piètre qualité. De l'autre coté, on voit tellement de webmasters qui s'improvisent référenceurs et se lancent bille en tête ce qui n'a pour effet que de pourrir le contenu des annuaires dans lesquels ils référencent et de saborder le travail de leur confrères plus sérieux.
L'idée de ton script est bonne, je serais même tenté de dire que c'est une des conditions sine qua non si tu veux entretenir ton annuaire sans avoir à passer des heures dessus.
Pour ma part, j'ai fini par ne plus bosser qu'avec des webmasters d'annuaire compétents et réactifs que je connais, je teste en permanence de nouveaux annuaires et certains arrivent à tirer leur épingle du jeu, mais ce sont uniquement les plus rigoureux.

Pour ma part, je trouve que ce n'est pas le duplicate content pur et dur qui est préoccupant. Les annuaires, comme le tien, s'en prémunissent de plus en plus. Ce qui m'inquiète particulièrement c'est l'utilisation grandissante des logiciels de content spinning (réécriture de contenu automatique) qui permettent de passer à travers les mailles du filet des scripts de vérification de duplicate content en remplaçant les mots par des synonymes (ce qui produit la plupart du temps, des phrases totalement incompréhensibles).

L'avenir d'un contenu web riche et original est plus que compromis si vous voulez mon avis.

Aurions-nous d'ores et déjà perdu la guerre face à ces "types là" comme tu le dis si bien dans ton billet Hervé ? ;)

Les commentaires de ce billet sont fermés

Haut de page