Accueil >> Articles
Un outil gratuit pour vérifier le duplicate content
Chacun le sait (je l'ai suffisamment répété ici), le duplicate content est néfaste pour les portails et annuaires qui référencent les sites Internet des webmasters. Partant de cette logique, j'ai décidé de développer mon propre outil pour permettre de contrôler votre contenu avant que vous ne le publiez.
Eviter la sandbox à cause du copier-coller
Cet outil n'a rien de révolutionnaire en soit, d'autres très performants existent sur le web et Arf a même intégré dans son script d'annuaire un système qui contrôle le contenu dupliqué au moment de la validation de la soumission.
Alors pourquoi proposer un outil de plus pour vérifier le duplicate content ? Tout simplement pour tenter, je dis bien tenter, de sensibiliser les webmasters pour qu'ils comprennent que personne n'est gagnant lorsqu'un même texte est indexé sur plusieurs sites.

Pour ma part, j'ai fait le choix de proposer d'utiliser librement l'outil au sein même du portail Infinisearch. Un bouton est disponible sur toutes les pages du portail (dans la colonne de droite) et un lien vers l'outil est placé juste au dessus du bouton permettant de valider la soumission d'un site ou d'un article.
Un simple copié-collé - je sais c'est paradoxal de demander ça ;-) - de votre texte dans l'outil vous donnera la possibilité de vérifier qu'il est neuf aux yeux de Google. Quelques secondes supplémentaires suffisent pour un gain énorme en terme de visibilité. Si les portails ne contrôlent pas le duplicate content, c'est la sandbox assurée (déclassement du site dans les résultats) !
Les cordonniers sont les plus mal chaussés
Cela coûte cher à Google d'indexer des milliards de pages et la firme de Mountain View a donc décidé de déclasser les sites dont le contenu est déjà indexé dans son moteur. Voir un annuaire dans la sandbox, c'est autant de temps perdu par les webmasters. Soumettre un site ou un article prend du temps lorsqu'il est rédigé proprement. Donc pourquoi pénaliser les webmasters consciencieux ?
Et pourtant, les pires adeptes de la pratique du duplicate content sont les agences web ou de référencement auxquelles les sociétés confient leur site pour améliorer leur visibilité dans les moteurs de recherche. Je l'ai tout simplement constaté grâce au script qui scanne chaque jour les sites indexés sur le portail Infinisearch. Et comme par hasard, celle que Laurent Bourrelly houspillait sur son blog, s'est faite prendre par le script. Vous me direz, à force ce n'est plus du hasard ;)
D'autres articles à lire sur le même thème :
- Annuaire en duplicate, du vécu !
- Le duplicate content
- Les annuaires sont nos amis...
- Le casse-tête de l'annuairiste
- Duplicate content
Je vous invite donc à utiliser cet outil qui est dans sa première version. J'essayerais de le peaufiner au fil du temps, et sans doute aussi de vos remarques, pour le rendre le plus performant possible afin qu'il trouve sa place dans votre liste d'outils préférés.
Edit du 17/07/2011 : Google a bloqué le service obligeant la fermeture de l'outil - Le lien a été désactivé
Relayer cet article sur les résaux sociaux :
Noter cet article :
28 commentaires :
Le 18/12/2010 à 14h46
Un bel outil SEO performant !
Décidément cela innove chez Infinisearch. Bravo !
Le 18/12/2010 à 18h10
Bravo pour cet outil (et merci pour le lien).
Jusqu'à présent, j'utilisais Copyscape, mais celui là permet de vérifier avant la mise en ligne.
Dès que j'ai un billet qui traitera du dup content, je ne manquerai pas de mentionner ton outil.
Le 18/12/2010 à 18h19
Les agences qui font cela méritent vraiment de se faire épingler afin que leurs méthodes soient connues de leurs clients.
Après coup, je pense que Laurent a eu raison. Il l'ouvre bien plus fort que moi (c'est aussi pour cela que je l'apprécie) et sur ce coup je m'associe à votre dénonciation conjointe.
Il faut vraiment être bourrin pour scier la branche sur laquelle on s'assoit. Il y a vraiment des référenceurs à deux balles.
Le 18/12/2010 à 19h14
Très bel outil, merci pour le partage. Comme l'a dit Laurent, l'outil est vraiment très pratique pour une vérification de duplicate content avant la mise en ligne.
Le 18/12/2010 à 19h55
Merci pour cet outil, cependant quelle différence avec le fait de tester quelques lignes d'un texte dans google ?
Le 18/12/2010 à 20h05
@Sam
A la base, je copiais effectivement dans Google avec son unique ligne ridicule. Mais depuis que je gère un annuaire, quand j'ai des soumissions de 7/8 paragraphes, souvent j'en teste 2 au hasard car c'est vite saoulant du fait de la limitation à 32 mots. Je te parle même pas des mecs qui envoient 600 caractères sans aucun saut de ligne ;)
Maintenant, quand je reçois des soumissions de sites ou d'articles, je peux copier le texte en entier.
Comme je le disais, c'est une première mouture qui reste perfectible ;-)
Le 18/12/2010 à 20h27
Bon juste comme ça j'ai pris le texte de ma home pensait que y aurait quand même pas un boulay pour me piquer ça.
Et vlan !
-http://www.josipe.com/annuaire/f-23180--rarr-consultant-r-eacute-f-eacute-rencement-laurent-bourrelly.html
J'arrête immédiatement de tester ton outil pour ce soir car sinon je sais pertinemment que ça va me gâcher la soirée :D
Le 18/12/2010 à 20h32
@Laurent
Il paraît que les meilleurs sont toujours copiés ;)
J'avais fait le test avec Djolhan et c'est hallucinant le nombre de sites qui copient le texte de sa home.
Idem avec le contenu de chez AxeNet.
Je suis pas pressé d'avoir le site de mon agence en première page :-)
Le 18/12/2010 à 20h39
Effectivement Laurent, quand on s'en préoccupe pas forcément beaucoup, il ne faut pas s'y mettre un samedi soir lol !
Le duplicate est une vrai plaie, autant pour les annuaires que pour les sites que nous créons.
J'en discutais justement avec Sylvain hier soir au téléphone, un texte copié 100 fois, vous le changez, dans les deux semaines qui suivent, lorsqu'on a un bon positionnement bien concurrentiel, vous en avez déjà tout autant qui ont recopié votre nouveau texte.
Une horreur, et le pire, c'est que google gère ca très très mal !
Le 18/12/2010 à 20h45
Je te jure.
Laurent, j'ai regardé chez le pignouf dont tu parlais
-http://www.josipe.com/annuaire/f-8060-creation-site-internet-gt-gt-cr-eacute-ateur-de-sites-web-agence-axenet.html
Le plus rigolo, c'est le tag !
Le 18/12/2010 à 20h48
@Sylvain
Il y en a qui n'ont honte de rien ;)
Le tag en question : messieurs les copieurs
Le 18/12/2010 à 20h51
J'avais fait le test en prenant des articles sur un site de contenu gratuit.
Avec suffisamment de backlinks, ma page remontait nickel devant celle que j'avais pompé.
Antériorité mon cul !
Enfin, ce n'est pas systématique non plus, mais si tu pousses assez fort y a pas trop de souci pour valoriser du dup content.
Est-ce que Julien Callu va être notre prochain "inculte du référencement" ?
Allez juste pour le plaisir :D
http://www.google.com/search?q=st%C3%A9phane+bortzmeyer
Le 18/12/2010 à 21h03
Mon script automatisé vient de détecter un site en DC sur le portail. Et devinez quoi ? C'est encore une agence web qui se fait pincer ;)
Le 19/12/2010 à 00h04
Super ! Je ne savais pas que ce type d'outil existait, merci pour la découverte !
Le 19/12/2010 à 04h56
"Antériorité mon cul !"
Ah ça, il y a un moment que je le dis. Depuis l'apparition du duplicate en 2007 je le constate, mais il y a toujours un petit malin pour dire que non, Google est assez si, assez ça, pour ne pas se faire dupper. Mais rien du tout, leur filtre est complètement bancal et mériterait clairement de grosses correction.
Et ne pas croire que le fait de ne prendre qu'une partie de l'article empèche le duplicate. Un robot ne comprend pas si l'extrait fait parti d'un article copié ou si c'est ce même article qui a copié l'extrait et qui l'a commenté ensuite. Idem pour ceux qui insinuent qu'un simple lien vers la source empèche quoi que ce soit. Exemple très parlant : http://www.ljee.fr/2010/09/danger-copie-contenu/
On va dire coup de bol sur ce coup, je ne disparais pas des SERP, mais reste derrière la copie...
Ce filtre est une véritable catastrophe sérieusement. Des tas de sites se font plomber sans raison, mais comme d'habitude, tu assumes les erreurs des autres, Google est au dessus de tout ça, un peu comme Chuck...
"Enfin, ce n'est pas systématique non plus, mais si tu pousses assez fort y a pas trop de souci pour valoriser du dup content."
Encore une fois totalement d'accord, sans compter qu'il existe quelques techniques pour user de duplicate sans avoir de soucis. Google nous a clairement expliqué comment faire. Faut juste lire un peu entre les lignes. Une des techniques se trouve dans mon article d'ailleurs (lire entre les lignes aussi) ;)
Sur ce, merci Hervé pour ce petit lien vers ma page et joyeux noël à toi aussi :)
Ps : T'es chié de nous coller du calcul mental tout de même en captcha, ça va ce n'est pas trop dur :D
Le 19/12/2010 à 12h04
Merci pour l'outil.
Je viens de le tester et j'ai halluciné sur les résultats.
Je viens de me rendre compte que des textes de mon blog sont repris dans des documents commerciaux d'agences web en PDF ! Sans aucune mention de l'auteur bien sûr...
La journée commence bien...
Le 19/12/2010 à 13h00
Je viens de tester ton outil, mais je ne le trouve pas pertinent.
1: Je teste un texte, l'outil me dit "duplicate contenu".
2: Je teste le meme texte et je retire ma première phrase et l'outil me dit "Aucun duplicate content détecté".
Bilan : l'outil ne va pas encore assez loin pour etre performant à 100%
Ceci dit, merci pour l'article et d'avoir mis a disposition ton outil.
Le 19/12/2010 à 13h07
@Julien
Tu as une URL à me fournir du texte contrôlé ? J'ai checké une partie du texte de la home de ton site. DC détecté et le clic sur le lien vers Google me le confirme. Tu as une filiale de digg-like au Maroc :-)
J'ai moi aussi constaté des différences, je me demande si ce n'est pas en rapport avec l'interrogation du serveur. Je ne cherche pas un excuse, j'essaye de trouver un piste pour améliorer l'outil ;)
A plusieurs reprises j'ai testé mon site, un coup c'est vert, un coup c'est rouge.
Le 19/12/2010 à 15h34
@Hervé : ok, je comprends mieux l'utilité dans ce sens, je vais tester ton outil sur mon annuaire www.ze-pagerank.fr !
Le 19/12/2010 à 18h13
Bon je viens de faire un petit test avec l'outil... avec donc une phrase lambda tout en y incluant le nom d'un de mes sites. Donc à priori cette phrase que j'ai tapé n'est sensé être nulle part... et j'ai un duplicate détecté.
Plus concrètement j'ai prix la description d'un site de jeux que j'ai. Dans un premier temps, j'ai juste changé la place des mots = duplicate content
Bon c'était juste un essai mais bon... J'ai aussi testé "le pape porte la culotte de madonna"... effectivement "aucune duplicate content".
Le 28/12/2010 à 18h10
Un bon outil de la part de notre cher Hervé, qui a, je dois le reconnaitre, que de bonnes idées !
Encore un petit effort pour qu'il soit parfait...
Jusqu'à présent j'utilisais l'outil anti DC de Positeo mais je pense que je vais bientôt finir par utiliser le tien (ou pas ! lol !).
Ahh ces agences web, quelle honte !! (bon je dis pas que de temps en temps un petit DC, cela passe bien, surtout quant on à la flegme)
Le 01/04/2011 à 15h54
Merci de mettre cet outil à notre disposition. Je suis justement à la recherche d'un bon outil qui détecte le duplicate content. Il faut dire qu'avant, personne ne se souciait du DC, maintenant c'est à éviter absolument.
Le 15/04/2011 à 14h43
Je l'ai cherché depuis longtemps, mais enfin voila un outil pour vérifier le duplicate content avant la mise en ligne. Sympa et gratuit en plus. Super merci à vous.
Le 15/04/2011 à 16h41
Mais, en fait, il utilise la syntaxe des guillemets dans Google et compare les différents résultats ?
Perso, j'utilise simplement les guillements sur Google et j'obtiens un résultat assez probant ma foi !
Le 23/04/2011 à 12h11
Bonjour, cet outil tombe à pic pour moi, je cherchais à vérifier mes descriptions pour éviter le duplicate content sur les annuaires, impeccable, merci pour ce logiciel mis à notre disposition.
Le 26/04/2011 à 18h00
Bonjour
Tout d'abord, merci, ça me fait un outil de plus en favori. Par contre, je sais que je suis blindé de duplicate vu que j'ai refait mon site et donc recopié l'ancien et en fait ça détecte pas grand chose. J'ai bien sur quelques DC mais pas autant que ça le devrait.
Cela dit, je me servais de Positeo que tout le monde doit connaître et c'est guère mieux. Pour info, me demandez pas pourquoi je suis pas en Sandbox, j'ai demandé un réexamen chez Google en expliquant mon souci avec mon ancien prestataire.
Au passage, sympa de voir quelques webmestres de blogs ou annuaires ici ou j'ai mes sites inscris. Merci les gars ;)
Ca avait l'air intéressant mais l'url est cassée :(
Le 07/09/2011 à 18h20
@Ludovic : c'est bien pour cette raison que j'ai mis un edit en rouge.
Mais tu as raison, je vais désactiver le lien ;)

- Divers (3)
- Graphisme (1)
- Guest-Blogging (1)
- Insolites (2)
- Internet (12)
- Interviews (2)
- Logiciels (3)
- Matériels (4)
- Référencement (40)
- Réseaux sociaux (5)
- Tutoriels (8)

- Netstorming : la boîte à outils SEO
- Le fight, ça fait du bien
- Les sites de CP, la nouvelle cible de Google ?
- Le script Infinisearch offert !
- Pourquoi j'aime (enfin) Facebook
- Interview de PercevalSEO

- Regis le 17/05/2012 à 01h15
Je confirme. Les types se cassent le bonnet... - Hervé le 16/05/2012 à 21h34
Je rejoins Beunwa sur le principe. Développer un... - beunwa le 16/05/2012 à 18h47
@Raph @Guillaume avant de vous demander si ça... - Raph le 15/05/2012 à 17h57
A lire tous ses commentaires, il faut vraiment... - Guillaume le 14/05/2012 à 10h03
Si cela reste gratuit alors c’est une bonne... - Aurélie le 13/05/2012 à 13h26
Une boite à outils que je teste depuis...


- Lun
- Mar
- Mer
- Jeu
- Ven
- Sam
- Dim
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31

