Suivez Infiniclick sur Twitter S'abonner au blog

Accueil >> Articles

Un outil gratuit pour vérifier le duplicate content

Catégorie : Référencement - Ecrit par Hervé le 18/12/2010 - Article lu 1 907 fois - 28 commentaires
Vérifier le duplicate content

Chacun le sait (je l'ai suffisamment répété ici), le duplicate content est néfaste pour les portails et annuaires qui référencent les sites Internet des webmasters. Partant de cette logique, j'ai décidé de développer mon propre outil pour permettre de contrôler votre contenu avant que vous ne le publiez.

Eviter la sandbox à cause du copier-coller

Cet outil n'a rien de révolutionnaire en soit, d'autres très performants existent sur le web et Arf a même intégré dans son script d'annuaire un système qui contrôle le contenu dupliqué au moment de la validation de la soumission.

Alors pourquoi proposer un outil de plus pour vérifier le duplicate content ? Tout simplement pour tenter, je dis bien tenter, de sensibiliser les webmasters pour qu'ils comprennent que personne n'est gagnant lorsqu'un même texte est indexé sur plusieurs sites.

Pour ma part, j'ai fait le choix de proposer d'utiliser librement l'outil au sein même du portail Infinisearch. Un bouton est disponible sur toutes les pages du portail (dans la colonne de droite) et un lien vers l'outil est placé juste au dessus du bouton permettant de valider la soumission d'un site ou d'un article.

Un simple copié-collé - je sais c'est paradoxal de demander ça ;-) - de votre texte dans l'outil vous donnera la possibilité de vérifier qu'il est neuf aux yeux de Google. Quelques secondes supplémentaires suffisent pour un gain énorme en terme de visibilité. Si les portails ne contrôlent pas le duplicate content, c'est la sandbox assurée (déclassement du site dans les résultats) !

Les cordonniers sont les plus mal chaussés

Cela coûte cher à Google d'indexer des milliards de pages et la firme de Mountain View a donc décidé de déclasser les sites dont le contenu est déjà indexé dans son moteur. Voir un annuaire dans la sandbox, c'est autant de temps perdu par les webmasters. Soumettre un site ou un article prend du temps lorsqu'il est rédigé proprement. Donc pourquoi pénaliser les webmasters consciencieux ?

Et pourtant, les pires adeptes de la pratique du duplicate content sont les agences web ou de référencement auxquelles les sociétés confient leur site pour améliorer leur visibilité dans les moteurs de recherche. Je l'ai tout simplement constaté grâce au script qui scanne chaque jour les sites indexés sur le portail Infinisearch. Et comme par hasard, celle que Laurent Bourrelly houspillait sur son blog, s'est faite prendre par le script. Vous me direz, à force ce n'est plus du hasard ;)

D'autres articles à lire sur le même thème :

Je vous invite donc à utiliser cet outil qui est dans sa première version. J'essayerais de le peaufiner au fil du temps, et sans doute aussi de vos remarques, pour le rendre le plus performant possible afin qu'il trouve sa place dans votre liste d'outils préférés.

Edit du 17/07/2011 : Google a bloqué le service obligeant la fermeture de l'outil - Le lien a été désactivé

Relayer cet article sur les résaux sociaux :

   

Noter cet article :

  • Note actuelle 2.00/5
  • 1
  • 2
  • 3
  • 4
  • 5
L'article Un outil gratuit pour vérifier le duplicate content a une note globale de 2.0/5 après 3 votes.

28 commentaires :

Ecrit par Trend de Digg-like
Le 18/12/2010 à 14h46

Un bel outil SEO performant !

Décidément cela innove chez Infinisearch. Bravo !

Ecrit par LaurentB de consultant référencement
Le 18/12/2010 à 18h10

Bravo pour cet outil (et merci pour le lien).

Jusqu'à présent, j'utilisais Copyscape, mais celui là permet de vérifier avant la mise en ligne.

Dès que j'ai un billet qui traitera du dup content, je ne manquerai pas de mentionner ton outil.

Ecrit par Sylvain de sales copieurs
Le 18/12/2010 à 18h19

Les agences qui font cela méritent vraiment de se faire épingler afin que leurs méthodes soient connues de leurs clients.

Après coup, je pense que Laurent a eu raison. Il l'ouvre bien plus fort que moi (c'est aussi pour cela que je l'apprécie) et sur ce coup je m'associe à votre dénonciation conjointe.

Il faut vraiment être bourrin pour scier la branche sur laquelle on s'assoit. Il y a vraiment des référenceurs à deux balles.

Ecrit par Marian de développeur web
Le 18/12/2010 à 19h14

Très bel outil, merci pour le partage. Comme l'a dit Laurent, l'outil est vraiment très pratique pour une vérification de duplicate content avant la mise en ligne.

Ecrit par Sam de creer blog gratuit
Le 18/12/2010 à 19h55

Merci pour cet outil, cependant quelle différence avec le fait de tester quelques lignes d'un texte dans google ?

Ecrit par Hervé
Le 18/12/2010 à 20h05

@Sam
A la base, je copiais effectivement dans Google avec son unique ligne ridicule. Mais depuis que je gère un annuaire, quand j'ai des soumissions de 7/8 paragraphes, souvent j'en teste 2 au hasard car c'est vite saoulant du fait de la limitation à 32 mots. Je te parle même pas des mecs qui envoient 600 caractères sans aucun saut de ligne ;)

Maintenant, quand je reçois des soumissions de sites ou d'articles, je peux copier le texte en entier.

Comme je le disais, c'est une première mouture qui reste perfectible ;-)

Ecrit par LaurentB
Le 18/12/2010 à 20h27

Bon juste comme ça j'ai pris le texte de ma home pensait que y aurait quand même pas un boulay pour me piquer ça.
Et vlan !
-http://www.josipe.com/annuaire/f-23180--rarr-consultant-r-eacute-f-eacute-rencement-laurent-bourrelly.html

J'arrête immédiatement de tester ton outil pour ce soir car sinon je sais pertinemment que ça va me gâcher la soirée :D

Ecrit par Hervé
Le 18/12/2010 à 20h32

@Laurent
Il paraît que les meilleurs sont toujours copiés ;)

J'avais fait le test avec Djolhan et c'est hallucinant le nombre de sites qui copient le texte de sa home.

Idem avec le contenu de chez AxeNet.

Je suis pas pressé d'avoir le site de mon agence en première page :-)

Ecrit par Djolhan
Le 18/12/2010 à 20h39

Effectivement Laurent, quand on s'en préoccupe pas forcément beaucoup, il ne faut pas s'y mettre un samedi soir lol !

Le duplicate est une vrai plaie, autant pour les annuaires que pour les sites que nous créons.

J'en discutais justement avec Sylvain hier soir au téléphone, un texte copié 100 fois, vous le changez, dans les deux semaines qui suivent, lorsqu'on a un bon positionnement bien concurrentiel, vous en avez déjà tout autant qui ont recopié votre nouveau texte.
Une horreur, et le pire, c'est que google gère ca très très mal !

Ecrit par Sylvain
Le 18/12/2010 à 20h45

Je te jure.
Laurent, j'ai regardé chez le pignouf dont tu parlais
-http://www.josipe.com/annuaire/f-8060-creation-site-internet-gt-gt-cr-eacute-ateur-de-sites-web-agence-axenet.html

Le plus rigolo, c'est le tag !

Ecrit par Hervé
Le 18/12/2010 à 20h48

@Sylvain
Il y en a qui n'ont honte de rien ;)

Le tag en question : messieurs les copieurs

Ecrit par LaurentB
Le 18/12/2010 à 20h51

J'avais fait le test en prenant des articles sur un site de contenu gratuit.
Avec suffisamment de backlinks, ma page remontait nickel devant celle que j'avais pompé.
Antériorité mon cul !
Enfin, ce n'est pas systématique non plus, mais si tu pousses assez fort y a pas trop de souci pour valoriser du dup content.

Est-ce que Julien Callu va être notre prochain "inculte du référencement" ?
Allez juste pour le plaisir :D
http://www.google.com/search?q=st%C3%A9phane+bortzmeyer

Ecrit par Hervé
Le 18/12/2010 à 21h03

Mon script automatisé vient de détecter un site en DC sur le portail. Et devinez quoi ? C'est encore une agence web qui se fait pincer ;)

Ecrit par Maximilien de GTA 5
Le 19/12/2010 à 00h04

Super ! Je ne savais pas que ce type d'outil existait, merci pour la découverte !

Ecrit par L.Jee
Le 19/12/2010 à 04h56

"Antériorité mon cul !"

Ah ça, il y a un moment que je le dis. Depuis l'apparition du duplicate en 2007 je le constate, mais il y a toujours un petit malin pour dire que non, Google est assez si, assez ça, pour ne pas se faire dupper. Mais rien du tout, leur filtre est complètement bancal et mériterait clairement de grosses correction.

Et ne pas croire que le fait de ne prendre qu'une partie de l'article empèche le duplicate. Un robot ne comprend pas si l'extrait fait parti d'un article copié ou si c'est ce même article qui a copié l'extrait et qui l'a commenté ensuite. Idem pour ceux qui insinuent qu'un simple lien vers la source empèche quoi que ce soit. Exemple très parlant : http://www.ljee.fr/2010/09/danger-copie-contenu/

On va dire coup de bol sur ce coup, je ne disparais pas des SERP, mais reste derrière la copie...

Ce filtre est une véritable catastrophe sérieusement. Des tas de sites se font plomber sans raison, mais comme d'habitude, tu assumes les erreurs des autres, Google est au dessus de tout ça, un peu comme Chuck...

"Enfin, ce n'est pas systématique non plus, mais si tu pousses assez fort y a pas trop de souci pour valoriser du dup content."

Encore une fois totalement d'accord, sans compter qu'il existe quelques techniques pour user de duplicate sans avoir de soucis. Google nous a clairement expliqué comment faire. Faut juste lire un peu entre les lignes. Une des techniques se trouve dans mon article d'ailleurs (lire entre les lignes aussi) ;)

Sur ce, merci Hervé pour ce petit lien vers ma page et joyeux noël à toi aussi :)

Ps : T'es chié de nous coller du calcul mental tout de même en captcha, ça va ce n'est pas trop dur :D

Ecrit par Ludovic de Consultant e-commerce
Le 19/12/2010 à 12h04

Merci pour l'outil.

Je viens de le tester et j'ai halluciné sur les résultats.

Je viens de me rendre compte que des textes de mon blog sont repris dans des documents commerciaux d'agences web en PDF ! Sans aucune mention de l'auteur bien sûr...

La journée commence bien...

Ecrit par Julien de Julien
Le 19/12/2010 à 13h00

Je viens de tester ton outil, mais je ne le trouve pas pertinent.

1: Je teste un texte, l'outil me dit "duplicate contenu".
2: Je teste le meme texte et je retire ma première phrase et l'outil me dit "Aucun duplicate content détecté".

Bilan : l'outil ne va pas encore assez loin pour etre performant à 100%

Ceci dit, merci pour l'article et d'avoir mis a disposition ton outil.

Ecrit par Hervé
Le 19/12/2010 à 13h07

@Julien
Tu as une URL à me fournir du texte contrôlé ? J'ai checké une partie du texte de la home de ton site. DC détecté et le clic sur le lien vers Google me le confirme. Tu as une filiale de digg-like au Maroc :-)

J'ai moi aussi constaté des différences, je me demande si ce n'est pas en rapport avec l'interrogation du serveur. Je ne cherche pas un excuse, j'essaye de trouver un piste pour améliorer l'outil ;)

A plusieurs reprises j'ai testé mon site, un coup c'est vert, un coup c'est rouge.

Ecrit par Sam de air gratuit
Le 19/12/2010 à 15h34

@Hervé : ok, je comprends mieux l'utilité dans ce sens, je vais tester ton outil sur mon annuaire www.ze-pagerank.fr !

Ecrit par Emile de location en Corse
Le 19/12/2010 à 18h13

Bon je viens de faire un petit test avec l'outil... avec donc une phrase lambda tout en y incluant le nom d'un de mes sites. Donc à priori cette phrase que j'ai tapé n'est sensé être nulle part... et j'ai un duplicate détecté.

Plus concrètement j'ai prix la description d'un site de jeux que j'ai. Dans un premier temps, j'ai juste changé la place des mots = duplicate content

Bon c'était juste un essai mais bon... J'ai aussi testé "le pape porte la culotte de madonna"... effectivement "aucune duplicate content".

Ecrit par Florian de Blog Referencement
Le 28/12/2010 à 18h10

Un bon outil de la part de notre cher Hervé, qui a, je dois le reconnaitre, que de bonnes idées !

Encore un petit effort pour qu'il soit parfait...

Jusqu'à présent j'utilisais l'outil anti DC de Positeo mais je pense que je vais bientôt finir par utiliser le tien (ou pas ! lol !).

Ahh ces agences web, quelle honte !! (bon je dis pas que de temps en temps un petit DC, cela passe bien, surtout quant on à la flegme)

Ecrit par Mirana
Le 01/04/2011 à 15h54

Merci de mettre cet outil à notre disposition. Je suis justement à la recherche d'un bon outil qui détecte le duplicate content. Il faut dire qu'avant, personne ne se souciait du DC, maintenant c'est à éviter absolument.

Ecrit par yourry
Le 15/04/2011 à 14h43

Je l'ai cherché depuis longtemps, mais enfin voila un outil pour vérifier le duplicate content avant la mise en ligne. Sympa et gratuit en plus. Super merci à vous.

Ecrit par LiMo de stylos publicitaires
Le 15/04/2011 à 16h41

Mais, en fait, il utilise la syntaxe des guillemets dans Google et compare les différents résultats ?

Perso, j'utilise simplement les guillements sur Google et j'obtiens un résultat assez probant ma foi !

Ecrit par Nico
Le 23/04/2011 à 12h11

Bonjour, cet outil tombe à pic pour moi, je cherchais à vérifier mes descriptions pour éviter le duplicate content sur les annuaires, impeccable, merci pour ce logiciel mis à notre disposition.

Ecrit par Matériel Médical
Le 26/04/2011 à 18h00

Bonjour

Tout d'abord, merci, ça me fait un outil de plus en favori. Par contre, je sais que je suis blindé de duplicate vu que j'ai refait mon site et donc recopié l'ancien et en fait ça détecte pas grand chose. J'ai bien sur quelques DC mais pas autant que ça le devrait.

Cela dit, je me servais de Positeo que tout le monde doit connaître et c'est guère mieux. Pour info, me demandez pas pourquoi je suis pas en Sandbox, j'ai demandé un réexamen chez Google en expliquant mon souci avec mon ancien prestataire.

Au passage, sympa de voir quelques webmestres de blogs ou annuaires ici ou j'ai mes sites inscris. Merci les gars ;)

Ecrit par Ludovic
Le 07/09/2011 à 18h17
Suivre Ludovic sur Twitter : lucrocops

Ca avait l'air intéressant mais l'url est cassée :(

Ecrit par Hervé
Le 07/09/2011 à 18h20

@Ludovic : c'est bien pour cette raison que j'ai mis un edit en rouge.

Mais tu as raison, je vais désactiver le lien ;)