Le contenu dupliqué, c’est le fléau des webmasters qui acceptent des articles invités sur leur site. Si vous n’êtes pas le seul à écrire sur votre site, que vous avez ouvert votre blog à des autres rédacteurs et que vous êtes adeptes du guest blogging, il va falloir faire attention au contenu dupliqué publié sur votre site. Je ne parle pas ici du contenu que vous pourriez avoir dupliqué vous même, c’est un autre sujet ! On parle bien ici d’un contenu qui pourrait être pompé sur un autre site et publié sur le vôtre : pour éviter la sanction de google ou le coup de gueule d’un autre webmaster, je vous présente aujourd’hui quelques outils capables de trouver du contenu dupliqué, et même fortement inspiré.
Kill Duplicate
C’est un outil que j’utilise depuis quelques années, et qui scanne une page, un texte et qui vous ressort toutes les parties copiées !
Ce n’est pas cher, c’est facile à utiliser et vous pouvez même brancher vos sites pour faire des scans réguliers de vos pages !
Sur killduplicate, vous pouvez :
- scanner vos pages régulièrement que d’autres webmasters ne pompe pas vos contenus
- scanner un texte en one shot, pour vous assurer, avant de publier sur votre site, qu’il n’est pas issu d’un autre site. C’est le cas si vous travaillez avec un nouveau rédacteur par exemple, ou si vous acceptez des articles invités sur votre site
Gloabalement, je suis donc plutôt satisfait par killduplicate, mais ça ne répondait pas complètement à mes attentes : quid du contenu non dupliqué mais vraiment ressemblant ? Comment le détecter ? C’est déjà possible avec les résultats agrégés sur Killduplicate
Même si a priori ça ne gène pas Google, ce n’est pas forcément un contenu unique, parfois copié mais tout juste modifié ou reformulé pour passer entre les mailles du filets !
Je suis parti d’un cas pratique pour trouver le meilleur outil : un webmaster m’a soumis un texte à publier sur un site. Ce texte passait à 100% sur Killduplicate dans les résultats bruts !
Voici le cas de figure, l’article soumis sur mon site :
Comme vous pouvez le constater, il n’y a pas de plagiat en tant que tel, mais j’ai quand même trouvé le site sur lequel le contenu a été copié :
Aux yeux de google a priori, pas de souci, mais pour moi ce n’était pas acceptable : plan identique, texte identique avec seulement des phrases formulées légèrement différemment !
Du coup, j’ai cherché un outil complémentaire, capable non seulement de détecter le contenu dupliquer mais aussi me faire ressortir les URL des pages avec un contenu similaire. Libre à moi ensuite de les lire et de juger si le contenu est vraiment trop proche de celui qui est publié sur mon site web !
Copyleaks
C’est un outil en ligne payant, en anglais et il faut créer un compte pour l’utiliser. Niveau prix, c’est 100$ par an ou 10$ par mois. Il y a une version d’essai qui vous permet de tester l’outil
Ce que j’aime bien avec cet outil, c’est qu’il ressort du contenu similaire, dont la page que j’avais trouvée manuellement dans l’exemple ci dessus ! Il y a un % de copie
Duplicate Checker
Duplicate Checker, alias Plagiarism Checker, est un outil gratuit, qui me ressort 8% de plagiat et 92% de contenu unique sur le même texte. En effet, le rédacteur a eu l’intelligence de laisser un paragraphe identique mot pour mot ! Du coup, je peux analyser les pages que Duplicatechecker a trouvé
Les résultats sont moins bons que sur Copyleaks mais j’ai pu au moins trouver des URLs a examiner pour comparer et en arriver à la même conclusion : c’est un texte dont les idées sont pompées à droite et à gauche !