Parce qu’il est impossible de bien travailler sans les bons outils, je souhaite aujourd’hui vous présenter un crawler SEO que j’utilise au quotidien et qui mérite vraiment le détour, j’ai nommé : SEOLYZER.

 

 

Qu’est-ce qu’un crawler SEO ?

Un crawler SEO est un logiciel informatique qui permet de reproduire la manière dont les robots d’exploration tels que Google Bot, explorent votre site, en parcourant l’ensemble des pages, de lien en lien.

Les moteurs de recherche utilisent également des crawlers pour parcourir le web et collecter les informations nécessaires au processus de référencement et classement des pages dans les résultats de recherche.

La différence entre un crawler SEO et un crawler web réside dans le fait que le premier est un outil d’analyse de site, tandis que le second est un programme informatique qui collecte de la donnée sur l’ensemble des pages accessibles sur le web.

SEOLYZER est un crawler SEO. Il vous permet d’effectuer des analyses poussées de votre site, mais ne jouera pas un rôle direct dans l’indexation et le positionnement de vos pages. 

 

Pourquoi crawler son site ?

Si vous êtes déjà un SEO chevronné, il y a peu de doute sur le fait que vous sachiez déjà quel est l’intérêt de crawler son site régulièrement.

Pour les plus novices, je rappelle ici les principales raisons pour lesquelles l’utilisation d’un crawler SEO est indispensable à la bonne exécution de votre métier de référenceur.

Le crawler va vous permettre d’avoir une vision exhaustive de votre site et semblable à celle qu’en ont les moteurs de recherche. Il va explorer toutes les URL de votre site en partant de la page d’accueil, puis en naviguant de lien en lien pour récupérer des informations et les structurer en vue de faciliter votre travail d’analyse.

Le rapport indexation ( Indexability), la base pour vos audits SEO

La notion d’indexation est primordiale en SEO et vous ne devez pas confondre les termes “indexable” et “indexé”.

Une page dite indexable est une page qui remplit tous les critères techniques pour avoir la capacité à se positionner dans les pages de résultats de recherche.

Néanmoins, une page indexable n’est pas forcément indexée.

Le crawler SEOLYZER va vous permettre de vérifier si vos URL sont indexables et non pas si elles sont indexées.

Une page dite indexée est une page déjà présente dans les résultats de recherche. Elle peut-être indexée plus ou moins loin dans les résultats mais, elle est connue de Google et a la capacité de recevoir du trafic.

Pour vérifier si vos URL sont indexées, il faut utiliser un autre outil. Nous ne pouvons que vous recommander l’excellent Isindexed, développé par Stéphane Madaleno, l’un des plus talentueux et des plus gentils SEO Français.  icone coeur dessin à la main

Comment utiliser le rapport Indexability de SEOLYZER pour optimiser votre SEO ?

Le rapport vous propose dans l’item « dashboard », une vue synthétique de l’indexabilité de votre site en générant un graphique qui indique le pourcentage de pages indexables vs celui des pages non indexables. 

À noter, vous pouvez rencontrer l’expression URL compliant vs non compliant. Ça veut dire la même chose, [compliant] étant l’équivalent de [indexable]. 

 

Comment interpréter ce graph dans une logique SEO ? 

La simple consultation du dashboard d’indexabilité de SEOLYZER, nous permet de comprendre que nous avons déjà un gros problème SEO sur ce site ! Vous voyez le problème ? 

67,5 % de pages non indexable vs 32,5 % de pages indexables, WTF ???

La majorité des pages de ce site n’ont pas la capacité à se positionner dans les pages de résultats Google. Elles sont pourtant crawlées par Google Bot. 

Pourquoi faire perdre son temps à Google en lui servant des pages qu’il ne pourra pas référencer pas dans son index ? Dans le jargon professionnel, on appelle ça du gaspillage de budget crawl

Il convient donc de s’interroger sur quelles sont ces pages et la raison pour laquelle elles ne sont pas indexables. 

Bonne nouvelle, nous allons trouver toutes les réponses à nos questions dans notre outil ! 

Pour rappel, une URL indexable ou compliant est une URL qui : 

  • Répond avec un code 200
  • N’est pas bloquée dans le fichier robots.txt, ni avec une directive meta robots noindex ou une directive X-robots-tag
  • Ne contient pas de non-self canonical (une balise canonical qui pointe vers une autre page que celle analysée)

Il faut se rendre dans le rapport [Unindexable URL] pour comprendre ce qui empêche l’indexation de ces pages et surtout vérifier si ce sont des pages qui ont volontairement été paramétrées comme non-indexables par le développeur ou s’il s’agit d’une erreur. 

Vous pourrez alors visualiser en un coup d’œil, les raisons de la non-indexabilité de vos URL.

On remercie au passage Olivier Papon, l’éditeur de Seolyzer qui a le mérite d’avoir développé un tool technique avec une jolie interface user-friendly dont les graphs s’intègrent parfaitement dans vos audits SEO ! 

Bravo à toi Olivier, si tu me lis ! 

Vous pouvez ensuite exporter la liste des Url non indexables au format CSV ou Excel et mettre en place les actions correctives nécessaires pour optimiser le SEO de votre site. 

Si vous avez besoin d’aide pour la mise en place des optimisations, je connais une bonne agence SEO, elle sera ravie de vous accompagner 😉 

Pour l’ensemble des rapports, la fonctionnalité export est disponible et vous permet d’extraire la liste de vos URL accompagnée des données suivantes :

liste non exhaustive :

 HTTP Code
 Depth
 Total time
 Indexable
 Page rank
 Active page
 Title tag
 Meta description
 Meta robots
 Canonical
 H1
 Internal inlinks
 Internal outlinks
 Cross analysis: SEO visits
 Cross analysis: Googlebot hits
 Cross analysis: Googlebot hits

 

Le rapport HTTP Codes

Toujours dans l’onglet [indexability] de l’interface Seolyzer, vous trouvez un rapport sur les codes HTTP. 

Le principe reste le même : 

  • Un joli graph récapitulatif
  • la liste des URL sous forme de tableur exportable en dessous

Rappel sur la signification des principaux codes réponses HTTP

  • 200 : Tout va bien, la page répond, elle est indexable
  • 301 ou 302 : L’Url est redirigée. Elle n’est plus indexable à proprement parlé mais elle peut-être encore indexée 
  • 404 ou 410 : la page n’existe pas sur le serveur
  • 403 : le serveur a compris la requête mais il n’est pas autorisé à l’exécuter
  • 5xx : le problème provient du serveur

Comment exploiter le rapport code réponse de SEOLYZER ?

Dans un monde idéal, l’ensemble des pages web d’un site devraient répondre en 200. Si vous avez un site vitrine d’une dizaine de pages et qu’il n’a pas évolué depuis sa création, c’est peut-être le cas, mais en règle générale ça ne l’est pas. 

Un site internet évolue constamment. Des produits expirés en e-commerce, une restructuration de l’arborescence, un changement de structure d’URL, sont autant de raisons qui peuvent expliquer la présence d’URL qui ne répondent pas en 200 et qui sont présentes dans la structure du site. 

Disclaimer : corriger une dizaine d’URL en 404 sur un site composé de milliers de pages ne va pas booster votre SEO comme jamais ! 

 

En revanche, voici quelques cas d’usages qui expliquent pourquoi ce rapport est utile :

  • Optimiser son maillage interne en corrigeant les liens internes qui pointent vers des URL qui ne répondent pas en 200.
  • Identifier des pages en 404 qui reçoivent du trafic SEO ou des hits Google bot
  • Vérifier sur un site de preprod que le plan de redirections 301 a été correctement implémenté.

Le rapport profondeur de pages (Depth)

Toujours dans le menu  » indexabilité », vous pourrez analyser la profondeur de chacune de vos pages et comment elles sont réparties dans le site. 

Le niveau de profondeur d’une page, correspond au nombre de clics nécessaire pour atteindre la page depuis la page d’accueil.

La page d’accueil étant considérée comme le niveau de profondeur 0

De manière générale, on estime qu’une page située à un niveau de profondeur supérieur à 4 ou 5, ne sera que peu, voire pas du tout explorée. 

Une page non explorée est une page qui aura du mal à être indexée et donc à être positionnée dans les SERP (acronyme de Search Engine Results Pages = page de résultats du moteur de recherche). 

 

Là encore, Seolyzer génère un graph pour illustrer la répartition des pages du site analysé selon leur niveau de profondeur. 

Nous pouvons exporter les données et faire des analyses SEO telles que : 

  • Est-ce que certaines de mes tops fiches produits sont situées à un niveau de profondeur élevé ? 
  • Est-ce que certaines de mes pages profondes reçoivent beaucoup de liens internes ?
  • Est-ce que mes pages importantes, comme, une page de listing produits pour une nouvelle marque ou catégorie de produits reçoivent du trafic SEO et des hits Google Bot ?

Voici donc 3 rapports générés par SEOLYZER, accessibles depuis le menu [indexabilité] de l’interface qui seront utiles pour vos audits et analyses SEO. 

Page Group SET-UP, une fonctionnalité incontournable de seolyzer

L’outil permet de créer des groupes d’URL par pattern. 

  • URL commence par /.*
  • URL contient /.*
  • URL ne contient pas /.*

…Etc

Vous pouvez également utiliser des RegEx – ou expressions régulières – pour regrouper vos URL. 

Préquis pour pouvoir créer vos groupes d’URL :

Avoir fait tourner un crawl complet

 

Quel est l’intérêt de faire des groupes d’URL ? 

Dans le jargon SEO, on parle de catégorisation d’URL.  

Dès lorsque vous travaillez sur un site à forte volumétrie de pages, vous devez catégoriser vos URL. Ce travail de regroupement de pages est moins indispensable pour les petits sites. 

Les catégories d’URL permettent d’obtenir une granularité plus fine dans vos analyses, car vous pouvez isoler vos analyses pour chacun de vos groupes et détecter des freins techniques qui ne concernent peut-être qu’un seul ensemble de pages. 

Comment créer des groupes d’URL ?

Comment je l’explique dans l’article, catégoriser ses URL pour le SEO,  2 types de catégorisation sont souvent nécessaires. 

  1. Catégorisation par template de page (page listing produits, fiche produit, blog post … Etc
  2. Catégorisation par catégorie (les catégories du menu de navigation par exemple)

SEOLYZER permet de créer des sous-segments pour chacun de vos groupes. 

Prenons un exemple pour un site de mode en ligne. 

Nous aurions 2 groupes de pages.

  • Vêtements femme
  • Vêtements homme

Chaque groupe peut-être ensuite sous-segmenté

  • Vêtements femme
    • Robes
    • Chemisiers
    • Pantalons femme
  • Vêtements homme
    • Pantalons homme
    • Bermudas
    • T-shirts et polos

Vous avez compris le principe. 

Comment utiliser les groupes de pages dans SEOLYZER ? 

Visualiser la structure d’un site par catégorie

Une fois, vos groupes crées, SEOLYZER pourra générer un graph qui représente la structure de votre site par catégorie de page. 

Vous pourrez alors identifier rapidement si vos pages de listing produits sont accessibles rapidement depuis la page d’accueil ou est-ce qu’un ensemble de pages est sur-représenté dans les niveaux de profondeur élevés. 

Utiliser la dimension catégorie comme filtre

C’est en utilisant vos catégories d’URL en tant que filtre que vous pourrez exploiter au mieux tout le potentiel de cette fonctionnalité.  

 

Vous pourrez alors analyser :

  • Quelles sont les fiches produits qui reçoivent le plus de liens internes ?
  • Quel est le temps de chargement moyen par template de page ? 
  • Quelle catégorie de produits comporte le moins de pages actives ? 

Les possibilités sont multiples et dépendront des problématiques que vous rencontrez, mais l’idée est de souligner ici l’utilité de la fonction page group set up du crawler. 

SEOLYZER, combien ça coûte ? 

SEOLYZER est tout simplement le meilleur rapport qualité prix du marché ! 

Vous pouvez tester l’outil gratuitement pour 1 site jusqu’à 10 000 URL, c’est déjà pas mal ! 

Ensuite, les abonnements vont de : 

  • 39€ HT / mois pour 3 sites, jusqu’à 100K d’URL
  • 599€ HT / mois pour 50 sites, jusqu’à 4M d’URL

bien sûr des paliers intermédiaires existent ! 

Cet article n’a présenté qu’une partie de l’outil. Sachez que SEOLYZER dispose d’autres fonctionnalités intéressantes, notamment: 

  • Comparaison entre deux crawls
  • Log analyzer
  • Rapport Core Web Vitals

Cet article n’est pas un article sponsorisé et il ne contient aucun lien affilié

Poursuivez votre lecture

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

3 × un =