Post image for Initiation Expressions régulières pour google analytics

Initiation Expressions régulières pour google analytics

by on 12 septembre 2012

Abordons avec entrain le sujet des expressions régulières pour l’application Google analytics. Pour les développeurs, les RegEx comme on les appelle, font partie de leur pratique quotidienne. Pour les non développeur, disons, pour les webmarketeurs, dont je fais partie,  le mandarin à côté des regEx,  c’est pichnette ! Donc une petite initiation ne fera pas de mal, car, sans pratique régulière J , il sera difficile de les maitriser. J’expliquerai dans un premier temps leur utilité, puis l’alphabet qui les compose, et enfin donnerai quelques exemples pratiques.

Les ReGeX à quoi cela sert ?

Origine des données

Elles servent à faire correspondre des chaines de texte donc des caractères, des mots, ou des modèles de caractères (un ensemble) sur un flux de données (audience, publicité, sources de trafic, contenus, conversions).  Elles peuvent servir à filtrer, à créer des objectifs, à segmenter, à relooker un flot de clics. Ces données proviennent du code de tracking de GA installé sur les pages d’un site, qui pose des cookies sur le navigateur de l’internaute, mais aussi par les informations indiquées lors de la configuration du compte GA.  Le moteur Rège de Google analytics repose sur une implémentation partielle de PCRE (perl compatible regular expression).  Ces expressions sont donc composées de caractères littéraux (lettres de l’alphabet) mais aussi de méta caractères au nombre de 11 divisés en 4 catégories : Génériques, points d’ancrage, groupes et autre.

Syntaxe (source Google annotée d’éléments supplémentaires)

Caractères littéraux

Ex : « Google »  dans un champ dédié au RegEx dans GA, est une RegEx !

Méta-caractères divisé en 4 catégories (source Google) 

Génériques

1)      .    Fait correspondre un seul caractère, quel qu’il soit (lettre, chiffre ou symbole)   goo.gle correspond à gooogle, goodgle ou goo8gle

2)      *   Fait correspondre à zéro ou à plusieurs éléments précédents  L’élément précédent par défaut est le caractère précédent. goo*gle correspond à gooogle ou goooogle, couplé avec un « .* »  indique de prendre tout ce qui précède.

3)     +   De même que pour l’étoile, sauf que le signe « plus » doit correspondre au moins au dernier élément               goo+gle correspond à goooogle, mais pas à Google.

4)      ?   Fait correspondre à zéro ou à un élément précédent    oran?ge correspond à la fois à orage et à orange

5)      |   Correspond avec l’expression logique « ou » a|b correspond à a ou b

Points d’ancrage

6)      ^   Réclame que vos données soient placées au début de son champ  ^site correspond à site, mais pas à monsite

7)      $   Réclame que vos données soient placées à la fin de son champ  site$ correspond à site, mais pas à siteweb

Groupes

8)      ()   Parenthèses pour créer un élément, au lieu d’accepter les valeurs par défaut Merci (bien|encore) va correspondre à la fois à Mercibien et à Merciencore

9)      []    Crochets afin de créer une liste d’éléments de correspondance   [abc] crée une liste comportant a, b et c

10)   -       Tirets avec des crochets afin d’élargir votre liste   [A-Z] crée une liste pour l’alphabet en majuscule

Autre

\         Transforme un caractère d’expression régulière en caractère standard  monsite\.fr permet d’éviter que le point soit un caractère générique

{m,n} quantificateur borné pour au moins m et au plus n occurrences de ce qui précède (pas documenté dans ga mais fonctionne).

Pratique des expressions régulières dans Google analytics

Cas 1 : Tri simple à partir du rapport contenu > Toutes les pages

Utilisation littérale pour aller chercher un terme parmi une liste d’urls consultées (fig.1)

Seo

Fig. 1 filtreliteral

Filtre

Cas 2 : Filtre et exclusion de cette adresse ip afin de ne pas mesurer l’audience qui provient de cette machine (fig.2)

Méta utilisée : \ et *

192\.168\.0.*

Fig.2 Filtrage adresse Ip

Analyse mots clés

Cas 3 : Allons un petit peu plus loin et essayons parmi une liste de mots clés , de trouver ceux qui font référence au terme « référencement » avec ou sans accent sur le « e »  afin d’avoir un résultat agrégé (fig.3)

Méta utilisée : []

r[e-é]f[e-é]rencement

Fig.3 filtre-mots-cles

Cas 4 : Enfin, je souhaite avoir les mots clés faisant référence au terme (référencement ou seo)

Méta utilisée : |

r[e-é]f[e-é]rencement|seo

Objectif dans GA

Poussons plus loin notre analyse admettons avoir une liste d’urls qui correspondent à une liste de produit d’une même catégorie et en faire un objectif unique Fig.4.

Méta utilisée : \ , [],{}

  • www.domaine.com/categorie1/produit?id=235
  • www.domaine.com/categorie1/produit?id=456
  • www.domaine.com/categorie1/produit?id=154

\/categorie1\/produit\?id=[0-9]{1,}

fig.4 Filtre-Objectif-Ga

Segment personnalisé

Cas 5 : Suivre le trafic de Google image

Cette fois-ci je souhaite retenir le traffic amené par Google image par exemple. Je vais identifier le paramètre  utilisé par Google dans le moteur image lorsque je clique sur l’une d’entre elles et ensuite je l’applique en expression régulière dans GA (Fig.5). C’est la seule difficulté, car pas de méta caractères sont utilisés, uniquement le littéral du paramètres Google.

/imgres

Fig.5 segments-images

Cas 6 : Suivre le trafic des mots clés à rallonge, la long TAIL ou longue traîne (fig.6)

Ici, pas d’expression littérale, car on ne connait pas la donnée source, vu que c’est celle que l’on cherche ! Donc la syntaxe se base sur de l’extraction de caractères avec un arbitrage  sur les espaces situés avant ou après chaque chaîne de caractères.

^\s*[^\s]+\s*$ – 1 mot clé 
^\s*[^\s]+(\s+[^\s]+){1}\s*$ – 2 mots clés
^\s*[^\s]+(\s+[^\s]+){2}\s*$ – 3 mots clés
^\s*[^\s]+(\s+[^\s]+){3}\s*$ – 4 mots clés

fig.61 Décryptage RegEx longue traîne

Dans google anlytics cela donne..(fig. 7)

Fig. 7 Reg-ex-Mots-cles-3-mots

Construire un tunnel de conversion (fig.8)

Répérer ses pages ou urls qui marquent votre panier, voici le principe (adapter la syntaxe au chemin de l’url)

1.     /panier/numérodecommande/
2.     /panier/numérodecommande/vosinformations
3.     /panier/numérodecommande /recap
4.     /panier/numérodecommande/paiement
5.     /panier/numérodecommande/remerciement

RegEx

^/panier/\d+/
^/panier/\d+/vosinformations
^/panier/\d+/recap
^/panier/\d+/paiement
^/panier/\d+/remerciement

fig.8 Tunnel de conversion ga

Analyse sous domaine (filtre avancé)

Analyse sous domaine (si l’on possède  des sous domaines, forum, blog, support) et que l’on souhaite suivre ces sous domaines , il convient de faire un filtre personnalisé. Attention, on veillera à créer un profil dédié sur lequel s’appliquera ce filtre. 2 variables :  Le nom d’hôte « forum » et l’URI  « rubriqueduforum ». Exemple d’url à filtrer : http://forums.mondomaine.fr/forum/rubriqueduforum/ (fig.8)

RegEx : (.*) avec un constructeur (pour associer les 2 champs)

 

Fig.9 Analyse sous domaine

Liens utiles pour les expressions régulières

Articles et documentation :

http://www.seotakeaways.com/regular-expression-guide-for-seos/

http://support.google.com/analytics/bin/answer.py?hl=fr&answer=1034324&rd=1

http://www.lunametrics.com/regex-book/Regular-Expressions-Google-Analytics.pdf (Pratique !)

http://www.regular-expressions.info/ (une bible)

Outils

http://www.zytrax.com/tech/web/regex.htm#experiment

http://gskinner.com/RegExr/ 

Donc , pour résumer, les expresssions régulières , servent à trier, segmenter, et personnaliser les données issues en amont (sur les serveurs comme celui des moteurs de recherche ) et en aval, celles qui proviennent de l’audience de votre propre serveur web. A la semaine prochaine !

Auteur

Maurice Largeron - Consultant Formateur chez MLConseil Connectez vous à mon profil sur Google+

{ 8 comments… read them below or add one }

Jedfolio septembre 17, 2012 à 16 h 20 min

C’est un article comme je les aime : bien détaillé pour comprendre le fonctionnement. Je pensais faire un article dans la même idée avec en plus, les segments avancés… mais je ne sais pas encore si je vais le publier maintenant

Répondre

Largeron septembre 17, 2012 à 16 h 24 min

Merci pour votre visite et votre commentaire, les RegEX sont utiles sur bien des aspects de GA, impatient donc de le découvrir !

Répondre

lereferenceur - blog SEO septembre 18, 2012 à 3 h 03 min

Les regex ne sont pas faciles à maitriser pour les débutants. J’adore ces articles complets qui donnent du concrets. Google Analytics n’est pas facile à prendre en main pour un webmaster débutant, surtout s’il ne connait pas les expressions régulières. Je leur conseille de commencer par la lecture du tutoriel sur le PHP sur le site du zéro. Même si le chapitre des expressions régulières n’est pas très poussé, pour apprendre les bases, c’est excellent.

Répondre

Largeron septembre 18, 2012 à 6 h 16 min

Merci pour ce commentaire, j’ai connu le site du zero à ces débuts, pour appréhender le language php, c’est excellent !

Répondre

Annapurna septembre 19, 2012 à 6 h 14 min

Bonjour, je découvre l’article et le blog.
Merci donc pour cet article simple et clair.
Vu l’intérêt de les utiliser notamment dans Analytics, il était bien temps de reprendre les bases.
Le concept est assez simple mais il y a une logique à intégrer avant d’être à l’aise. Il était grand temps que j’y consacre un moment, l’article tombe à pic :)

Répondre

Largeron septembre 19, 2012 à 6 h 23 min

Merci pour ce commentaire, avec les RegEx , on peut atteindre des sommets ! ;)

Répondre

Cats novembre 29, 2012 à 15 h 56 min

Bonjour,

Merci pour cet article.
Je constate que lorsqu’on utilise les expressions régulières dans les étapes de l’entonnoir de conversion, ces étapes n’apparaissent pas dans le rapport flux de l’objectif. Ave-vous un moyen de contournement?

Répondre

Largeron novembre 29, 2012 à 18 h 53 min

Bonjour, merci pour votre commentaire. Avez-vous testez vos Regex dans GA pour voir si elles sont correctes ( a partir de contenu > champ de recherche > par exemple ?

Répondre

Merci pour le commentaire !

CommentLuv badge

{ 1 trackback }

Previous post:

Next post: