Les graphes du web, qu’est-ce c’est ? A quoi servent-ils ? Quels  sont les outils (NodeXL, gephi..) qui exploitent la data ?  Dans un monde numérisé, ou tout se compte, décompte, se regroupe, s’agrège, il est parfois difficile d’avoir une représentation globale de tous ces bruits qui  environnent notre présence sur internet. Représenter des acteurs dans un but analytique, des objets, des contenus et leur interrelation pourrait être un des objectifs de ces projections graphiques, mais pas seulement, le but peut être aussi esthétique, avoir des bulles dessinées au lieu de barres ou autres camemberts cela peut être plus harmonieux.  Je ne vais pas ici faire un tutoriel sur le comment faire de tels graphes (objet d’un post prochain), mais plutôt décrire l’écosystème d’un graphe,  et m’attarder sur le « à quoi cela sert » avec des petits cas pratiques au travers différents outils.

La production de graphes

A partir de stats d’origine variées

A la base,  il faut une source, cela peut être les données issues d’API, de serveurs web (fichiers logs), de statistiques diverses provenant de Google webmaster tool, d’outils de monitoring seo, d’Adwords, Google analytics, ou d’un texte tout simplement. Certaines données collectées pourront même subir un avant tri, avec d’être collectées (comme ceux provenant de fichier journaux d’un hébergement web) à l’aide de scripts qui vont parsés ces statistiques.

Process de création de graphes

Process de création de graphes

Ensuite, selon les objectifs (esthétique, analytique ou les deux)  que l’on souhaite traiter et faire ressortir, un traitement de ces données au préalable sera nécessaire  pour supprimer, agréger, nettoyer les informations superflues.

La production d’un graphe ne la confrontation de plusieurs entités, les  « nœuds »  avec  ce qui peut les relier entre eux, les liens.

Les formats de fichiers à traiter seront le plus souvent sous la forme « .csv ». Il ne restera ensuite plus qu’à les passer à la  moulinette d’outils dédiés à la représentation.

Un exemple ? Tiens, prenons, le cas d’une analyse seo entre les mots clés, et les urls dominantes reliées à ces termes de recherches. Les mots clés ayant le même champ lexical seront agrégés sous forme d’un seul mot clé (nœud 1)   et les urls laissées inchangées (nœuds 2).

entités-du-graphe

entités-du-graphe

A l’aide d’outils intégrés

Par exemple, des applications cloud comme  NameGenWeb peuvent dessiner en 1 clic de souris en se connectant via l’API Facebook, une représentation de cercles d’amis (voir ci-dessous).

Les Graphes appliqués à l’analyse webmarketing

Des Bulles pour le Seo

Analyse textuelle « solaire »

Des applications logicielles dans le domaine de l’analyse peuvent soutenir une réflexion lors de la production d’un texte. Ici, j’ai pris le corps principal d’un article au sujet de l’importance du paramétrage de la balise title lors de la rédaction d’un contenu.

Sur la représentation ci-dessous, plus une référence est répétée, plus la sphère qui la représente est importante en taille. Des entités se forment selon  leur degré de proximité, de points en commun. Ce graphique est orienté, c’est-à-dire lisible selon un ordre avec  une classe centrale, une précédente (à gauche) et une succedante (à droite).

Analyse sémantique d'un texte

Analyse sémantique d’un texte

Le portrait d’une visibilité web

A partir d’un tableau issu de GWT qui récupère les requêtes et les urls les plus populaires (impressions et clics),  un peu d’agrégation sur les mots clés proches lexicalement permet d’avoir une matière prête à être exploitée par la fonctionnalité « graph » dans Google drive via une table de fusion.

Les nœuds en bleus (mots clés)  sont de tailles proportionnelles à leurs impressions, les « nodes » oranges sont le(s) urls qui portent cette notoriété (variable selon leur affichage).

Mots clés et Urls

Mots clés et Urls

Des grappes pour le SEA (Adwords)

A l’aide de Gephi, une application open source dédiée, et de statistiques téléchargées de l’application Adwords sur les types de correspondances des mots clés achetés (large, expression, exacte), une liste de plus de 500 mots clés est passée au crible de l’algorithme  « force atlas 2 ». ..Je remercie au passage Aurélien Berrut du blog  htitipi.com particulièrement pour son tutoriel sur le sujet pas piqué des vers sur le sujet.

Densité Correspondance Mots clés

Densité Correspondance Mots clés

Qu’en ressort-il à première vue ? Tout d’abord que les trois groupes de correspondance ne sont pas de même taille, bon, ok,  pour une découverte…Mais ensuite, que certains mots clés sont employés à la fois en large et en expression (une erreur ? une stratégie ?).

Des sphères pour Google analytics

Une des fonctionnalités souvent oubliées de GA est celle liée aux matrices linéaires ou logarithmiques. Ici, ce sont les canaux d’acquisition apporteurs de trafic (organique, payant, référents, direct, display et social)  qui sont mis  à l’honneur au filtre des nouvelles visites (appelée sessions depuis peu). En un clic, sur l’onglet dédié (voir capture écran), la matrice est en place.  Cela change un peu des traditionnels graphiques à barres.

Bulles et leviers d'acquisition dans GA

Bulles et leviers d’acquisition dans GA

Le social, un bon terreau pour buller..

Les gazoullis agrafés !

Comment se représenter l’écosystème d’un #hashtag sur un sujet ? Avec le plugin NodeXl bien sûr !

Ce plugin demande une autorisation d’accès à votre compte twitter depuis le tableur et rapatrie selon le hastag souhaité, ce qui s’est dit (envoyé, twitté, RT..) et en agrège les valeurs, interprété par un des algorithmes de représentation embarqués.

Une bonne dose de patience pour parer les bugs (sous Windows 7)  de ce plugin gratuit pour Excel (merci 1000 fois aux développeurs), un peu de customisation et en quelques minutes, tout devient clair (ou presque) sur le poids des twittos sur le #semainedigitale.  Il détecte 4 grandes entités par le poids des pointages et la diversité des liens.

Graphe d'un HashTag Twitter

Bruit d’un HashTag Twitter

Facebook coloré

L’application TouchGraph est à l’œuvre. Elle prend la main sur les données d’un compte FB, repère les listes d’amis, les pondères selon le relationnel. Bon rien de rare, un peu égocentrique comme projection, mais bon, cela alimente le sujet. D’autres apps existent comme NameGenWeb sur le même principe.

Cercles et relations Fbook

Cercles et relations Fbook

LinkedIn a tout prévu

LinkedIn Labs n’est pas en reste, il propose via InMaps de vous générer  votre graphe relationnel ..à colorier ! Il détermine des clusters selon le niveau des relations, à vous de les qualifier par des couleurs distinctives.

Clusters LinkedIn

Clusters LinkedIn

GooglePlus ne coince pas non plus la b….

Bon, c’est la fête quand un post est partagé, ok, pas ambitieux le garçon, mais bon, 5 c’est pas « 0 » ! Et puis, c’est pas le  nombre qui compte, la valeur du partageur est plus déterminante, voilà…merci Adelino, Referenceur.be, Sylvain au passage et j’en passe.. Pour juger d’une viralité, il faut faire appel à la fonction « écho » de G+  disponible en haut et à droite de la fenêtre de post.

Viralité Google Plus

Viralité Google Plus

Ces 8  graphes sont donc utiles  pour faire ressortir, aider à l’analyse et embellir la vie du web analyste dans son quotidien.

Des endroits où trouver des  outils et lectures intéressantes