Définition du web sémantique

Par Maurice Largeron

Consultant Formateur Marketing Digital chez MLConseil depuis 2011. Agence Google Partner. Organisme Certifié Qualiopi.

28 juin 2012

Force est de constater que donner du sens aux milliards de documents sur la toile, est un enjeu majeur pour les acteurs de l’internet, en témoigne cet article du wall street journal du 15 mars dernier où Google annonçait que d’ici 2013,  20 % de ses résultats seraient impactés un filtre sémantique. Consultez également cet article sur le sujet. Lorsqu’un humain recherche une information, sa formulation est interprétée par un robot, qui lui répond par une liste de liens menant à de potentielles réponses.   Le moteur de recherche indexe, puis catégorise de mieux en mieux les documents en leur accordant un champ lexical, mais le sens véritable n’est pas encore très bien interprété. Google ne répond pas à la question, mais livre des résultats bruts.  Ce pouvoir de comprendre ce que recherche l’internaute et délivrer la «réponse » constitue l’enjeu du web sémantique.  Une enquête de satisfaction  en 2003 faîte par Nielsen sur les liens sponsorisés comportait une question à choix multiples qui fit ressortir  que 54% des personnes interrogées souhaitaient que les résultats puissent correspondre plus à leurs recherches   et 22% apprécieraient  moins de désordre dans les résultats (fig.1). Cette  lecture « entre les lignes »  des machines et de leurs algorithmes  n’est pas encore acquise et  la sémantique n’en n’est qu’à ses débuts.

Fig.1 Enquête : Quelles voies d’amélioration pour les moteurs de recherche ?

Historique entre indexation, référencement et sémantique

Au début du web grand public, milieu des années 90,  un des moyens de référencer son site, ses documents,  sur des requêtes choisies, consistait à bourrer ses balises méta  de mots clés  (d’une manière  plus ou moins cachée  pour l’utilisateur) et l’affaire était dans le sac. Les moteurs de recherche parcouraient  et   indexaient  le document  et celui qui avait eu la meilleure combinaison passait en tête des résultats de recherche.

Puis est venu le temps, dès le milieu des années 2000, d’une indexation plus intelligente avec l’introduction  dans les algorithmes des moteurs,  de l’indexation sémantique latente (lsi), méthode mathématique datant du milieu des années 60.  Elle  permet une lecture plus fine des textes et  les replace  dans un contexte plus global. L’arrivée de la LSI a changé le métier des référenceurs, qui ont dû adapter leurs tactiques à la nouvelle règle du jeu. Des liens entrants plus finement formulés, dosés, et  placés dans un contenu lié à la thématique et menant sur sujets similaires fut de règle.

Le début de cette décennie marque certainement une nouvelle ère, avec la maturité des réseaux sociaux, où l’interaction humaine sur les contenus, devient quantifiable et donc mesurable, « scorable » pour un algorithme. Bing depuis fin 2011, intègre de plus en plus de filtres liés aux comportements sociaux (historique de recherche,  engagements sur les contenus de Facebook, Twitter) dans son moteur, Google, suit aussi le mouvement avec une préférence pour son réseau social Google plus bien évidemment.

L’émergence de l’html 5 et la maturité des formats de balisage sémantique en microdonnées  selon le standard schema.org tentent de mieux qualifier les documents. Il reste aux moteurs de recherche à les adopter dans leurs résultats (serp : search engine result page).

Dernièrement, Pingouin, le dernier filtre dans l’algorithme Google, lutte contre les machines à produire du lien (linkweel, linkFarm) et souhaite favoriser  le contenu dit “qualitatif et frais”. Mais cela  améliore-t-il pour autant l’expérience utilisateur dans la qualité des résultats face à sa recherche ?

Lancé ce printemps, la sémantique chez google fait un pas de plus avec le knowledge graph , où le moteur peut être capable de répondre à certaines requêtes.

Définition de la sémantique sur internet

Vocabulaire

Tout d’abord replaçons le sujet. La syntaxe intéresse  la grammaire, le champ lexical, lui , l’ensemble des mots se rapportant à une même idée. L’ontologie quant à elle forme un ensemble de  termes et concepts qui représentent  le sens d’un champ d’information  (modèle de données). La sémantique , enfin, constitue l’étude du langage et de ses signes  (mots , expressions, phrases)  : quel  sens réel  se cache derrière les mots  ?

Au niveau du web,  les pages web dont le contenu est balisé en langage html, sont liées par des hyperliens accessibles par des navigateurs. Ces derniers utilisent  le protocole http:// pour dialoguer avec les serveurs informatiques.  Le langage html arrive à sa 5ème version (en maturité actuellement), abordons-le sous l’angle du référencement et de la sémantique.

Sémantique et Seo (référencement)

Organisation de l’information

L’information sur le web est distribuée et peu structurée. Afin de donner  plus de visibilité aux contenus, des éditeurs d’outils  sémantiques (exalead, silverpeas, temis, arisem) peuvent faciliter  la compréhension et le partage des documents sur la toile (voir méthode fig.2)

Fig.2 Méthode de structuration sémantique

Un exemple de réalisation d’une interface sémantique riche avec l’initiative  DBpedia, dont l’objet est de répondre aux questions selon un référentiel structuré et non selon une logique de mots clés (corpus source : wikipédia) ! Nous n’en sommes pas encore là avec notre ami Google  🙂  . Les résultats se composent de liens avec un résumé de présentation (Fig.3).

Fig.3 Moteur DbPédia

Pour un site web par exemple, selon l’ontologie choisie, des métadonnées  (descriptions structurées et normées de la page web annexée au contenu)  vont être implémentées, les documents  seront donc annotés sémantiquement  pour un traitement automatique par les moteurs de recherche.

Tout l’avenir du web sémantique se focalise donc sur cet aspect, trouver un référentiel  universel qui puisse faciliter la collaboration, le partage du savoir.

Language Html

L’html en lui-même n’est pas producteur de sémantique au sens pur, ses balises n’apportent pas de « sens «  aux mots mais indiquent leurs caractéristiques. Quatre grandes familles de balises se supportent dans le village html  dont leurs objectifs  sont :

  • De structurer  logiquement le doc.  (tel que titre hn, paragraphes p, tables: table, liste ul ;ol,
  • De le typographier  (comme une mise en valeur, gras b, italique i..
  • D’apporter une indication (ex : emphase strong)
  • De produire des fonctions (div)

Dans un article précédent, je souligne les intérêts du html5 d’un point de vue référencement. Pour résumer ici, l’html 5 (Fig.4 sites d’exemples) apporte une segmentation de page caractérisée, la balise <article> remplacera les <div>, les balises telles que header, footer et nav apportent de la flexibilité dans l’organisation du contenu. Bref, pour présenter un document, l’importance des balises constitue les nœuds de la réussite pour la visibilité d’un site.

Fig.4 Site d’exemple de site en Html 5

Rich Snippet

Implémentés depuis 2009, les rich snippets font couler beaucoup d’encre…sémantique ! C’est un avantage d’utiliser ces microdonnées, elles mettent  en avant le  contenu. Le CTR  (ratio nombre de clics sur affichages) s’en trouve amélioré, plus de clics entraînent par ricochets plus de popularité. 3 formats font partis du standard édicté par schema.org, microdonnées, microformats et Rdfa. Google recommande pour les contenus de type avis conso, présentation de personnes (fig.5) , de produits,  d’entreprises, de recettes, d’évènements et de  musique d’utiliser  le format microdonnées.

Fig.5 Rich Snippet pour la catégorie “auteur”

Outils et  Webographie sur la sémantique

Une meilleure structuration des métadonnées, du contenu du document,  des annotations  , des formats  spécifiques, et  la prise en compte des interactions des lecteurs sur les contenus  aident à apporter du « sens » à l’information.  Reste aux moteurs de recherche à  intégrer ces ingrédients sémantiques dans leurs algorithmes.

A retenir donc que le web sémantique sera le web 3.0 , un web du futur proche où le travail du référenceur  sera celui     d’ enrichir  les contenus afin de valoriser les sens qu’ils contienent, de pousser  (ça c’est déjà fait) au mieux ces documents  face aux requêtes  d’internautes de plus en plus évoluées, de pérenniser leurs valeurs et le tout face à des moteurs de recherche…toujours plus intelligents !

Un jour peut être , Google pourra répondre  à l’épineuse question d’un internaute  : quelle est la couleur du cheval blanc d’Henri IV ? 🙂

En savoir plus sur ce sujet…

Pin It on Pinterest