Post image for Définition du web sémantique

Définition du web sémantique

by on 28 juin 2012

Force est de constater que donner du sens aux milliards de documents sur la toile, est un enjeu majeur pour les acteurs de l’internet, en témoigne cet article du wall street journal du 15 mars dernier ou Google annoncait que d’ici 2013,  20 % de ses résultats seraient impactés un filtre sémantique. Lorsqu’un humain recherche une information, sa formulation est interprétée par un robot, qui lui répond par une liste de liens menant à de potentielles réponses.   Le moteur de recherche indexe, puis catégorise de mieux en mieux les documents en leur accordant un champ lexical, mais le sens véritable n’est pas encore très bien interprété. Google ne répond pas à la question, mais livre des résultats bruts.  Ce pouvoir de comprendre ce que recherche l’internaute et délivrer la «réponse » constitue l’enjeu du web sémantique.  Une enquête de satisfaction  en 2003 faîte par Nielsen sur le liens sponsorisés comportait une question à choix multiples qui fit ressortir  que 54% des personnes interrogées souhaitaient que les résultats correspondent plus à leurs recherches   et 22% appréciaient moins de désordre dans les résultats (fig.1). Cette  lecture « entre les lignes »  des machines et de leurs algorithmes  n’est pas encore acquise et  la sémantique n’en n’est qu’à ces débuts.

Fig.1 Enquête : Quelles voies d'amélioration pour les moteurs de recherche ?

Historique entre indexation, référencement et sémantique

Au début du web grand public, milieu des années 90,  un des moyens de référencer son site, ses documents,  sur des requêtes choisies, consistait à bourrer ses balises méta de son document de mots clés  (d’une manière  plus ou moins cachée  pour l’utilisateur) et l’affaire était dans le sac. Les moteurs de recherche parcouraient  et   indexaient  le document  et celui qui avait eu la meilleure combinaison passait en tête des résultats de recherche.

Puis est venu le temps, dès le milieu des années 2000, d’une indexation plus intelligente avec l’introduction  dans les algorithmes des moteurs,  de l’indexation sémantique latente (lsi), méthode mathématique datant du milieu des années 60.  Elle  permet une lecture plus fine des textes et  les replace  dans un contexte plus global. L’arrivée de la LSI a changé le métier des référenceurs, qui ont dû adapter leurs tactiques à la nouvelle règle du jeu. Des liens entrants plus finement formulés, dosés, et  placés dans un contenu lié à la thématique et menant sur sujet similaire fut de règle.

Le début de cette décennie marque certainement une nouvelle ère, avec la maturité des réseaux sociaux, ou l’humain et son interaction sur les contenus devient quantifiable et donc mesurable, « scorable » pour un algorithme. Bing depuis fin 2011, intègre de plus en plus de filtres liés aux comportements sociaux (historique de recherche,  engagements sur les contenus de Facebook, Twitter) dans son moteur, Google, suit aussi le mouvement avec une préférence pour son réseau social Google plus bien évidemment.

L’émergence de l’html 5 et la maturité des formats de balisage sémantique en microdonnées  selon le standard schema.org tente de mieux qualifier les documents, reste aux moteurs de recherche à les adopter dans leurs résultats (serp : search engine result page).

Dernièrement, Pingouin, le dernier filtre dans l’algorithme Google, lutte contre les machines à produire du lien (linkweel) et souhaite favoriser  le contenu qualitatif et frais. Mais cela va-t-il ou améliore-t-il pour autant l’expérience utilisateur dans la qualité de ses résultats face à sa recherche ?

Lancer ce printemps, la sémantique chez google fait un pas de plus avec le knowledge graph , où le moteur peut être capable de répondre à certaines requêtes.

Définition de la sémantique sur internet

Vocabulaire

Tout d’abord replaçons le sujet. La syntaxe intéresse  la grammaire, le champ lexical, lui , l’ensemble des mots se rapportant à une même idée. L’ontologie quant à elle forme un ensemble de  termes et concepts représentant  le sens d’un champ d’information  (modèle de données). La sémantique , enfin, constitue l’étude du langage et de ses signes  (mots , expression, phrases)  : quel  sens réel  est caché derrière les mots  ?

Au niveau du web,  les pages web dont le contenu est balisé en langage html, sont liées par des hyperliens accessibles par des navigateurs. Ces derniers utilisent  le protocole http:// pour dialoguer avec les serveurs informatiques.  Le langage html arrive à sa 5ème version (en maturité actuellement), abordons le sous l’angle du référencement et de la sémantique.

Sémantique et Seo (référencement)

Organisation de l’information

L’information sur le web est distribuée et peu structurée. Afin de donner  plus de visibilité aux contenus, des éditeurs d’outils  sémantiques (exalead, silverpeas, temis, arisem) peuvent faciliter  la compréhension et le partage des documents sur la toile (voir méthode fig.2)

Fig.2 Méthode de structuration sémantique

Un exemple de réalisation d’une interface sémantique riche avec l’initiative  DBpedia, dont l’objet est de répondre aux questions selon un référentiel structuré et non selon une logique de mots clés (corpus source : wikipédia) ! Nous n’en sommes pas encore là avec notre ami Google  :)  . Les résultats se composent de liens avec un résumé de présentation (Fig.3).

Fig.3 Moteur DbPédia

Pour un site web par exemple, selon l’ontologie choisie, des métadonnées  (descriptions structurées et normées de la page web annexé au contenu)  vont être implémentées, les documents  seront donc annotés sémantiquement  pour un traitement automatique par les moteurs de recherche.

Tout l’avenir du web sémantique se focalise donc sur cet aspect, trouver un référentiel  universel qui puisse faciliter la collaboration, le partage du savoir.

Language Html

L’html en lui-même n’est pas producteur de sémantique au sens pur, ses balises n’apportent pas de « sens «  aux mots mais indiquent leurs caractéristiques. Quatre grandes familles de balises se supportent dans le village html  dont leur objectif est :

  • De structurer  logiquement le doc.  (tel que titre hn, paragraphes p, tables table, liste ul ;ol,
  • De le typographié  (comme une mise en valeur, gras b, italique i..
  • D’apporter une indication (ex : emphase strong)
  • De produire des fonctions (div)

Dans un article précédent, je souligne les intérêts du html5 d’un point de vue référencement. Pour résumer ici, l’html 5 (Fig.4 sites d’exemples) apporte une segmentation de page caractérisée, la balise <article> remplacera les <div>, les balises telles que header, footer et nav apportent de la flexibilité dans l’organisation du contenu. Bref, pour présenter un document, l’importance des balises constituent les nœuds de la réussite pour la visibilité d’un site.

Fig.4 Site d'exemple de site en Html 5

Rich Snippet

Implémenté depuis 2009, les rich snippets font couler beaucoup d’encre…sémantique ! C’est un avantage d’utiliser ces microdonnées, elles mettent  en avant le  contenu. Le CTR  (ratio nombre de clics sur affichages) s’en trouve amélioré, plus de clics entraînent par ricochets plus de popularité. 3 formats font partis du standard édicté par schema.org, microdonnées, microformats et Rdfa. Google recommande pour les contenus de type avis conso, présentation de personnes (fig.5) , de produits,  d’entreprises, de recettes, d’évènements et de  musique d’utiliser  le format microdonnées.

Fig.5 Rich Snippet pour la catégorie "auteur"

Outils et  Webographie sur la sémantique

Une meilleure structuration des métadonnées, du contenu du document,  des annotations  , des formats  spécifiques, et  la prise en compte des interactions des lecteurs sur les contenus  aident à apporter du « sens » à l’information.  Reste aux moteurs de recherche à pouvoir être capable d’intégrer ces ingrédients sémantiques dans leurs algorithmes.

A retenir donc que le web sémantique sera le web 3.0 , un web du futur proche où le travail du référenceur  sera celui     d’ enrichir  les contenus afin de valoriser le sens qu’ils contiennent, de pousser  (ça c’est déjà fait) au mieux ces documents  face aux requêtes  d’internautes de plus en plus évoluées, de pérenniser leurs valeurs et le tout face à des moteurs de recherche…toujours plus intelligents !

Un jour peut être , Google pourra répondre  à l’épineuse question d’un internaute  : quelle est la couleur du cheval blanc d’Henri IV ? :)

Auteur

Maurice Largeron - Consultant Formateur chez MLConseil Connectez vous à mon profil sur Google+

Previous post:

Next post: