Force est de constater que donner du sens aux milliards de documents sur la toile, est un enjeu majeur pour les acteurs de l’internet, en témoigne cet article du wall street journal du 15 mars dernier où Google annonçait que d’ici 2013, 20 % de ses résultats seraient impactés un filtre sémantique. Consultez également cet article sur le sujet. Lorsqu’un humain recherche une information, sa formulation est interprétée par un robot, qui lui répond par une liste de liens menant à de potentielles réponses. Le moteur de recherche indexe, puis catégorise de mieux en mieux les documents en leur accordant un champ lexical, mais le sens véritable n’est pas encore très bien interprété. Google ne répond pas à la question, mais livre des résultats bruts. Ce pouvoir de comprendre ce que recherche l’internaute et délivrer la «réponse » constitue l’enjeu du web sémantique. Une enquête de satisfaction en 2003 faîte par Nielsen sur les liens sponsorisés comportait une question à choix multiples qui fit ressortir que 54% des personnes interrogées souhaitaient que les résultats puissent correspondre plus à leurs recherches et 22% apprécieraient moins de désordre dans les résultats (fig.1). Cette lecture « entre les lignes » des machines et de leurs algorithmes n’est pas encore acquise et la sémantique n’en n’est qu’à ses débuts.
Historique entre indexation, référencement et sémantique
Au début du web grand public, milieu des années 90, un des moyens de référencer son site, ses documents, sur des requêtes choisies, consistait à bourrer ses balises méta de mots clés (d’une manière plus ou moins cachée pour l’utilisateur) et l’affaire était dans le sac. Les moteurs de recherche parcouraient et indexaient le document et celui qui avait eu la meilleure combinaison passait en tête des résultats de recherche.
Puis est venu le temps, dès le milieu des années 2000, d’une indexation plus intelligente avec l’introduction dans les algorithmes des moteurs, de l’indexation sémantique latente (lsi), méthode mathématique datant du milieu des années 60. Elle permet une lecture plus fine des textes et les replace dans un contexte plus global. L’arrivée de la LSI a changé le métier des référenceurs, qui ont dû adapter leurs tactiques à la nouvelle règle du jeu. Des liens entrants plus finement formulés, dosés, et placés dans un contenu lié à la thématique et menant sur sujets similaires fut de règle.
Le début de cette décennie marque certainement une nouvelle ère, avec la maturité des réseaux sociaux, où l’interaction humaine sur les contenus, devient quantifiable et donc mesurable, « scorable » pour un algorithme. Bing depuis fin 2011, intègre de plus en plus de filtres liés aux comportements sociaux (historique de recherche, engagements sur les contenus de Facebook, Twitter) dans son moteur, Google, suit aussi le mouvement avec une préférence pour son réseau social Google plus bien évidemment.
L’émergence de l’html 5 et la maturité des formats de balisage sémantique en microdonnées selon le standard schema.org tentent de mieux qualifier les documents. Il reste aux moteurs de recherche à les adopter dans leurs résultats (serp : search engine result page).
Dernièrement, Pingouin, le dernier filtre dans l’algorithme Google, lutte contre les machines à produire du lien (linkweel, linkFarm) et souhaite favoriser le contenu dit “qualitatif et frais”. Mais cela améliore-t-il pour autant l’expérience utilisateur dans la qualité des résultats face à sa recherche ?
Lancé ce printemps, la sémantique chez google fait un pas de plus avec le knowledge graph , où le moteur peut être capable de répondre à certaines requêtes.
Définition de la sémantique sur internet
Vocabulaire
Tout d’abord replaçons le sujet. La syntaxe intéresse la grammaire, le champ lexical, lui , l’ensemble des mots se rapportant à une même idée. L’ontologie quant à elle forme un ensemble de termes et concepts qui représentent le sens d’un champ d’information (modèle de données). La sémantique , enfin, constitue l’étude du langage et de ses signes (mots , expressions, phrases) : quel sens réel se cache derrière les mots ?
Au niveau du web, les pages web dont le contenu est balisé en langage html, sont liées par des hyperliens accessibles par des navigateurs. Ces derniers utilisent le protocole http:// pour dialoguer avec les serveurs informatiques. Le langage html arrive à sa 5ème version (en maturité actuellement), abordons-le sous l’angle du référencement et de la sémantique.
Sémantique et Seo (référencement)
Organisation de l’information
L’information sur le web est distribuée et peu structurée. Afin de donner plus de visibilité aux contenus, des éditeurs d’outils sémantiques (exalead, silverpeas, temis, arisem) peuvent faciliter la compréhension et le partage des documents sur la toile (voir méthode fig.2)
Un exemple de réalisation d’une interface sémantique riche avec l’initiative DBpedia, dont l’objet est de répondre aux questions selon un référentiel structuré et non selon une logique de mots clés (corpus source : wikipédia) ! Nous n’en sommes pas encore là avec notre ami Google 🙂 . Les résultats se composent de liens avec un résumé de présentation (Fig.3).
Pour un site web par exemple, selon l’ontologie choisie, des métadonnées (descriptions structurées et normées de la page web annexée au contenu) vont être implémentées, les documents seront donc annotés sémantiquement pour un traitement automatique par les moteurs de recherche.
Tout l’avenir du web sémantique se focalise donc sur cet aspect, trouver un référentiel universel qui puisse faciliter la collaboration, le partage du savoir.
Language Html
L’html en lui-même n’est pas producteur de sémantique au sens pur, ses balises n’apportent pas de « sens « aux mots mais indiquent leurs caractéristiques. Quatre grandes familles de balises se supportent dans le village html dont leurs objectifs sont :
- De structurer logiquement le doc. (tel que titre hn, paragraphes p, tables: table, liste ul ;ol,
- De le typographier (comme une mise en valeur, gras b, italique i..
- D’apporter une indication (ex : emphase strong)
- De produire des fonctions (div)
Dans un article précédent, je souligne les intérêts du html5 d’un point de vue référencement. Pour résumer ici, l’html 5 (Fig.4 sites d’exemples) apporte une segmentation de page caractérisée, la balise <article> remplacera les <div>, les balises telles que header, footer et nav apportent de la flexibilité dans l’organisation du contenu. Bref, pour présenter un document, l’importance des balises constitue les nœuds de la réussite pour la visibilité d’un site.
Rich Snippet
Implémentés depuis 2009, les rich snippets font couler beaucoup d’encre…sémantique ! C’est un avantage d’utiliser ces microdonnées, elles mettent en avant le contenu. Le CTR (ratio nombre de clics sur affichages) s’en trouve amélioré, plus de clics entraînent par ricochets plus de popularité. 3 formats font partis du standard édicté par schema.org, microdonnées, microformats et Rdfa. Google recommande pour les contenus de type avis conso, présentation de personnes (fig.5) , de produits, d’entreprises, de recettes, d’évènements et de musique d’utiliser le format microdonnées.
Outils et Webographie sur la sémantique
- Semantic Web wiki donne une liste d’outils http://semanticweb.org/wiki/Tools
- Des extensions existent pour se familiariser avec les formats évoqués plus haut. Pour firefox, par exemple : https://addons.mozilla.org/en-US/firefox/search/?q=semantic&appver=&platform=
- Google propose un outil pour les rich Snippets : http://www.google.com/webmasters/tools/richsnippets
- Editeur d’outils sophistiqués :
- Verticrawl , moteur de recherche http://www.verticrawl.com/fr/search-solution/moteur-recherche-site-search.php
- Temis pour la valorisation des contenus : http://www.temis.com/
- SilverPeas pour la Gestion des contenus : http://www.silverpeas.com/fr/20/ged/
- Petite enquête sur l’impact de la sémantique sur des liens sponsorisés : http://blog.milestoneinternet.com/website-promotion/semantic-search-and-ppc
- Dernier article en anglais sur le blog Google (23/07/2012): http://googlewebmastercentral.blogspot.fr/2012/07/on-web-semantics.html
Une meilleure structuration des métadonnées, du contenu du document, des annotations , des formats spécifiques, et la prise en compte des interactions des lecteurs sur les contenus aident à apporter du « sens » à l’information. Reste aux moteurs de recherche à intégrer ces ingrédients sémantiques dans leurs algorithmes.
A retenir donc que le web sémantique sera le web 3.0 , un web du futur proche où le travail du référenceur sera celui d’ enrichir les contenus afin de valoriser les sens qu’ils contienent, de pousser (ça c’est déjà fait) au mieux ces documents face aux requêtes d’internautes de plus en plus évoluées, de pérenniser leurs valeurs et le tout face à des moteurs de recherche…toujours plus intelligents !
Un jour peut être , Google pourra répondre à l’épineuse question d’un internaute : quelle est la couleur du cheval blanc d’Henri IV ? 🙂