NLP : trois lettres pour améliorer votre quotidien

Par Benjamin Bruel - Le 16 mars 2022

Avec LumenAI

Accueil > Experts métiers > Tech for Business > NLP : trois lettres pour améliorer votre quotidien

Vous êtes-vous déjà demandé comment l’assistant vocal de votre smartphone ou de votre enceinte connectée parvient à comprendre ce que vous lui demandez ? Comment une application de traduction transforme immédiatement une phrase du français au japonais ? Comment la saisie intuitive du clavier de nos mobiles peut être si efficace ?

Toutes ces innovations reposent sur le Natural Language Processing (NLP), ou traitement du langage naturel en français. Il s’agit d’un champ d’étude pluridisciplinaire à la croisée du machine learning et de la linguistique qui permet aux machines de comprendre notre expression écrite et orale. Le traitement du langage humain par des programmes informatiques présente de nombreuses complexités – mais aussi d’incroyables potentialités permettant d’améliorer notre quotidien. Voyage au pays du NLP avec Amine Medad, Data Scientist chez LumenAI.

Aider les ordinateurs à comprendre les humains

Si l’acquisition du langage est naturelle pour le cerveau humain, elle est d’une grande complexité pour un ordinateur. Un programme informatique nécessite, en effet, l’utilisation d’un langage balisé et strict où chaque instruction correspond à une action. Tout l’inverse de nos expressions humaines, souvent ambiguës, polysémiques ou paradoxales.

Le NLP, c’est donc le traitement informatique de notre langage naturel. « Pourquoi a-t-on besoin de ce traitement au quotidien ? Pour permettre à nos smartphones, ordinateurs et à l’ensemble des outils numériques que l’on utilise de nous comprendre », résume Amine Medad. Les filtres de messagerie, la saisie intuitive, la traduction automatique ou les chatbots : tous reposent au moins en partie sur le NLP.

Comment fonctionne ce traitement ? On peut distinguer trois étapes clés. La première étape est le processus d’apprentissage lexical – ou analyse lexicale. En bref, les experts vont constituer un lexique de mots pour la machine et sa composante grammaticale. « Il s'agit en fait d'une première étape vers un système de recherche d'informations plus sophistiqué, où la précision est améliorée grâce à un étiquetage des parties du discours (part-of-speech tagging) dans l'analyse lexicale », détaille Amine Medad.

Ce qui nous conduit à la seconde étape : l’analyse syntaxique, également appelée analyse de segments. C’est-à-dire la génération de phrases qui font sens à partir du dictionnaire de mots et vis-à-vis de l’utilisation des schémas grammaticaux (comme sujet-verbe-complément) d’une langue donnée. Prenons l’exemple d’un syntagme nominal, soit un groupe de mots formant une unité syntaxique à l'intérieur d’une phrase. « Par exemple, "Métro Jean Jaurès" est un syntagme nominal qui permet d'identifier une station de métro. Dans le domaine de la recherche d'informations, l'analyse syntaxique peut être utilisée pour améliorer l'indexation », explique le Data Scientist.

La phase sémantique, un enjeu pour notre utilisation de la technologie

La troisième et dernière phase est aussi la plus compliquée : l’analyse sémantique permet d’aborder la compréhension du sens et la pertinence des expressions employées. En utilisant des algorithmes pour analyser les mots et la structure des phrases ou en comparant les textes avec des bases de données pour en comprendre le sens, la phase d’analyse sémantique vise à percevoir toutes les nuances de nos expressions.

« C’est la phase la plus complexe, parce qu’on est confronté à une difficulté importante : comment modéliser, exprimer les intentions ? Pour cela, on utilise le word embedding : pour chaque terme du lexique, on associe l’ensemble de la sémantique lié à ce mot sous la forme d’un vecteur, ceci est obtenu par apprentissage non supervisé sur une grande quantité de données textuelles », explique Amine Medad. Autrement dit et en résumé, chaque terme est représenté par un vecteur de nombre réels.

Le sens d’un mot est contextualisé par ceux qui l’entourent, mais aussi par les intentions du locuteur. Le terme « application » peut ainsi faire référence à un logiciel, au fait d’appliquer quelque chose, au fait de réaliser quelque chose avec soin, etc. Tandis qu’une même phrase prononcée différemment peut signifier des choses différentes et posséder des sens implicites.

Améliorer notre quotidien avec l’analyse des sentiments

Ainsi, la modélisation du langage naturel dans toutes ses composantes est encore impossible pour les ordinateurs. Toutefois, si nos assistants vocaux arrivaient à percevoir l’ensemble des sens que l’on donne aux phrases, leur utilisation en serait plus simple, pratique, intuitive pour les utilisateurs.

La compréhension des sentiments et émotions exprimées par le locuteur est également l’un des enjeux du futur. « Certains assistants avancés commencent à percevoir nos émotions, grâce à l’intonation de notre voix notamment », explique Amine Medad. « Dans les conversations textuelles, l’analyse de sentiments est plus complexe – mais c’est l’une des avancées à venir. La détection de controverse, par exemple le fait d’exprimer du positif et du négatif dans une même phrase, est l’un des enjeux. »

Le traitement du langage naturel, déjà présent dans le monde numérique sous de multiples aspects, tend à se perfectionner. Et du même coup, l’usage de la voix et de l’écrit pour guider les machines va être de plus en plus fluide pour les utilisateurs. « Plus on apprend, plus on arrive à améliorer les performances du traitement de langage naturel par les machines », conclut Amine Medad.

Pour en savoir plus sur LumenAI, cliquez ici