NicoElNino / Shutterstock.com

Le traitement du langage naturel permet aux ordinateurs de traiter ce que nous disons en commandes qu’il peut exécuter. Découvrez comment les bases de son fonctionnement et comment il est utilisé pour améliorer nos vies.


Qu’est-ce que le traitement du langage naturel?

Que ce soit Alexa, Siri, Google Assistant, Bixby ou Cortana, tout le monde avec un smartphone ou un haut-parleur intelligent a un assistant à commande vocale de nos jours. Chaque année, ces assistants vocaux semblent mieux reconnaître et exécuter les choses que nous leur demandons de faire. Mais vous êtes-vous déjà demandé comment ces assistants traitent les choses que nous disons? Ils y parviennent grâce au Natural Language Processing, ou NLP.

Historiquement, la plupart des logiciels n’ont pu répondre qu’à un ensemble fixe de commandes spécifiques. Un fichier s’ouvrira parce que vous avez cliqué sur Ouvrir, ou une feuille de calcul calculera une formule basée sur certains symboles et noms de formule. Un programme communique en utilisant le langage de programmation dans lequel il a été codé, et produira donc une sortie lorsqu’il reçoit une entrée qu’il reconnaît. Dans ce contexte, les mots sont comme un ensemble de différents leviers mécaniques qui fournissent toujours la sortie souhaitée.

Cela contraste avec les langues humaines, qui sont complexes, non structurées et ont une multitude de significations basées sur la structure de la phrase, le ton, l’accent, le timing, la ponctuation et le contexte. Le traitement du langage naturel est une branche de l’intelligence artificielle qui tente de combler cet écart entre ce qu’une machine reconnaît comme entrée et le langage humain. C’est ainsi que lorsque nous parlons ou tapons naturellement, la machine produit une sortie conforme à ce que nous avons dit.

Cela se fait en prenant de grandes quantités de points de données pour dériver le sens des divers éléments du langage humain, en plus des significations des mots réels. Ce processus est étroitement lié au concept connu sous le nom d’apprentissage automatique, qui permet aux ordinateurs d’en apprendre davantage à mesure qu’ils obtiennent plus de points de données. C’est la raison pour laquelle la plupart des machines de traitement du langage naturel avec lesquelles nous interagissons fréquemment semblent s’améliorer avec le temps.

Pour mieux éclairer le concept, examinons deux des techniques les plus avancées utilisées dans la PNL pour traiter le langage et les informations.

EN RELATION: Le problème avec l’IA: les machines apprennent des choses, mais ne peuvent pas les comprendre

Tokenisation

tokenisation traitement du langage naturel

La tokenisation signifie la division du discours en mots ou en phrases. Chaque morceau de texte est un jeton, et ces jetons sont ce qui apparaît lorsque votre discours est traité. Cela semble simple, mais en pratique, c’est un processus délicat.

Supposons que vous utilisez un logiciel de synthèse vocale, tel que le clavier Google, pour envoyer un message à un ami. Vous voulez envoyer un message, « Rencontrez-moi au parc. » Lorsque votre téléphone prend cet enregistrement et le traite via l’algorithme de synthèse vocale de Google, Google doit ensuite diviser ce que vous venez de dire en jetons. Ces jetons seraient «rencontrer», «moi», «à», «le» et «se garer».

Les gens ont des pauses de durée différente entre les mots, et d’autres langues peuvent ne pas avoir très peu de pause audible entre les mots. Le processus de tokenisation varie considérablement entre les langues et les dialectes.

Tige et lemmatisation

La racine et la lemmatisation impliquent toutes deux le processus de suppression des ajouts ou des variations d’un mot racine que la machine peut reconnaître. Ceci est fait pour rendre l’interprétation de la parole cohérente entre différents mots qui signifient tous essentiellement la même chose, ce qui accélère le traitement NLP.

endiguer le traitement du langage naturel

La racine est un processus rapide et brut qui consiste à supprimer les affixes d’un mot racine, qui sont des ajouts à un mot attaché avant ou après la racine. Cela transforme le mot en la forme de base la plus simple en supprimant simplement les lettres. Par exemple:

  • «Marcher» se transforme en «marcher»
  • «Plus vite» devient «rapide»
  • «Gravité» se transforme en «serveur»

Comme vous pouvez le voir, la racine peut avoir pour effet défavorable de changer complètement le sens d’un mot. «Gravité» et «diviser» ne signifient pas la même chose, mais le suffixe «ity» a été supprimé en cours de radicalisation.

D’autre part, la lemmatisation est un processus plus sophistiqué qui implique de réduire un mot à sa base, connu sous le nom de lemme. Cela prend en considération le contexte du mot et la façon dont il est utilisé dans une phrase. Cela implique également de rechercher un terme dans une base de données de mots et leur lemme respectif. Par exemple:

  • «Are» se transforme en «be»
  • «Opération» se transforme en «opération»
  • «Gravité» devient «sévère»

Dans cet exemple, la lemmatisation a réussi à transformer le terme «gravité» en «sévère», qui est sa forme de lemme et son mot racine.

Cas d’utilisation de la PNL et avenir

Les exemples précédents commencent seulement à gratter la surface de ce qu’est le traitement automatique du langage naturel. Il englobe un large éventail de pratiques et de scénarios d’utilisation, dont beaucoup nous utilisons dans notre vie quotidienne. Voici quelques exemples de situations où la PNL est actuellement utilisée:

  • Texte prédictive: Lorsque vous tapez un message sur votre smartphone, il vous suggère automatiquement des mots qui correspondent à la phrase ou que vous avez déjà utilisés.
  • Traduction automatique: Services de traduction grand public largement utilisés, tels que Google Translate, pour incorporer une forme de haut niveau de PNL pour traiter la langue et la traduire.
  • Chatbots: La PNL est le fondement des chatbots intelligents, en particulier dans le service client, où ils peuvent aider les clients et traiter leurs demandes avant de faire face à une vraie personne.

Il y a plus à venir. Les utilisations de la PNL sont actuellement développées et déployées dans des domaines tels que les médias, la technologie médicale, la gestion du lieu de travail et la finance. Il est possible que nous puissions avoir à l’avenir une conversation sophistiquée à part entière avec un robot.

Si vous souhaitez en savoir plus sur la PNL, vous trouverez de nombreuses ressources fantastiques sur le blog Towards Data Science ou le Standford National Langauge Processing Group.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici