Mathieu Desnouveaux

De l'humain à l'ordinateur, ou découvrir le sens d'un texte avec ElasticSearch

Présentation sur l'analyse textuelle et les mécanismes de scoring avec ElasticSearch pour l'interprétation automatique du sens au Forum PHP 2022

Sketchnote du Forum PHP 2022 illustrant la présentation "De l'humain à l'ordinateur, ou découvrir le sens d'un texte avec ElasticSearch" par Mathias Arlaud. La schématisation visuelle présente le processus d'analyse textuelle avec les documents et leurs scores, la formule de calcul du score (Score = Σ[TF.IDF].C où N=nombre d'occurrence d'un mot, TF=term frequency=√N, IDF=inverse document frequency permettant de lisser la fréquence des mots, C=coordination factor), et l'analyseur de texte brut avec ses étapes (filtre de caractères → générateur de tokens → filtre de tokens → texte nettoyé).

Cette sketchnote a été réalisée lors du Forum PHP 2022. Elle illustre la présentation "De l'humain à l'ordinateur, ou découvrir le sens d'un texte avec ElasticSearch" donnée par Mathias Arlaud, qui explore comment ElasticSearch attribue un sens à la donnée textuelle et calcule des scores de pertinence.

Contenu de la présentation

Mathias Arlaud explore comment ElasticSearch attribue un sens à la donnée textuelle en s'appuyant sur des mécanismes mathématiques sophistiqués. Il explique le processus d'analyse qui transforme un texte brut en données exploitables : d'abord un filtre de caractères, puis un générateur de tokens, suivi d'un filtre de tokens pour obtenir un texte nettoyé et analysable.

La présentation détaille la formule de calcul des scores de corrélation :

Score = Σ[TF.IDF].C

Où chaque composant a un rôle précis : TF (Term Frequency) représente la fréquence des termes calculée par √N (racine carrée du nombre d'occurrences), IDF (Inverse Document Frequency) permet de lisser la fréquence des mots dans l'ensemble des documents, et C (Coordination Factor) représente la proportion de mots de la requête présents dans le document. Ces concepts permettent de mieux comprendre comment les ordinateurs interprètent le sens d'un texte et comment optimiser cette compréhension.

Points clés à retenir

  • Processus d'analyse textuelle : filtre caractères → générateur tokens → filtre tokens → texte nettoyé
  • Formule de scoring : Score = Σ[TF.IDF].C pour calculer la pertinence des documents
  • Term Frequency (TF) : fréquence des termes calculée par √N (racine du nombre d'occurrences)
  • Inverse Document Frequency (IDF) : permet de lisser la fréquence des mots dans l'ensemble des documents
  • Coordination Factor (C) : proportion de mots de la requête trouvés dans le document, optimise la pertinence
Thèmes:
🐘 PHP 🛠️ Tools
Événement:
🎤 Forum PHP

Source: Mathias Arlaud
Carnet:
📚 Carnet 2022-2023

Cette sketchnote est disponible dans un carnet physique.

Publié le 13 octobre 2022