De l'humain à l'ordinateur, ou découvrir le sens d'un texte avec ElasticSearch

Cette sketchnote a été réalisée lors du Forum PHP 2022. Elle illustre la présentation "De l'humain à l'ordinateur, ou découvrir le sens d'un texte avec ElasticSearch" donnée par Mathias Arlaud, qui explore comment ElasticSearch attribue un sens à la donnée textuelle et calcule des scores de pertinence.

Contenu de la présentation

Mathias Arlaud explore comment ElasticSearch attribue un sens à la donnée textuelle en s'appuyant sur des mécanismes mathématiques sophistiqués. Il explique le processus d'analyse qui transforme un texte brut en données exploitables : d'abord un filtre de caractères, puis un générateur de tokens, suivi d'un filtre de tokens pour obtenir un texte nettoyé et analysable.

La présentation détaille la formule de calcul des scores de corrélation :

Score = Σ[TF.IDF].C

Où chaque composant a un rôle précis : TF (Term Frequency) représente la fréquence des termes calculée par √N (racine carrée du nombre d'occurrences), IDF (Inverse Document Frequency) permet de lisser la fréquence des mots dans l'ensemble des documents, et C (Coordination Factor) représente la proportion de mots de la requête présents dans le document. Ces concepts permettent de mieux comprendre comment les ordinateurs interprètent le sens d'un texte et comment optimiser cette compréhension.

Points clés à retenir

Processus d'analyse textuelle : filtre caractères → générateur tokens → filtre tokens → texte nettoyé
Formule de scoring : Score = Σ[TF.IDF].C pour calculer la pertinence des documents
Term Frequency (TF) : fréquence des termes calculée par √N (racine du nombre d'occurrences)
Inverse Document Frequency (IDF) : permet de lisser la fréquence des mots dans l'ensemble des documents
Coordination Factor (C) : proportion de mots de la requête trouvés dans le document, optimise la pertinence