Le modèle vectoriel pour le traitement de documents
Prof. Daniel Memmi, UQAM, Montréal, CANADA
Abstract : we describe the main notions underlying the vector space model for natural language processing and information retrieval. Fundamental concepts of vector space theory will be defined and basic clustering methods will be explained. We show how to apply the vector space model to the most common document processing tasks. We then discuss the problems of the approach, which we finally try to evaluate.
Résumé : nous allons exposer les notions principales du modèle vectoriel pour le traitement du langage naturel et la recherche d’information. Nous décrirons notamment les concepts de base sur les espaces vectoriels et la classification des données, ainsi que les grandes applications du modèle vectoriel au traitement de documents. On discutera aussi des problèmes posés et de la validité de l’approche.
Introduction
Depuis le début des travaux en Traitement Automatique du Langage Naturel (TALN) on a poursuivi des directions de recherche diverses. On peut notamment distinguer des approches numériques s’appuyant sur probabilités et statistique et des approches syntaxiques liées à la théorie des langages formels. On remarque aussi que l’éventail de recherche va de l’analyse détaillée de phrases isolées à des approches plus globales d’un texte dans son ensemble. L’approche dominante en TALN a suivi la tradition linguistique en prenant la phrase comme unité fondamentale d’analyse et de traitement. L’analyse syntaxique de la phrase (en utilisant grammaires formelles et automates) a été le plus souvent considérée comme un préliminaire indispensable à l’interprétation sémantique (voir par exemple Winograd 83 ; Sabah 90 ; Abeillé & Blache 97). Les efforts ultérieurs pour traiter des textes dans leur ensemble se sont heurtés à la somme d’efforts nécessaires dans cette approche pour l’analyse des phrases puis leur intégration en un ensemble cohérent. Dans le même temps se développait une direction de travail relativement indépendante du TALN syntaxique, mais davantage liée aux statistiques et à la recherche documentaire. Elle partait plutôt des nécessités de la classification et recherche de documents (Salton & McGill 83) (Salton & Buckley 94) (Leloup 97), mais aussi de motivations plus générales (Lebart & Salem 94) (Yang 98). D’autre part le renouveau actuel des méthodes de traitement de corpus (T.A.L. 95) (Habert et al. 97) favorise les méthodes numériques. Cette direction numérique est plus proche des mathématiques, et en particulier des probabilités. Plutôt que de construire des structures syntaxiques, on cherche à calculer les probabilités de cooccurrences entre mots ou expressions. Mais on utilise aussi souvent le "modèle vectoriel". C’est ce modèle que nous allons présenter ici, tout en essayant ensuite de le replacer dans le cadre plus large du TALN et de la linguistique. On peut appliquer des modèles numériques à l’analyse de phrases individuelles (Charniak 93) (Manning & Schütze 99). Ainsi les grammaires probabilistes et les modèles de Markov reprennent les notions de grammaires formelles et d’automates, en y rajoutant des probabilités de transition associées aux règles ou aux graphes des automates. Ces modèles sont tout à fait efficaces (notamment en reconnaissance de parole), mais nous ne les détaillerons pas ici. Nous parlerons uniquement de modèles numériques s’appliquant à l’ensemble d’un texte choisi. Dans l’approche vectorielle en effet, on traite non pas des phrases, mais des textes ou des documents dans leur ensemble, en passant par une représentation numérique très différente d’une analyse structurale, mais permettant des traitements globaux rapides et efficaces. L’idée de base consiste à représenter un texte par un vecteur dans un espace approprié, puis à lui appliquer toute une gamme de traitements vectoriels. Pour donner un exemple, une application typique consiste à représenter des documents par des vecteurs calculés à partir des mots les plus significatifs présents dans chaque document. Ces vecteurs sont ensuite regroupés par similarité de manière à classer ensemble les documents traitant des thèmes similaires. Cette classification peut alors servir à l’indexation et à la recherche des documents, mais aussi à l’extraction d’informations plus élaborées. Les notions de vecteur et d’espace vectoriel sont donc fondamentales dans ces méthodes, et nous allons d’abord les préciser. Puis nous passerons aux processus de traitement, et en particulier aux techniques de classification, avant de décrire les grands types d’application. Enfin nous tenterons de discuter et d’évaluer la pertinence de cette approche.
|
Traitement Vectoriel |
