Méthodes et outils d'exploration multilingue sur internet en vue d'une veille technologique sur un domaine restreint.

Doctorant
Jérôme CHARRON

Directeur de thèse
Christain FLUHR



Les informations accessibles grâce au réseau internet sont très diverses et de qualité très inégales. Elles représentent toutefois une information très utile, à condition de pouvoir traiter un sujet de manière exhaustive, de disposer d'outils de tri et de synthèse de l'information et si on brise la barrière des langues.

Le but de la thèse est d'élaborer, en partant de l'expérience et des outils linguistiques disponibles dans le laboratoire d'accueil, des méthodes et outils d'extraction de l'information la plus exhaustive possible sur un sujet déterminé et assez restreint.

L'extraction ne devra pas se limiter aux pages rédigées en anglais mais traiter au moins les langues dont les ressources linguistiques sont disponibles dans le laboratoire d'accueil (français, anglais, allemand, russe), une étude pour l'extension à d'autres langues sera aussi entreprise.

On comparera l'usage des bases indexant les pages comme ALTAVISTA et une exploration directe des pages (sur un site géographiquement limité). La solution finale pourrait être une combinaison entre une recherche sur serveur de recherche général avec un complément par exploration complémentaire à partir des pages extraites. En particulier, on pourra extraire des pages dans les sites qui ne permettent un accès que par interrogation, pages qui ne peuvent pas être indexées par les systèmes d'exploration généraux qui ont accès aux pages seulement par des liens.

La qualité des systèmes des serveurs qui indexent les pages est leur relative exhaustivité mais cela se fait au détriment de la qualité de l'indexation. Un travail devra être réalisé pour développer par reformulation, à partir des profils définis par les utilisateurs, ...
[Cliquez pour lire la deuxième colonne]

... les termes équivalents et toutes leur formes dans chacune des langues sur lesquelles on veut faire de la recherche.

Le laboratoire d'accueil a commencé à négocier avec DEC (ALTAVISTA) pour disposer d'un accès à leur serveur par ses primitives internes. Un tel accord permettrait d'introduire dans la recherche des optimisations qui ne seraient pas possibles avec le seul dialogue en HTML utilisant les grilles standards d'interrogation.

Le processus d'extraction doit privilégier la minimisation du silence au détriment (éventuellement) du bruit. Cela ne pose pas trop de problèmes, car les documents extraits seront ensuite soumis à une indexation utilisant un traitement linguistique automatique qui permettra d'utiliser de manière beaucoup plus efficace des modèles statistiques destinés à faire apparaître des tendances ou des singularités sur le domaine étudié.

Pour la veille technologique, il est important de voir les évolutions de l'information au cours du temps. Le travail de recherche devra vérifier les évolutions des pages déjà repérées tout en recherchant les nouvelles pages et les nouveaux sites qui traitent le sujet à surveiller.

Les différences seront structurées de telle manière que l'on puisse là aussi en tirer des tendances.

Le laboratoire d'accueil se trouve dans le cadre de la Direction de l'Information Scientifique et Technique d'un grand organisme de recherche public, l'étudiant disposera de tout l'environnement de test sur des besoins réels avec des utilisateurs réels capables d'évaluer l'intérêt et la qualité des résultats.

Inversement, le thésard a la certitude que ses travaux seront utilisés dès qu'une évaluation positive aura été faite des résultats obtenus.