Page de Garde

Recherche d'information dans les documents XML : modèle basé sur une propagation sélective des termes

Type doc. :

Thèses / mémoires

Langue :

Français

Année de soutenance:

2018
Voir Plus

Afficher le Résumé

C'est dans le contexte de Recherche d'information structurée (RIS) que se situe plus particulièrement la problématique traitée dans cette thèse. Nous nous plaçons plus précisément dans le cadre de documents semi-structurés XML, c'est à dire des documents ne disposant pas d'une structure fixe et homogène, mais au contraire d'une structure flexible ainsi que de contenus hétérogènes. Quel que soit le type de documents que l'utilisateur interroge, ce dernier s'intéresse rarement à une représentation ou à une structuration précise des documents, il veut du contenu. Les documents XML, par leur structure même, doivent permettre aux systèmes de recherche d'informations(SRI) de se focaliser sur l'information pertinente des documents. Les documents peuvent en effet souvent posséder des contenus hétérogènes, délimités grâce à de l'information structurelle. Cette information structurelle peut alors servir aux SRI à traiter l'information textuelle avec une autre granularité que le document tout entier. Leur but est alors de retrouver des unités d'information (et non plus des documents) pertinentes à une requête utilisateur. Ces unités d'information doivent se suffire à elles-mêmes pour répondre à la requête, et pourront être présentées telles quelles à l'utilisateur. En effet, l'information pertinente dans un document peut ne pas être contiguë, elle peut être composée de plusieurs éléments. La problématique principale traitée dans le cadre de cette thèse est comment sélectionner et construire la solution (ensemble d'éléments) répondant à une requête. On ne prend en compte que les requêtes formées de mots clés (CO Content Only). Notre objectif est d'utiliser toutes les sources d'évidences liées au contenu et aux liens entre éléments pour sélectionner les éléments pertinents répondant à la requête. Les liens hypertextes représentent une source d'information fondamentale dans le contexte des documents Web. Ces liens entre documents, expriment une certaine proximité sémantique entre eux, et peuvent de ce fait être exploité dans la recherche d'unités d'information pertinentes répondants aux requêtes utilisateurs. Le but de cette thèse est d'apporter des réponses aux questions de recherche suivantes : Comment représenter la structure des documents ? Comment relier cette structure au contenu du document ? Quels sont les paramètres à considérer pour la discrimination des termes représentatifs des documents ? peut on adapter les algorithmes de la RI sur le web à la RIS ? doit-on considérer comme source d'information les liens entrants ou les liens sortants ou les deux? comment estimer l'importance de ces liens ? y'a-t-il d'autres sources d'informations à considérer pour exploiter la relation sémantique entre documents? Pour répondre aux questions soulevées, nous avons réalisés un certain nombre de travaux qui se résument comme suit : Nous avons proposé une méthode d'indexation de la structure des documents basée sur une propagation de termes des nœuds feuilles vers la racine des documents. L'expérimentation de cette méthode sur une collection de test d'INEX a montré une réelle performance. Nous avons également, proposé diverses formules de pondération en combinant un ensemble de paramètres prédéfinis, que nous avons testé sur la collection INEX pour déduire la meilleure combinaison de paramètres pour la pondération textuelles des documents XML. Nous avons de plus, exploité une autre source d'évidence largement prise en compte sur le web : les liens hypertextes en l'occurrence. A cet effet, nous avons proposé une approche de propagation d'une portion du score d'un document source vers ses voisins, pondéré par l'importance du lien qui les relie. Cette approche permet le réordonnacement d'un ensemble d'éléments pertinents potentiels, renvoyés par une recherche initiale dans les documents XML, en considérant trois sources d'évidence : le score du document source, le score de l'ancre de lien et le score du titre du document cible. Les expérimentations de cette approche menées sur une collection de test INEX ont réalisées de bonnes performances.



N° Bulletin Date / Année de parution Titre N° Spécial Sommaire
N° d'Exemplaire / inventaire Cote Localisation Type de Support Type de Prêt Statut Date de Restitution Prévue Réservation
700I/2018/07 700I/2018/07 BIB-TIZI OUZOU / Mag du RDC interne disponible
Fellag-Berchiche, S. & Boughanem, M. (2018). Recherche d'information dans les documents XML : modèle basé sur une propagation sélective des termes (Doctorat) . Tizi Ouzou .