Page de Garde

Modélisation ontologique pour la recherche d'informations : evaluation de la similarité sémantique de textes et application à la détection de plagiats

Type doc. :

Thèses / mémoires

Langue :

Français

Année de soutenance:

2018
Voir Plus

Afficher le Résumé

L'expansion du web et le développement des technologies de l'information ont contribué à la prolifération des documents numériques en ligne. Cette disponibilité de l'information présente l'avantage de rendre la connaissance accessible à tous mais soulève de nombreux problèmes quant à l'accès à l'information pertinente, répondant à un besoin utilisateur. Un premier problème est lié à l'extraction de l'information utile parmi celle qui est disponible. Un second problème concerne l'appropriation de ces connaissances qui parfois, se traduit par du plagiat. L'objectif de cette thèse est le développement d'un modèle permettant de mieux caractériser les documents afin d'en faciliter l'accès mais aussi de détecter ceux présentant un risque de plagiat. Ce modèle s'appuie sur des ontologies de domaine pour la classification des documents et pour le calcul de la similarité des documents appartenant à un même domaine. Nous nous intéressons plus spécifiquement aux articles scientifiques, et notamment à leurs résumés, textes courts, relativement structurés, et en principe suffisamment complets pour permettre à une communauté de lecteurs de juger de leur contenu. Il s'agit dès lors de déterminer comment évaluer la proximité/similarité sémantique de deux articles à travers l'examen de leurs résumés respectifs. Considérant qu'une ontologie de domaine regroupe les connaissances relatives à un domaine scientifique donné, notre processus est basé sur deux actions : (i) Une classification automatique des documents dans un domaine choisi parmi plusieurs domaines candidats. Cette classification est sémantique. Elle détermine le sens d'un document à partir du contexte global (contexte défini par le contenu de tout le document) dans lequel s'inscrit son contenu. La classification telle que nous l'avons définie, permet de représenter le résumé sous forme d'un graphe conceptuel construit à partir de l'ontologie du domaine à laquelle il est rattaché. (ii) Une comparaison des textes réalisée sur la base d'un enrichissement des graphes des résumés. L'enrichissement se fait en deux étapes : Un premier enrichissement est réalisé lors de la construction de ce que nous appelons le périmètre sémantique de chaque résumé sur la base des concepts initiaux de son graphe construit à l'étape de classification. Un enrichissement mutuel est ensuite effectué lors de la comparaison des graphes des résumés. L'évaluation de la similarité entre deux résumés est réalisée sur la base de l'enrichissement et l'appariement de leurs graphes. Plus les graphes sont proches sémantiquement, plus le risque de plagiat est important. La comparaison sémantique des résumés s'appuie sur une segmentation de leur contenu respectif en zones, unités documentaires, reflétant leur structure logique. C'est sur la comparaison des graphes conceptuels des zones analogues que le calcul de la similarité des résumés s'appuie. Notre approche a été évaluée et comparée aux approches conventionnelles grâce aux applications que nous avons développées. Les résultats obtenus montrent l'intérêt de nos propositions pour la classification sémantique des documents d'une part et pour le calcul de la similarité des textes d'autre part.



N° Bulletin Date / Année de parution Titre N° Spécial Sommaire
N° d'Exemplaire / inventaire Cote Localisation Type de Support Type de Prêt Statut Date de Restitution Prévue Réservation
700I/2018/04 700I/2018/04 BIB-TIZI OUZOU / Mag du RDC interne disponible
(2018). Modélisation ontologique pour la recherche d'informations : evaluation de la similarité sémantique de textes et application à la détection de plagiats (Doctorat) . Tizi Ouzou.