Abstract de la publi numéro 13479

La recherche d’information structurée (RIS) sur documents de type XML permet de retourner des parties de documents répondant plus précisément aux besoins des utilisateurs. Ces derniers, parfois exprimés sous forme de requêtes structurées, peuvent tout comme les documents être représentés sous forme d’arbres. Notre approche utilise ces représentations arborescentes et mesure la pertinence des éléments XML au travers de la distance d’édition. Cette dernière se définit comme la somme des coûts minimaux d’opérations de suppression, d’insertion et de substitution permettant de rendre les arbres isomorphes. Attribuer un coût à ces opérations a donc une conséquence directe sur la qualité de l’appariement. C’est ce problème que nous nous proposons d’étudier dans cet article. Nous avons évalué notre approche au travers de la tâche SSCAS d’INEX 2005 et sûr la tâche DATACENTRIC d’INEX 2010. Les résultats que nous obtenons montrent son intérêt.