Abstract de la publi numéro 12451

La recherche d’information sur documents semi-structurés de type XML (RIS) permet de renvoyer à l’utilisateur des granules documentaires se focalisant sur les besoins exprimés. La requête et les documents structurés pouvant être vus comme des hiérarchies d’éléments imbriqués, nous considérons que leur proximité structurelle peut être évaluée au travers de la similarité entre leurs arborescences respectives. Dans ce cadre, nous proposons un modèle de RIS combinant au calcul de score sur le contenu une mesure de similarité structurelle basée sur la distance d’édition (le coût minimal d’opérations pour transformer un arbre en un autre). Nous propageons et combinons les scores ainsi obtenus en prenant en compte le voisinage de chacun des nœuds dans l’arborescence de nos arbres document. Nous avons évalué notre approche au travers de la tâche SSCAS de la campagne d’évaluation INEX 2005 et nos premiers résultats montrent l’intérêt d’une telle approche.