Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc.


télécharger 89.99 Kb.
page1/6
typeRésumé
exemple-d.com > documents > Résumé
  1   2   3   4   5   6
Clusterisation du Web en vue d’extraction de corpus homogènes

Camille Prime-Claverie1, Michel Beigbeder1, Thierry Lafouge2
1 RIM, Ecole Nationale Supérieure des Mines de Saint Etienne, 158 cours Fauriel ,42023 Saint Etienne Cedex 2 (France)

2 RECODOC, Université Claude Bernard Lyon 1, 43 bd du 11 novembre 1918, 69622 Villeurbanne Cedex (France)
prime@emse.fr, mbeig@emse.fr, lafouge@enssib.fr

____________________________________________________________________

Résumé
Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. Cependant, les outils de recherche ne prennent pas en compte cette hétérogénéité et ne proposent qu’un accès par mots-clés aux documents du web. Cet article présente une méthode basée sur les hyperliens, permettant d’extraire du graphe Web des sous-corpus de documents homogènes. L’expérience décrite ici utilise la méthode des cocitations et s’intéresse plus spécialement à la notion de genre (type) de document web.

Mots-clés : méthode des cocitations ; graphe Web ; Typologie des pages ; entropie.

____________________________________________________________________

Abstract
Resources available on the Web are more and more different, not only as thematic point, but also as type of document or geographic origin… However, web search engine do not take into account this heterogeneousness and propose only an thematic access by keywords to the documents. This article presents a method allowing to extract homogenous corpus of web documents. This method based on link analysis, uses cocitation method and focus more specially on the notion of genre (kind) of web documents.

Key words : cocitation method ; link analysis ; genre of web document ; entropy.

1.Introduction


La priorité des moteurs de recherche disponibles sur la toile est de retourner en un minimum de temps, le plus de pages web pertinentes sur un sujet donné. S'appuyant sur les techniques des systèmes de recherche d'information traditionnels (SRI), leur objectif est donc de retrouver et de ranger les pages par ordre de pertinence thématique. Cependant, contrairement aux bases de données traditionnelles, le web est un magma d'information regroupant des documents hétérogènes à tout point de vue. Ainsi les utilisateurs le consultent avec des attentes et des objectifs bien différents. Prenons l'exemple d'un élève et d'un chercheur recherchant tous les deux de l'information sur la physique nucléaire. Le premier s'orientera avant tout vers des mémoires ou exposés en français d'un niveau vulgarisateur, alors que le second préférera des articles scientifiques probablement écrits en anglais, et pourquoi pas des appels à communication ou d'autres documents en relation avec son activité scientifique. Il paraît donc nécessaire de ne pas se limiter à la description thématique d'un document, mais de considérer aussi ses autres directions, comme son niveau, son origine géographique, son type (ou genre), etc. Ce problème, précédemment soulevé par Gravano [GRA 00], ne semble pas pris en compte par les moteurs de recherche généralistes.
Deux orientations sont possibles pour surmonter les difficultés de recherche d'information liées à l'hétérogénéité du web. Premièrement, la constitution de corpus de documents homogènes. Sur ce principe plusieurs outils de recherche spécialisés ont été créés. Ils ne prennent en compte qu'un ou plusieurs types de documents bien déterminés et n'indexent que ceux-ci. L'un des exemples est le moteur Research Index (maintenant appelé Citeseer) [LAW 99] qui regroupe la plupart des articles scientifiques d'informatique disponibles sur la toile. La seconde orientation, plus ambitieuse, consiste à caractériser (c'est-à-dire indexer) l'ensemble des documents du web, pour une ou plusieurs directions. Gravano et al. [DIN 00] proposent une méthode pour déterminer l'origine géographique des pages web. Crowston et Williams [CRO 00], et Glover et al. [GLO 01] s'intéressent plus spécialement à la notion de genre (type) de document existant sur la toile. Les premiers étudient les genres de communications reproduits ou émergents sur la toile, comme les FAQ ou les homepages. Les seconds présentent une méthode automatique par apprentissage (for learning query) permettant de reconnaître certains types de documents. Plus récemment Kwasnik [KWA 01] étudie comment la prise en compte du genre de document web peut améliorer la recherche d'information.
C'est la deuxième approche qui nous semble la plus intéressante et vers laquelle nous nous orientons. Elle engendre 3 questions : (i) quelles sont les directions des documents à prendre en compte pour améliorer la recherche d'information sur le web ? (ii) Comment représenter ces directions (vocabulaire libre, langage contrôlé) ? (iii) et comment les renseigner ?
Pour indexer les documents web, trois types d'information peuvent être utilisées :

- le contenu lui-même des pages web. C'est-à-dire, l'ensemble du code source de la page : le texte, les balises, les liens hypertextes, les liens vers les images ou d'autres ressources multimédias, la taille des fichiers, etc.

- le graphe créé par les liens hypertextes reliant les pages les unes aux autres.

- les données provenant de l'usage comme les fichiers de log, les cookies, etc.

Cette classification est proposée par la communauté du web mining [KOS 00]. Remarquons que les données relatives à l'usage sont impossibles à obtenir pour l'ensemble des sites. C'est pourquoi nous orientons notre recherche vers des méthodes utilisant séparément ou combinant les données issues du contenu et du graphe Web.
Nous pensons que le graphe formé par les liens hypertextes est porteur d'information et que celui-ci peut être analysé afin de mieux comprendre l'univers du web et bien sûr d'améliorer l'accès à son contenu. Dans la littérature antérieure l'information portée par le graphe se traduit en terme de :

- référence [BRI 98], [KLE 99], [SAV 96]. Différentes méthodes consistent à calculer le rang des documents réponses en fonction de leurs relations avec les autres. Par exemple, l’algorithme de classement implémenté dans le moteur Google [BRI 98] ordonne les documents en fonction leur visibilité sur le web. Plus une page est citée par les autres, meilleur est son rang.

- liens sémantiques [KUM 99], [LAR 96] : les techniques mises en place essayent de rapprocher des documents similaires d'un point de vue thématique.
  1   2   3   4   5   6

similaire:

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconL'électronique à l'origine de la floraison des technopôles
«nouveaux espaces industriels» qui, à tous égards, aussi bien dans leur production que dans leur localisation, ou dans leur architecture,...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconLa déontologie de l’aide à domicile page 6
D’aider les personnes à leur maintien à domicile, dans le respect de leur personnalité, de leur dignité, de leur choix de vie, quel...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconRésumé Aujourd’hui, la consommation de ressources par le secteur...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconAu cours d’une activité, l’grand Marcel vous agresse verbalement devant les autres : «Salaud»
«loulous», soit disant pour téléphoner (bien que parties avec deux portables). A leur retour, pas un mot de leur part : tout a été...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconAdresse : 2 Avenue François Mitterrand 93200 Saint-Denis, France
«Inova». Je voudrais saluer leur disponibilité, leur amabilité et leur patience pour toutes les explications et les documents qu’ils...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconVous remettre le bulletin de l’Association nous donne l’opportunité...
«rebeller» contre les «cadences infernales» lors du pique-nique du midi et créent une association dénommée «Groupetto Tartarougga»...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconSi les ventes ont chuté avec chaâbane, Ramadan et les fêtes religieuses,...
«nécessaire» pour susciter la mobilisation internationale ? Fallait-il publier cette photo ? Cette image a-t-elle créé l'électrochoc...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconRésumé : Les stratégies de présence Internet ainsi que les objectifs...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconRésumé S’il convient de défendre la diversité des cultures comme...

Résumé Les ressources disponibles sur le Web sont de plus en plus diverses aussi bien d’un point de vue thématique, qu’au niveau de leur type, de leur origine géographique, etc. iconLes coopératives d’habitants, des outils pour l’abondance. Chairecoop
«construire» par eux-mêmes, leur propre habitat, dans les «espaces disponibles», les délaissés urbains mis entre parenthèse par la...






Tous droits réservés. Copyright © 2017
contacts
exemple-d.com