Ce projet devra se dérouler conjointement avec le projet Web Crawler.

L'objet de se projet consistera à analyser le contenu d'une page web référencée par une url.

On devra dépouiller cette page de tous les attributs de présentation pour en extraire les éléments intéressants : les mots du texte d'une part et les urls d'autre part. On ignorera les images, fichiers audio/vidéo etc. dans un premier temps.

Il faudra extraire les éléments précités, mais également les indexer. En particulier pour ce qui concerne les mots du texte, on souhaitera pouvoir faire une recherche inverse : étant donné un mot ou un ensemble de mots, quelle page traitée contenait ces mots ?

La liste des urls référencée par la page devra être retournée à l'appelant en guise de résultat. Le crawler s'en servira pour continuer son exploration du Web.

On privilégiera une architecture ouverte : il y a beaucoup d'url pour lesquelles le contenu sera difficile à analyser de prime abord. On s'attachera à modulariser le traitement pour être capable d'ajouter des modules qui liront un fichier MSWord ou bien un fichier PDF. Il devra être possible de rajouter le traitement de ces fichiers par l'ajout de plugin reposant sur des classes extérieures.