Ce projet devra se dérouler conjointement avec le projet Web Extract

L'objet de ce projet consistera à mettre en place un programme capable d'explorer le web. Il partira d'une page web ou d'un ensemble de pages web, récupérera le contenu de ces pages. Ce contenu sera analysé par le programme Web Extract qui renverra la liste des urls référencées. Ces nouvelles urls seront proposées pour exploration.

Le projet consistera à mettre en place une architecture viable pour servir de base à un moteur de recherche.

Il faudra bien sûr faire attention à indexer les urls pour éviter de boucler. On voudra également éventuellement respecter les fichiers \texttt{robots.txt}.

Une architecture performante pour exécuter ce travail lancera plusieurs requêtes en parallèles à l'aide de threads. Il faudra pouvoir contrôler en permanence le nombre de threads actifs, au maximum ou en fonction de la charge de la machine.