PyCommonCrawl – Traiter le Web
Le but de ce projet est de créer un outil simple pour pouvoir traiter les données issues de CommonCrawl grâce à Python.
Je voulais faire quelque chose de simple. Le problème était que télécharger la totalité des données de CommonCrawl demandais trop d’espace (la version comprimée pesait à peu près 53 TiB). Il me fallait une “solution en streaming/en ligne”. Heureusement, les données étaient segmentées en plusieurs morceaux (56000) . Ma solution se contente de rendre la gestion des téléchargements et suppressions de fichiers transparente afin d’avoir l’impression de n’avoir qu’un seul fichier. Il est possible de traiter chaque ligne séparément ou par bloc au format WARC (le format des archives de l’internet).
Cependant, cette solution peut-être très longue et le facteur limitant est le téléchargement qui nécessite une bonne connexion.
Le code est disponible sur Github et j’ai créé un package python.