Semalt suggère 5 étapes pour gratter les pages Web

Scrapy est une source ouverte et un cadre pour extraire des informations des différents sites Web. Il utilise des API et est écrit en Python. Scrapy est actuellement entretenu par une société de raclage Web nommée Scrapinghub Ltd.

Il s'agit d'un didacticiel simple sur la façon d'écrire un robot d'indexation à l'aide de Scrapy, d'analyser Craigslist et de stocker des informations au format CSV. Les cinq étapes principales de ce didacticiel sont mentionnées ci-dessous:

1. Créez un nouveau projet Scrapy

2. Écrivez une araignée pour explorer un site Web et extraire des données

3. Exportez les données récupérées à l'aide de la ligne de commande

4. Changer d'araignée pour suivre les liens

5. Utilisez des arguments d'araignée

1. Créez un projet

La première étape consiste à créer un projet. Vous devrez télécharger et installer Scrapy. Dans sa barre de recherche, vous devez entrer le nom du répertoire dans lequel vous souhaitez stocker les données. Scrapy utilise différentes araignées pour extraire des informations, et ces araignées font des demandes initiales pour créer des répertoires. Pour mettre une araignée au travail, vous devez visiter la liste des répertoires et y insérer un code particulier. Gardez un œil sur les fichiers de votre répertoire actuel et notez deux nouveaux fichiers: quotes-a.html et quotes-b.html.

2. Écrivez une araignée pour explorer un site Web et extraire des données:

La meilleure façon d'écrire une araignée et d'extraire des données consiste à créer différents sélecteurs dans le shell de Scrapy. Vous devez toujours mettre les URL entre guillemets; sinon, Scrapy changera instantanément la nature ou les noms de ces URL. Vous devez utiliser des guillemets doubles autour d'une URL pour écrire une araignée de manière appropriée. Vous devez utiliser.extract_first () et éviter une erreur d'index.

3. Exportez les données récupérées à l'aide de la ligne de commande:

Il est important d'exporter les données récupérées à l'aide de la ligne de commande. Si vous ne l'exportez pas, vous n'obtiendrez pas de résultats précis. L'araignée va générer différents répertoires contenant des informations utiles. Vous devez utiliser les mots-clés de rendement Python pour exporter ces informations d'une meilleure manière. L'importation de données dans des fichiers JSON est possible. Les fichiers JSON sont utiles pour les programmeurs. Des outils comme JQ permettent d'exporter sans problème des données supprimées.

4. Changez d'araignée pour suivre les liens:

Dans les petits projets, vous pouvez changer d'araignées pour suivre les liens de manière appropriée. Mais ce n'est pas nécessaire avec les projets de grattage de données de grande taille. Un fichier d'espace réservé pour les pipelines d'articles sera créé lorsque vous changez d'araignée. Ce fichier se trouve dans la section tutorial / pipelines.py. Avec Scrapy, vous pouvez construire des araignées sophistiquées et changer leur emplacement à tout moment. Vous pouvez extraire plusieurs sites à la fois et réaliser divers projets d'extraction de données.

5. Utilisez des arguments d'araignée:

Le rappel parse_author est un argument d'araignée qui peut être utilisé pour extraire des données de sites Web dynamiques. Vous pouvez également fournir des arguments de ligne de commande aux araignées avec un code spécifique. Les arguments d'araignée deviennent des attributs d'araignée en un rien de temps et modifient l'aspect général de vos données.

Dans ce didacticiel, nous n'avons couvert que les bases de Scrapy. Il existe de nombreuses fonctionnalités et options pour cet outil. Il vous suffit de télécharger et d'activer Scrapy pour en savoir plus sur ses spécifications.