icrawler 开源项目教程

icrawlerA multi-thread crawler framework with many builtin image crawlers provided.项目地址:https://gitcode.com/gh_mirrors/ic/icrawler

项目介绍

icrawler 是一个多线程的爬虫框架，提供了许多内置的图像爬虫工具。它支持多种媒体数据，如图像和视频，并且易于扩展和使用。icrawler 的设计理念是轻量级和灵活，适用于需要快速开发和部署的爬虫项目。

项目快速启动

安装 icrawler

首先，确保你已经安装了 Python 环境。然后，使用 pip 安装 icrawler：

pip install icrawler

使用内置爬虫

以下是一个使用内置的 Google 图像爬虫的示例代码：


from icrawler.builtin import GoogleImageCrawler
 
# 定义存储路径
storage = {'root_dir': 'images/google'}
 
# 创建爬虫实例
google_crawler = GoogleImageCrawler(storage=storage)
 
# 开始爬取
google_crawler.crawl(keyword='tesla', max_num=10)

应用案例和最佳实践

案例一：从 Google 爬取特定主题的图片

假设你需要从 Google 爬取关于“自然风光”的图片，可以使用以下代码：


from icrawler.builtin import GoogleImageCrawler
 
# 定义存储路径
storage = {'root_dir': 'images/nature'}
 
# 创建爬虫实例
nature_crawler = GoogleImageCrawler(storage=storage)
 
# 开始爬取
nature_crawler.crawl(keyword='自然风光', max_num=50)

案例二：自定义爬虫逻辑

如果你需要自定义爬虫的某些部分，比如 Feeder、Parser 或 Downloader，可以继承相应的类并重写方法：


from icrawler import Crawler, Feeder, Parser, Downloader
 
class MyFeeder(Feeder):
    def feed(self):
        # 自定义 Feeder 逻辑
        pass
 
class MyParser(Parser):
    def parse(self, task):
        # 自定义 Parser 逻辑
        pass
 
class MyDownloader(Downloader):
    def download(self, task):
        # 自定义 Downloader 逻辑
        pass
 
# 创建自定义爬虫实例
crawler = Crawler(feeder_cls=MyFeeder, parser_cls=MyParser, downloader_cls=MyDownloader)
 
# 开始爬取
crawler.crawl(feeder_kwargs={'arg1': 'blabla', 'arg2': 0}, max_num=1000)