Scrapy-Idealista 项目使用教程

64 0 0

Scrapy-Idealista 项目使用教程

Scrapy-IdealistaScrapping data from Real Estate site www.idealista.com项目地址:https://gitcode.com/gh_mirrors/sc/Scrapy-Idealista

1. 项目的目录结构及介绍

Scrapy-Idealista 项目的目录结构如下：

Scrapy-Idealista/ ├── scrapy.cfg ├── idealista/ │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders/ │ ├── __init__.py │ └── idealista_spider.py

目录结构介绍

scrapy.cfg: Scrapy 项目的配置文件。
idealista/: 项目的主目录，包含所有 Scrapy 组件。
- __init__.py: 使目录成为一个 Python 包。
- items.py: 定义爬取数据的结构。
- middlewares.py: 自定义中间件。
- pipelines.py: 数据处理管道。
- settings.py: 项目配置文件。
- spiders/: 存放爬虫文件的目录。
  - __init__.py: 使目录成为一个 Python 包。
  - idealista_spider.py: 具体的爬虫实现。

2. 项目的启动文件介绍

项目的启动文件是 idealista/spiders/idealista_spider.py。这个文件包含了具体的爬虫逻辑，定义了如何爬取 Idealista 网站的数据。

启动文件介绍

idealista_spider.py:
- 定义了爬虫的名称、起始 URL 和其他爬取规则。
- 实现了数据解析逻辑，提取所需信息。

3. 项目的配置文件介绍

项目的配置文件是 idealista/settings.py。这个文件包含了 Scrapy 项目的所有配置选项，如中间件、管道、并发设置等。

配置文件介绍

settings.py:
- BOT_NAME: 定义了爬虫机器人的名称。
- SPIDER_MODULES: 指定了爬虫模块的列表。
- NEWSPIDER_MODULE: 指定了生成新爬虫的模块。
- ROBOTSTXT_OBEY: 是否遵守 robots.txt 规则。
- CONCURRENT_REQUESTS: 并发请求数。
- DOWNLOAD_DELAY: 下载延迟。
- ITEM_PIPELINES: 定义了数据处理管道。