markdown-crawler 使用教程

markdown-crawlerA multithreaded 🕸️ web crawler that recursively crawls a website and creates a 🔽 markdown file for each page, designed for LLM RAG项目地址:https://gitcode.com/gh_mirrors/ma/markdown-crawler

1. 项目的目录结构及介绍

markdown-crawler 项目的目录结构如下：

markdown-crawler/ ├── README.md ├── pyproject.yml ├── requirements.txt ├── setup.py ├── markdown_crawler/ │ ├── __init__.py │ ├── crawler.py │ ├── utils.py │ └── ... └── tests/ ├── __init__.py ├── test_crawler.py └── ...

目录结构介绍

README.md: 项目说明文件，包含项目的基本信息和使用方法。
pyproject.yml: 项目配置文件，用于定义项目的构建系统和依赖。
requirements.txt: 项目依赖文件，列出了项目运行所需的Python包。
setup.py: 项目的安装脚本，用于安装项目及其依赖。
markdown_crawler/: 项目的主要代码目录，包含爬虫的核心逻辑和工具函数。
- init.py: 模块初始化文件。
- crawler.py: 爬虫主逻辑文件。
- utils.py: 工具函数文件。
tests/: 测试代码目录，包含项目的单元测试和集成测试。

2. 项目的启动文件介绍

项目的启动文件是 markdown_crawler/crawler.py。该文件包含了爬虫的主要逻辑，包括网页抓取、内容转换和Markdown文件生成等功能。

启动文件介绍

crawler.py: 爬虫主逻辑文件，定义了爬虫的入口函数和主要功能。
- main(): 爬虫的入口函数，负责解析命令行参数并启动爬虫。
- crawl(): 爬虫的核心函数，负责递归抓取网页并生成Markdown文件。

3. 项目的配置文件介绍

项目的配置文件主要包括 pyproject.yml 和 requirements.txt。

配置文件介绍

pyproject.yml: 项目配置文件，定义了项目的构建系统和依赖。
- tool.poetry: 使用 Poetry 管理依赖和构建。
- dependencies: 列出了项目运行所需的Python包。
requirements.txt: 项目依赖文件，列出了项目运行所需的Python包。
- requests: HTTP请求库。
- BeautifulSoup4: HTML解析库。
- markdownify: Markdown转换库。