markdown-crawler 使用教程
markdown-crawlerA multithreaded 🕸️ web crawler that recursively crawls a website and creates a 🔽 markdown file for each page, designed for LLM RAG项目地址:https://gitcode.com/gh_mirrors/ma/markdown-crawler
1. 项目的目录结构及介绍
markdown-crawler 项目的目录结构如下:
markdown-crawler/
├── README.md
├── pyproject.yml
├── requirements.txt
├── setup.py
├── markdown_crawler/
│ ├── __init__.py
│ ├── crawler.py
│ ├── utils.py
│ └── ...
└── tests/
├── __init__.py
├── test_crawler.py
└── ...
目录结构介绍
- README.md: 项目说明文件,包含项目的基本信息和使用方法。
- pyproject.yml: 项目配置文件,用于定义项目的构建系统和依赖。
- requirements.txt: 项目依赖文件,列出了项目运行所需的Python包。
- setup.py: 项目的安装脚本,用于安装项目及其依赖。
- markdown_crawler/: 项目的主要代码目录,包含爬虫的核心逻辑和工具函数。
- init.py: 模块初始化文件。
- crawler.py: 爬虫主逻辑文件。
- utils.py: 工具函数文件。
- tests/: 测试代码目录,包含项目的单元测试和集成测试。
2. 项目的启动文件介绍
项目的启动文件是 markdown_crawler/crawler.py
。该文件包含了爬虫的主要逻辑,包括网页抓取、内容转换和Markdown文件生成等功能。
启动文件介绍
- crawler.py: 爬虫主逻辑文件,定义了爬虫的入口函数和主要功能。
- main(): 爬虫的入口函数,负责解析命令行参数并启动爬虫。
- crawl(): 爬虫的核心函数,负责递归抓取网页并生成Markdown文件。
3. 项目的配置文件介绍
项目的配置文件主要包括 pyproject.yml
和 requirements.txt
。
配置文件介绍
- pyproject.yml: 项目配置文件,定义了项目的构建系统和依赖。
- tool.poetry: 使用 Poetry 管理依赖和构建。
- dependencies: 列出了项目运行所需的Python包。
- requirements.txt: 项目依赖文件,列出了项目运行所需的Python包。
- requests: HTTP请求库。
- BeautifulSoup4: HTML解析库。
- markdownify: Markdown转换库。
通过以上配置文件,可以确保项目在不同的环境中正确安装和运行所需的依赖。
markdown-crawlerA multithreaded 🕸️ web crawler that recursively crawls a website and creates a 🔽 markdown file for each page, designed for LLM RAG项目地址:https://gitcode.com/gh_mirrors/ma/markdown-crawler