Scrapy-Random-Useragent 项目教程
scrapy-random-useragentScrapy Middleware to set a random User-Agent for every Request.项目地址:https://gitcode.com/gh_mirrors/sc/scrapy-random-useragent
1. 项目的目录结构及介绍
scrapy-random-useragent/
├── LICENSE
├── README.md
├── scrapy_random_useragent/
│ ├── __init__.py
│ ├── middleware.py
├── setup.py
LICENSE
: 项目许可证文件。README.md
: 项目说明文档。scrapy_random_useragent/
: 项目的主要代码目录。__init__.py
: 模块初始化文件。middleware.py
: 核心中间件文件,用于设置随机 User-Agent。
setup.py
: 项目安装脚本。
2. 项目的启动文件介绍
项目的启动文件主要是 middleware.py
,其中定义了 RandomUserAgentMiddleware
类,用于在每个请求中设置随机的 User-Agent。
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
import random
class RandomUserAgentMiddleware(UserAgentMiddleware):
def __init__(self, user_agent=''):
self.user_agent = user_agent
def process_request(self, request, spider):
ua = random.choice(self.user_agent_list)
if ua:
request.headers.setdefault(b'User-Agent', ua)
# 用户代理列表
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
# 更多 User-Agent 条目
]
3. 项目的配置文件介绍
在 Scrapy 项目的 settings.py
文件中,需要配置 DOWNLOADER_MIDDLEWARES
以启用 RandomUserAgentMiddleware
。
DOWNLOADER_MIDDLEWARES = {
'scrapy_random_useragent.middleware.RandomUserAgentMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
此外,如果需要与随机代理中间件(如 scrapy-proxies
)一起使用,可以设置 RANDOM_UA_PER_PROXY
为 True
,并调整中间件的优先级。
RANDOM_UA_PER_PROXY = True
通过以上配置,可以在每次请求时使用随机的 User-Agent,从而提高爬虫的匿名性和避免被服务器封禁。
scrapy-random-useragentScrapy Middleware to set a random User-Agent for every Request.项目地址:https://gitcode.com/gh_mirrors/sc/scrapy-random-useragent