Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

本文主要介绍一下Scrapy爬虫框架的开发环境搭建。主要有:
Python的安装,IDE的选择,MySQL及Navicat的安装,开发环境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安装。

  • Python的安装
  • IDE的选择
  • MySQL的安装
  • Navicat for MySQL的安装
  • 安装virtualenv
    • 打开控制台输入pip install virtualenv
    • 创建虚拟环境
      • 在控制台输入virtualenv ScrapyProjects
      • 在目录文件夹中可以找到该文件夹
      • 如何打开
      • 如何切换到Python3X版本呢
        • 第一步创建虚拟环境
        • 第二步切换到Python3
        • 输入Python可以看到Python的版本变成了36
        • 退出输入deactivatebat即可
  • 安装Virtualenvwrapper
    • 安装方法
      • 控制台输入pip install virtualenvwrapper-win
      • 新建一个虚拟环境mkvirtualenv py3scrapy
      • 列出虚拟环境列表workon
    • 给Envs文件夹改默认路径
  • Scrapy安装完成后检验一下是否安装成功
      • 导入 Scrapy 模块
      • 然后在 shell 中测试能否执行 Scrapy 这条命令

Python的安装

Python 现在有两个版本2.X和3.X,虽然说到2020年2.X系列就不再更新维护了,但是Scrapy依赖的库很多,最大的Twisted库就是Python2.X写的,所以用Scrapy框架来写爬虫,还是要装上Python2.X 的。
安装步骤:去官网:https://www.python.org/downloads/,选择合适的版本的下载就可以。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
需要注意的是,在安装的时候,这一项需要添加上。3.X系列需要在左下角勾选上。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

安装完成后,在控制台输入python检验是否安装成功。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

IDE的选择

Python的集成开发环境有很多,在这里我们选择 PyCharm
下载地址:https://www.jetbrains.com/pycharm/download/#section=windows
这个软件有 专业版(收费)和社区版(免费),根据自己的需求选择吧。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

MySQL的安装

MySQL是一款关系型数据库管理系统,其特点是体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。
下载网址:https://dev.mysql.com/downloads/mysql/ 选择合适的版本进行下载。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

Navicat for MySQL的安装

这款软件收费的,如何破解大家可以自行百度。
链接: https://pan.baidu.com/s/1mjPnVhm 密码: 7na3
安装后界面:

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

安装virtualenv

首先讲一下为什么要安装虚拟环境。我们的电脑中安装了Python2和Python3两个版本,而Virtualenv就是用于在一台机器上创建多个独立的Python运行环境。他最大的好处是,可以让每一个Python项目单独使用一个环境,而不会影响Python系统环境,也不会影响其他项目的环境。


简单说:在开发Python应用程序的时候,系统安装的Python3只有一个版本:3.6。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序,那这些应用程序都会共用一个Python,就是安装在系统的Python 3。如果应用A需要Python 2.7,而应用B需要Python 3.6怎么办?这种情况下,每个应用可能需要各自拥有一套“独立”的Python运行环境。virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。


打开控制台,输入pip install virtualenv

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

创建虚拟环境

在控制台输入virtualenv ScrapyProjects

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

在目录文件夹中可以找到该文件夹

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

如何打开?

通过控制台,打开activate.bat即可。
1. cd ScrapyProjects回车;
2. cd Scripts 回车;
3. activate.bat回车;

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
当前方出现 (ScrapyProjects) 就说明开启成功。
输入python查看版本,现在的版本是2.7。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

如何切换到Python3.X版本呢?

第一步:创建虚拟环境

输入virtualenv -p C:UsersBlueheartAppDataLocalProgramsPythonPython36python.exe Scrapypy3
-p指Python版本。
C:UsersBlueheartAppDataLocalProgramsPythonPython36python.exe指Python3路径。
Scrapypy3指新建虚拟环境文件目录名称。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

第二步:切换到Python3.
  1. cd Scrapypy3回车;
  2. cd Scripts 回车;
  3. activate.bat回车;

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

输入Python,可以看到,Python的版本变成了3.6.
退出,输入deactivate.bat即可。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

安装Virtualenvwrapper

相信大家刚才也跟着我的步骤走了一遍,有没有发现启动环境的时候必须要记住他的绝对路径才行,而我们接下来安装的Virtualenvwrapper就是解决记不住绝对路径这样尴尬的事情的。
Virtaulenvwrapper是virtualenv的扩展包,用于更方便管理虚拟环境,它可以将所有虚拟环境整合在一个目录下,管理(新增,删除,复制)虚拟环境,快速切换到虚拟环境。

安装方法:

控制台输入:pip install virtualenvwrapper-win

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

新建一个虚拟环境:mkvirtualenv py3scrapy

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

列出虚拟环境列表:workon

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
目录中的Envs文件夹就是存储虚拟环境的。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

如果你和我不喜欢把这些放到C盘,下面我们就来改到别的盘去。

给Envs文件夹改默认路径、

打开 我的电脑 右键 属性 –> 高级系统设置 –> 环境变量 –> 系统变量 –> 新建 –> 如图所示 (我把 Envs 文件夹设置到了E盘)

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
新建虚拟环境:

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
查看修改后的文件夹:

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
修改成功。
备注:手动修改Python版本。
mkvirtualenv --python=【C:UsersBlueheartAppDataLocalProgramsPythonPython36python.exe】(Python路径) py3scrapy(文件名)
附上命令列表:

用法 作用
workon 列出虚拟环境列表
lsvirtualenv 列出虚拟环境列表
mkvirtualenv 新建虚拟环境
workon [虚拟环境名称] 切换虚拟环境
rmvirtualenv 删除虚拟环境
deactivate 离开虚拟环境

环境配置的可以了,接下来在Python2下安装Scrapy框架。
输入workon py2scrapy–>pip install scrapy

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
等待安装成功就可以了。
注:
1. 如果在下载过程中速度很慢,可以选择用国内的镜像,比如豆瓣镜像:pip install -i https://pypi.doubanio.com/simple/ scrapy
2. 如果安装过程中出现错误,在下面这个网站上下载相应文件,在本地安装。
网址:https://www.lfd.uci.edu/%7Egohlke/pythonlibs/

Scrapy安装完成后,检验一下是否安装成功。

导入 Scrapy 模块

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

然后,在 shell 中测试能否执行 Scrapy 这条命令。

Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
通过了以上两项测试,就说明 Scrapy 安装成功了。如图所示,安装的最新版本是(1.5.0)。
欢迎关注我的个人公众号。
Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...