python3下scrapy爬虫(第一卷：安装问题)

一般爬虫都是用urllib包,requests包配合正则.beautifulsoup等包混合使用，达到爬虫效果，不过有框架谁还用原生啊，现在我们来谈谈SCRAPY框架爬虫，

现在python3的兼容性上来了，SCRAPY不光支持python2版本了，有新的不用旧的，现在说一下让很多人望而止步的安装问题，很多人开始都安装不明白，

当前使用的版本是PYTHON3.5，安装时用PIP3

安装步骤：

1 安装wheel

pip3 install wheel

2 安装twisted

pip3 install Twisted-17.9.0-cp35-cp35m-win_amd64.whl

3 安装lxml

pip3 install lxml-4.1.1-cp35-cp35m-win_amd64.whl

4 安装scrapy

pip3 install scrapy

这样你就成功的安装上了scrapy，你可以创建文件，但是你任然不可爬虫，一旦执行爬虫文件就会报错

5 安装pywin32

一路下一步就行

接着我们创建scrapy文件夹

进入运行环境为python3.5的文件路径，如果你的电脑同时安装2，3版本一定要注意问题。两个版本会出现环境冲突问题，一旦python3版本下的scrapy运行在python2下就会出现版本不兼容问题，就会出现NO MOUDLE的报错

路径切换到python3运行的环境：

scrapy startproject filename

终端进入filename目录

scrapy genspider -t basic crawl1 webname.com

就会创建爬虫脚本文件

文件夹里几个文件我也就不介绍了，

我说下基本爬虫setting.py的应用

现在可以进行正常的爬取网页了

python3下scrapy爬虫(第一卷：安装问题)的更多相关文章

python3下scrapy爬虫(第五卷:初步抓取网页内容之scrapy全面应用）
现在爬取http://category.dangdang.com/pg1-cid4008149.html网址上的商品价格,名称,评价数量先准备下下数据:商品名,商品链接,评价数量第一步:在item ...
python3下scrapy爬虫(第二卷:初步抓取网页内容之直接抓取网页）
上一卷中介绍了安装过程,现在我们开始使用这个神奇的框架跟很多博主一样我也先选择一个非常好爬取的网站作为最初案例,那么我先用屌丝必备网站http://www.shaimn.com/xinggan/作为 ...
python3下scrapy爬虫(第十四卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行）
现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中现在我们需要在SETTING.PY设置我们的爬虫文件再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存 ...
python3下scrapy爬虫(第十二卷:解决scrapy数据存储大量数据时阻塞问题）
之前我们使用scrapy爬取数据,用的存储方式是直接引入PYMYSQL,或者MYSQLDB,案例中数据量并不大,这种数据存储方式属于同步过程,也就是上一条语句执行完才能执行下一条语句,当数据量变大时, ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第七卷:编辑器内执行scrapy）
之前我们都是在终端切入到scrapy的路境内执行爬虫的,你要多敲多少行的字节,所以这次我们谈谈如何在编辑器里执行,这个你可以用在爬虫中,当你使用PYTHONWEB开发时尽量不要在编辑器内启动端口服务那 ...
python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）
上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
python3下scrapy爬虫(第六卷:利用cookie模拟登陆抓取个人中心页面）
之前我们爬取的都是那些无需登录就要可以使用的网站但是当我们想爬取自己或他人的个人中心时就需要做登录,一般进入登录页面有两种 ,一个是独立页面登陆,另一个是弹窗,我们先不管验证码登陆的问题 ,现在试一下 ...

随机推荐

Python 中如何自动导入缺失的库？
在写 Python 项目的时候,我们可能经常会遇到导入模块失败的错误:ImportError: No module named 'xxx'或者ModuleNotFoundError: No modul ...
php分页代码。
$result_count=select("hy_news_en",$where,'','','count(1)'); $count=mysql_fetch_array( ...
关于gc中对象回收算法的认识
之前学习java时,笔者看到很多学习资料说,gc判断object存活与否的算法是:给对象添加一个引用计数器,每当有一处地方引用它时,计数器值就加1,当引用失效时,计数器值就减1,当对象计数清零时,对象 ...
操作实践，IDEA自定义toString()方法模板
声明:迁移自本人CSDN博客https://blog.csdn.net/u013365635 Java POJO在日志中常会用于打印,经常会将POJO的内容全部或部分打印出来,所以POJO类的toSt ...
Codeforces 1294B - Collecting Packages
题目大意: 机器人从(0,0)开始,他只能往上'U'或者往右'R'走坐标系中有着很多包裹,分别在一些点上机器人需要走过去把这些包裹全部收集起来问能不能做到如果能,再输出移动方式,相同移动方式输 ...
谷歌发布自家物理密匙TitanKey，能让人们远离互联网“黑洞”吗？
随着隐私泄露事件的飞速增多,人们对如何保护自身隐私安全也越来越重视.而基于这种诉求,众多企业也在持续发力安全层面.毕竟,在目前危机四伏的互联网大环境下,真正能保护人们隐私安全的服务.设备等都是&quo ...
C++类的访问控制关键字
public:修饰的成员变量和函数,可以在类的内部和类的外部被访问. private:修饰的成员变量和函数,只能在类的内部被访问,不能在类的外部被访问. protected:修饰的成员变量和函数,只能 ...
iOS 一个新方法：- (void)makeObjectsPerformSelector:(SEL)aSelector；
NSArray 里面的一个方法, - (void)makeObjectsPerformSelector:(SEL)aSelector: 这是一个类似于执行for循环的方法,可以这样用,当需要删除一个v ...
CodeForces 994B Knights of a Polygonal Table（STL、贪心）
http://codeforces.com/problemset/problem/994/B 题意: 给出n和m,有n个骑士,每个骑士的战力为ai,这个骑士有bi的钱,如果一个骑士的战力比另一个骑士的 ...
kaggle——NFL Big Data Bowl 2020 Official Starter Notebook
Introduction In this competition you will predict how many yards a team will gain on a rushing play ...

python3下scrapy爬虫(第一卷：安装问题)

python3下scrapy爬虫(第一卷：安装问题)的更多相关文章

随机推荐

热门专题