2019.04.23 Scrapy框架

1.环境搭建

2.选择需要的.whl文件下载，一般选择最后的，感觉意思是最近更新的包，以下是.whl文件下载链接地址：

http://www.lfd.uci.edu/~gohlke/pythonlibs/

1.python：表示包文件。

2.whl 格式：这是一个压缩包，在其中包含了py文件，以及经过编译的pyd文件。

这个格式可以使文件在不具备编译环境的情况下，选择合适自己的python环境进行安装。

安装方法如下

进入命令行输入：pip install xxxx.whl

升级方法如下

进入命令行输入：pip install -U xxxx.whl

因为这个Scarpy是依赖这个Twised这个的所以可以安装这个whl 文件 Scarpy依赖环境

E:\Develop\Scripts 这个目录下 cmd pip install 安装

还有一种方法是安装 visualcppbuildtools_full 不过这个安装可能有点久

pip install scrapy

然后找到相应的 whl Twised.whl 安装就好了去到对应的路径安装

2.基本使用

因为不同于Django，flask 新建项目有选择的所以我们只能通过命令来创建

scrapy startproject first-scrapy

创建一个爬虫 scrapy genspider 爬虫名爬虫的地址 baidu baidu.com

name: 它定义了蜘蛛的唯一名称
allowed_domains: 它包含了蜘蛛抓取的基本URL；(只认定这个域名)
start-urls: 蜘蛛开始爬行的URL列表；
parse(): 这是提取并解析刮下数据的方法；

运行爬虫 scrapy crawl 爬虫名

3.数据提取

第一步一定要记得修改User-Agent

不加这个 .extract返回一个unicode字符创 Selector返回的是选择器为什么会返回的是选择器呢？这样还可以继续Xpath筛选

利用框架如何快速的爬取资料：先创建scrapy项目设置请求头User-Agent 设置url

利用Scrapy自带的Xpath选择器筛选输出即可这是最简单的输出到控制台

既然可以输出到控制台那么其实保存都文件也容易

json.cn

.csv 是一种表格的形式可以用excel打开

在哪了提取这些数据在response啊可以直接

scrapy crawl zhongheng -o book.json

4.如何推送到 pipeline

通过yield

然后item接受

打印item 但是和在spider中的输入输出不一样呀并没有打印这个item 没有白色的日志

在setting中打开ITEM_PIPELINES 他是一个字典，前面是item_pipeline路径，数字表示优先级

“w”会覆盖以前的信息 “a”会追加

有一个问题是：文件会重复开启如何让文件只开启一次呢

这就是利用pipeline保存我们数据的问题

在item模板中无论什么数据类型

都可以用 scrapy fielter

这回推送的Item中的类对象还是通过yield推送所以还要记得转字典，也要记得转字符串

6.Scrapy 的细节

可以爬取不同的网页，不同类型的网页，只需要写一个spider就好了。

但是我要怎么处理筛选呢？通过response的url来判断这是广度爬取

还有一个深度一种爬虫方式。就是先遍历完左边的再慢慢的推到右边

小说练习

1.第一种找url规律的方法看是否递增啥的

2.将所有的url都拿出来挨个去访问

有一个叫文件流的东西，就是当只有内存的满了才会存到文件中

那怎么让它实时的存储呢那就要用flush了

访问的间隔 download_delay = 3

第一部分完了

　　大概的知道这个框架的运行流程了，也知道怎么用xpath了也可以连续的

爬取了，如何推送，如何的保存这些数据。这应该是小的一部分吧

在继承与CrawlSpider中 restrict 提取到那个标签就可以了

创建新的spider 用 -t crawl 选择使用这个模板

copy xpath 这么使用吗

2019.04.23 Scrapy框架的更多相关文章

Python 爬取北京市政府首都之窗信件列表-[Scrapy框架](2020年寒假小目标04)
日期:2020.01.22 博客期:130 星期三 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作(本期博客) 2.爬取工作 3.数据处理 4.信息展 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
学习scrapy框架爬小说
一.背景:近期学习python爬虫技术,感觉挺有趣.由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用. 二.环境:centos7,python3.7,scr ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
Scrapy 框架简介
Scrapy 框架介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的 ...
[Python][Scrapy 框架] Python3 Scrapy的安装
1.方法(只介绍 pip 方式安装) PS.不清楚 pip(easy_install) 可以百度或留言. cmd命令: (直接可以 pip,而不用跳转到 pip.exe目录下,是因为把所在目录加入 P ...
解读Scrapy框架
Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...

随机推荐

SpringBoot系列二：SpringBoot自动配置原理
主程序类的注解 @SpringBootApplication 注解,它其实是个组合注解,源码如下: @Target({ElementType.TYPE}) @Retention(RetentionPo ...
docker 进阶
docker 常用命令: docker pull hub.c.163.com/library/mysql:latest #这是从网址下载下来mysql镜像 docker run -d -p 88 ...
寻找符合条件的最短子字符串——SLIDING WINDOW
简介用一个可伸缩的窗口遍历字符串,时间复杂度大致为O(n).适用于“寻找符合某条件的最小子字符串”题型. 题目链接求某字符串T中含有某字符串S的所有字符的最小子字符串.如果不存在则返回" ...
（二）Knockout 文本与外观绑定
Visible Visible binding会依据绑定的数据来决定相应的DOM元素是否隐藏,hidden或visible. 我们首先在js文件部分定义一个view model,这里我创建的是一个ob ...
【转】Java Socket编程基础及深入讲解
原文:https://www.cnblogs.com/yiwangzhibujian/p/7107785.html#q2.3.3 Socket是Java网络编程的基础,了解还是有好处的, 这篇文章主要 ...
mybaits返回自增主键ID
mybaits两种获取自增主键ID的方法:一种是使用useGeneratedKeys,第二种是selectKey方法获取. useGeneratedKeys <insert id="i ...
B - Housewife Wind-树链剖分-树状数组
思路:边权转化到点权上,统一把每一条边的边权集中到深度较深的点上去. #include<stdio.h> #include<iostream> #include<cstr ...
客户端无法加入域，报错：“无法与域‘xxx.com’的Active Directory域控制器（AD DC）链接” 请确保键入的域名正确
1.客户端能不能解析到域名? nslookup 一下域名看看解析到的IP的地址 2.客户端的DNS要指向DC 3.客户端的相关服务,workstation,TCP/IP NetBios Helper, ...
Python练手例子（2）
7.将一个列表的数据复制到另一个列表中. 程序分析:使用列表[:]. #python3.7 #适用于简单列表(即列表中都是基本的元素) a1 = [1,2] b1 = a1[:] print(b1) ...
深度好文 | 在阿里做了5年技术Leader，我总结出了这些套路！
导读:阿里巴巴高级技术专家云狄将为大家从管理的角度分享技术TL的核心职责,这其中包括团队建设.团队管理.团队文化.沟通与辅导.招聘与解雇等,希望与大家共同探讨.交流. 背景互联网公司的技术团队管理通 ...

2019.04.23 Scrapy框架

2019.04.23 Scrapy框架的更多相关文章

随机推荐

热门专题