9.3.3 scrapy 框架

　　scrapy是一个非常好用的Web爬虫框架，非常适合抓取Web站点从网页中提取结构化的数据，并且支持自定义的需求。在使用scrapy爬取网页数据时，除了熟悉HTML标签，还需要了解目标网页的数据组织结构，确定要爬取什么信息，这样才能针对性地编写爬虫程序。

　　使用pip命令安装好scrapy扩展库。在安装过程中遇到的报错需要自己根据报错内容百度并解决，培养自己动手解决问题的能力。

 import scrapy

 import os

 import urllib.request

 #自定义一个爬虫类

 class MySpider(scrapy.spiders.Spider):

     #爬虫的名字，每个爬虫都必须有不同的名字，类变量

     name = 'mySpider'

     allowed_domains=['www.sdibt.edu.cn']

     #要爬取的其实页面，必须是列表，可以匹配多个RUL

     start_urls = ['http://www.sdibt.edu.cn/info/1026/11238.htm']

     #针对每个要爬取的网页，会自动调用下面这个方法

     def parse(self,response):

         self.downloadWebpage(response)

         self.downloadImages(response)

         #检查页面中的超链接，并继续爬取

         hxs = scrapy.Selector(response)

         sites = hxs.spath('//ul/li')

         for site in sites:

             link = site.xpath('a/@href').extract()[0]

             if link == '#':

                 continue

             #把相对地址转换为绝对地址

             elif link.startswith('..'):

                 next_url = os.path.dirname(response.rul)

                 next_url += '/' + link

             else:

                 next_url = link

             #生成Request对象，并指定回调函数

             yield scrapy.Request(url = next_url,callback = self.parse_item)

     #回调函数，对起始页面中的每个超链接其作用

     def parse_item(self,response):

         self.downloadWebpage(response)

         self.downloadImages(response)

     #下载当前页面中所有图片

     def downloadImages(self,response):

         hxs = scrapy.Selector(response)

         images = hxs.xpath('//img/@src').extract()

         for image_url in images:

             imageFilename = image_url.split('/')[-1]

             if os.path.exists(imageFilename):

                 continue

             #把相对地址转换为绝对地址

             if image_url.startswith('..'):

                 image_url = os.path.dirname(response.url) + '/' + image_url

             #打开网页图片

             fp=urllib.request.urlopen(image_url)

             #创建本地图片文件

             with open(imageFilename,'wb') as f:

                 f.write(fp.read())

             fp.close()

     #把网页内容保存为本地文件

     def downloadWebpage(self,response):

         filename = response.rul.split('/')[-1]

         with open(filename,'wb') as f:

             f.write(response.body)

　　最后在命令提示符环境中执行下面的命令启动爬虫程序开始爬取数据：

　　scrapy crawl mySpider

　　Scrapy入门教程链接：

　　http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

9.3.3 scrapy 框架的更多相关文章

Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
安装scrapy框架的常见问题及其解决方法
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级如果你的pip版本比较老,可能在安装的过程 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
利用scrapy框架进行爬虫
今天一个网友问爬虫知识,自己把许多小细节都忘了,很惭愧,所以这里写一下大概的步骤,主要是自己巩固一下知识,顺便复习一下.(scrapy框架有一个好处,就是可以爬取https的内容) [爬取的是杨子晚报 ...

随机推荐

【iOS 开发】Objective - C 面向对象 - 方法 | 成员变量 | 隐藏封装 | KVC | KVO | 初始化 | 多态
一. Objective-C 方法详解 1. 方法属性 (1) OC 方法传参机制 Object-C 方法传参机制 : OC 中得参数传递都是值传递, 传入参数的是参数的副本; -- 基本类型 (值传 ...
Linux上程序调试的基石(1)--ptrace
引子: 1.在Linux系统中,进程状态除了我们所熟知的TASK_RUNNING,TASK_INTERRUPTIBLE,TASK_STOPPED等,还有一个TASK_TRACED.这表明这个进程处于什 ...
UNIX网络编程——内网与外网间通信
QQ是一个基于TCP/UDP协议的通讯软件发送消息的时候是UDP打洞,登陆的时候使用HTTP~因为登陆服务器其实就是一个HTTP服务器,只不过不是常用的那些,那个服务器是腾讯自行开发的!!! 一.登 ...
Mysql group by语句的优化
默认情况下,MySQL排序所有GROUP BY col1, col2, ....,查询的方法如同在查询中指定ORDER BY col1, col2, ....如果显式包括一个包含相同的列的ORDER ...
Hibernate查询之SQL查询，查询结果用new新对象的方式接受，hql查询，通过SQL查询的结果返回到一个实体中，查询不同表中内容，并将查到的不同表中的内容放到List中
package com.ucap.netcheck.dao.impl; import java.util.ArrayList;import java.util.List; import org. ...
【linux学习笔记】Sublime Text3支持GB2312和GBK编码以及中文输入法
几天在ubuntu15.10下使用Sublime Text3发现中文乱码,以及不能使用中文输入法(搜狗输入法linux版)的问题,捣鼓了半天,终于完善了,下面po一下我的解决方案. 一.支持GB231 ...
iOS中 UIWebView加载网络数据技术分享
直奔核心: #import "TechnologyDetailViewController.h" #define kScreenWidth [UIScreen mainScreen ...
为什么不要重载 && 和 || 操作符！！！
理论知识: 1)&&和 || 是C++中非常特殊的操作符 2)&&和 || 内置实现了短路规则简单说明一下短路规则. demo1 #include <iostr ...
基于HTTP头部的注入
基于HTTP头部的注入常见的sql注入一般都是通过表单或请求参数进行注入,但这里给出的例子是通过HTTP协议头部进行注入. 例如一个的请求如下: GET / HTTP/1.1 Host: www.e ...
管道模式——pipeline与valve
在一个比较复杂的大型系统中,假如存在某个对象或数据流需要被进行繁杂的逻辑处理的话,我们可以选择在一个大的组件中进行这些繁杂的逻辑处理,这种方式确实达到了目的,但却是简单粗暴的.或许在某些情况这种简单粗 ...

9.3.3 scrapy 框架

9.3.3 scrapy 框架的更多相关文章

随机推荐

热门专题