初窥scrapy爬虫

2017-10-30 21:49:55

前言：

初步使用scrapy爬虫框架，爬取各个网站信息

系统环境：

64位win10系统，装有64位python3.6，IDE为pycharm，使用cmd命令行工具

预备知识：

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似，以下是最有用的路径表达式：

代码：

import scrapy

class JulyeduSpider(scrapy.Spider):

    name = 'julyedu'

    start_urls = ['https://www.julyedu.com/category/index']

    def parse(self,response):

        for julyedu_class in response.xpath('//div[@class="course_info_box"]'):

            print (julyedu_class.xpath('a/h4/text()').extract_first())

            print (julyedu_class.xpath('a/p[@class="course-info-tip"]/text()').extract_first())

            print (julyedu_class.xpath('a/p[@class="course-info-tip info-time"]/text()').extract_first())

            yield {'title':julyedu_class.xpath('a/h4/text()').extract_first(),

                   'desc':julyedu_class.xpath('a/p[@class="course-info-tip"]/text()').extract_first(),

                   'time':julyedu_class.xpath('a/p[@class="course-info-tip info-time"]/text()').extract_first()}

代码解释：

首先建立一个文件名为“julyedu_spider”的py文件，导入scrapy框架，然后创建一个JulyeduSpider的类，名字为'juyedu'，start_urls为起始的网址。

然后定义解析网页的方法parse，我们需要获取标题，描述，时间等信息，因此右键检查，

'//div[@class="course_info_box”]'表示选取属性为"course_info_box”标签的子元素，而不管他们的在文档中的位置

'a/h4/text()'表示a标签的子标签h4的文本内容

'a/p[@class="course-info-tip"]/text()'表示a标签的class属性为“..”的p标签的文本内容

'a/p[@class="course-info-tip info-time"]/text()'同理

yield表示创建对应的字典，将数据导入到json,xml,csv等格式的文件中
保存文件后，我们打开cmd窗口，注意要在py文件的目录下打开（按住shift右键即可），输入

scrapy runspider julyedu_spider.py

即可看到打印的内容

再输入

scrapy runspider julyedu_spider.py -o julyedu_class.csv

即可将爬取数据保存到CSV文件中

另外

再补充scrapy shell的用法，同样我们需要在进入项目的根目录，在命令行中输入：

scrapy shell 'https://www.julyedu.com/category/index'

即可加载shell，会获得一个response回应，然后输入

response.xpath('xpath路径')

即可得到所需的内容

初窥scrapy爬虫的更多相关文章

python爬虫 scrapy2_初窥Scrapy
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...
scrapy2_初窥Scrapy
递归知识:oop,xpath,jsp,items,pipline等专业网络知识,初级水平并不是很scrapy,可以从简单模块自己写. 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数 ...
Scrapy 1.4 文档 01 初窥 Scrapy
初窥 Scrapy Scrapy 是用于抓取网站并提取结构化数据的应用程序框架,其应用非常广泛,如数据挖掘,信息处理或历史存档. 尽管 Scrapy 最初设计用于网络数据采集(web scraping ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
Scrapy001-框架初窥
Scrapy001-框架初窥 @(Spider)[POSTS] 1.Scrapy简介 Scrapy是一个应用于抓取.提取.处理.存储等网站数据的框架(类似Django). 应用: 数据挖掘信息处理 ...
scrapy爬虫结果插入mysql数据库
1.通过工具创建数据库scrapy
初窥Kaggle竞赛
初窥Kaggle竞赛原文地址: https://www.dataquest.io/mission/74/getting-started-with-kaggle 1: Kaggle竞赛我们接下来将要 ...
Linux搭建Scrapy爬虫集成开发环境
安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...

随机推荐

（转）GrabPass捕捉屏幕纹理
转自:http://blog.sina.com.cn/s/blog_89d90b7c0102va4m.html 最近在看热扭曲效果,里面用到了GrabPass. 之前看过官方翻译版本的说明http:/ ...
stingray中使用angularjs
引入angularjs 手动启用angularjs 不使用ng-app, 在所有模块和controller定义后挂载启用angularjs function OnLoad() { scroll(0, ...
Mongodb查询命令详解
前面我们简单的讲了下find方法,下面来深入的过一下它的用法以及常用的字方法. 下面是mongo中db.user.help()中对find方法的定义和解释: db.user.find([query], ...
在Asp.Net中操作PDF – iTextSharp - 操作图片
iTextSharp支持所有主流的图片格式,比如:jpg, tif, gif, bmp, png和wmf.在iTextSharp中使用Image.GetInstance()方法创建图片有很多种方式,或 ...
Java常用测试工具
第一部分:九款性能测试 Java入门如果你才刚开始接触Java世界,那么要做的第一件事情是,安装JDK——Java Development Kit(Java开发工具包),它自带有Java Runti ...
并发和多线程-八面玲珑的synchronized
上篇<并发和多线程-说说面试常考平时少用的volatile>主要介绍的是volatile的可见性.原子性等特性,同时也通过一些实例简单与synchronized做了对比. 相比较volat ...
XPath轴(XPath Axes)总结
XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1.child 选取当前节点的所有子元素 2.parent 选取当前节点的父节点 3.descendant 选取当前节点的所有后 ...
[svc]数字证书基础知识
数字证书基础原理数字证书采用PKI(Public Key Infrastructure)公开密钥基础架构技术,利用一对互相匹配的密钥进行加密和解密. 每个用户自己设定一把特定的仅为本人所知的私有密钥 ...
docker的swarm介绍
转载自:https://blog.csdn.net/karamos/article/details/80132082 另外一篇:https://www.jianshu.com/p/9eb9995884 ...
Flink source task 源码分析
http://vinoyang.com/2016/05/05/flink-stream-source/ http://vinoyang.com/2016/12/28/flink-runtime-com ...