Scrapy代码实战

1.Spider爬虫代码

 # -*- coding: utf-8 -*-

 import scrapy

 from yszd.items import YszdItem

 class YszdSpiderSpider(scrapy.Spider):

     # 爬虫名称，启动爬虫时必须的参数

     name = 'yszd_spider'

     # 爬取域范围，运行爬虫在这个域名下爬取数据（可选）

     allowed_domains = ['itcast.cn']

     # 起始url列表，爬虫执行后第一批请求将从这个列表里获取

     start_urls = ['http://www.itcast.cn/channel/teacher.shtml']

     def parse(self, response):

         # //表示跳级定位，即对当前元素的所有子节点进行查找，一般开头都是使用跳级定位

         # div[@class='li_txt'] : 查找div且属性class='li_txt'的

         node_list = response.xpath("//div[@class='li_txt']")

         # 存储所有item字段

         # items = []

         for node in node_list:

             # 创建item字段对象用来存储信息

             item = YszdItem()

             # extract() : 将xpath对象转换为Unicode字符串

             name = node.xpath("./h3/text()").extract()

             title = node.xpath("./h4/text()").extract()

             info = node.xpath("./p/text()").extract()

             item['name'] = name[0]

             item['title'] = title[0]

             item['info'] = info[0]

             yield item

             # items.append(item)

2.Item代码（定义爬取的字段）

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # https://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class YszdItem(scrapy.Item):

     name = scrapy.Field()

     title = scrapy.Field()

     info = scrapy.Field()

3.Pipelines管道代码

 # -*- coding: utf-8 -*-

 # Define your item pipelines here

 #

 # Don't forget to add your pipeline to the ITEM_PIPELINES setting

 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

 import json

 class YszdPipeline(object):

     def __init__(self):

         self.f = open("yszd.json", "w")

     def process_item(self, item, spider):

         # ensure_ascii默认是True，会把内容转换为unicode

         text = json.dumps(dict(item), ensure_ascii=False) + "\n"

         self.f.write(text)

         return item

     def close_spider(self, spider):

         self.f.close()

4.setting代码（开启管道，300表示优先级，越小优先级越高）

5.运行爬虫

　　执行命令：scrapy crawl yszd_spider

　　注意：yszd_spider为你定义爬虫的名称，与1中的第8行代码对应！

6.执行结果

Scrapy代码实战的更多相关文章

Scala 深入浅出实战经典第64讲：Scala中隐式对象代码实战详解
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第63讲：Scala中隐式类代码实战详解
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第52讲：Scala中路径依赖代码实战详解
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第51讲：Scala中链式调用风格的实现代码实战及其在Spark中应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第49课 Scala中Variance代码实战(协变)
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第48讲：Scala类型约束代码实战及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第47讲：Scala多重界定代码实战及其在Spark中的应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第40讲：Set、Map、TreeSet、TreeMap操作代码实战
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第39讲：ListBuffer、ArrayBuffer、Queue、Stack操作代码实战
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

随机推荐

.NetCore外国一些高质量博客分享
前言我之前看.netcore一些问题时候,用bing搜索工具搜到了一些外国人的博客.翻看以下,有学习的价值,就分享在这里了. 个人博客 andrewlock.net 最新几篇如下,一看标题就知道很有 ...
用dos命令导出一个文件夹里面所有文件的名字(装逼利器)
首先,当然是在相关的文件夹打开dos命令窗口. 然后,输入如下命令:dir/b >a.txt 如果你非常了解dos命令,那么你一定会觉得这个东西简单到爆,而且我的理解和猜想都有些无知. 但如果你 ...
SpringBoot2.0应用（五）：SpringBoot2.0整合MyBatis
如何整合MyBatis 1.pom依赖 <dependency> <groupId>org.mybatis.spring.boot</groupId> <ar ...
使用Pyinstaller转换.py文件为.exe可执行程序
pyinstaller能够在Windows.Linux等操作系统下将Python脚本打包成可直接运行程序.使Python脚本可以在没有安装Python的环境中直接运行,方便共享. 测试环境 pytho ...
React Fiber源码分析第二篇（同步模式）
先附上两张流程图 1.scheduleRootUpdate 这个函数主要执行了两个操作 1个是创建更新createUpdate并放到更新队列enqueueUpdate, 1个是执行sheculeW ...
Winform系列——好看的DataGridView折叠控件
来园子几年了,第一次写博客.以前看到别人的博客就在想:这些人怎么能有这么多时间整理这么多知识,难道他们不用工作.不用写代码.不用交付测试?随着工作阅历的增加,发现其实并不是时间的问题,关键一个字:懒. ...
Code First下迁移数据库更改
第一步:Enable-Migrations -ContextTypeName [你的项目名].[你的数据库上下文] -Force 其中-Force为强制覆盖现有迁移配置第二步:Add-Migrati ...
CLR 协变、逆变
看书看得有点晕了,协变.逆变傻傻分不清楚. 看到泛型和委托.委托方法,发现这里面的协变和逆变不一样. 泛型的逆变和协变:如果某个返回类型可以由其基类替换,那么这个类型就是支持协变的.如果某个参数类型可 ...
OKR20180607
OKR---目标与关键成果法一套明确和跟踪目标及其完成情况的管理工具和方法 OKR的主要目标是明确公司和团队的“目标”以及每个目标达成的可衡量的“关键结果”. “目标”是设定一个定性的时间目标.“关 ...
Bootstrap中的datetimepicker用法
本文实例为大家分享了bootstrap datetimepicker日期插件的简单使用,供大家参考,具体内容如下首先在文件头部引入必要的文件: 1 2 <link rel="styl ...

Scrapy代码实战

Scrapy代码实战的更多相关文章

随机推荐

热门专题