python应用：爬虫框架Scrapy系统学习第四篇—

使用cmd创建一个scrapy项目：

　　scrapy startproject project_name (project_name 必须以字母开头，只能包含字母、数字以及下划线<underscorce>)

　　项目目录层级如下：

声明Item

　　声明我们可能用到的所有字段，包括管理字段等。管理字段可以让我们清楚何时（date）、何地（url server）及如何（spider）执行爬去，此外，还可以自动完成诸如使item失效、规划新的抓取迭代或是删除来自有问题的爬虫的item。

管理字段	Python表达式
url	response.url 例：‘http://www.baidu.com’
project	self.ettings.get('BOT_NAME') 例：‘crawl_novel’
spider	self.name 例：‘basic’
server	socket.gethostname() 例：‘scrapyserverl’
date	datetime.datetime.now() 例：‘datetime.datetime(2019,1,21……)’

 # -*- coding: utf-8 -*-

 # Define here the models for your scraped items

 #

 # See documentation in:

 # https://doc.scrapy.org/en/latest/topics/items.html

 import scrapy

 class CrawlNovelItem(scrapy.Item):

     # Primary fields

     title = scrapy.Field()

     author = scrapy.Field()

     classify = scrapy.Field()

     recommend = scrapy.Field()

     chapter_urls = scrapy.Field()

     # Calculated fields

     chapter = scrapy.Field()

     # Housekeeping fields

     url = scrapy.Field()

     project = scrapy.Field()

     spider = scrapy.Field()

     server = scrapy.Field()

     date = scrapy.Field()

编写爬虫并填充item

使用scrapy genspider 命令

　　scrapy genspider -l 查看可用模板

　　scrapy genspider -t 使用任意其他模板创建爬虫

　　e.g. scrapy genspider basic www spiders目录中新增一个basic.py文件，并限制只能爬取www域名下的url

使用 scrapy crawl 命令运行爬虫文件

　　e.g. scrapy crawl basic (basic是spider下的爬虫文件)

使用 scrapy parse命令用不同页面调试代码

　　e.g. scrapy parse --spider=basic http://www.……

使用scrapy crawl basic -o +文件名.文件类型保存文件

　　e.g. scrapy crawl basic -o items.json(items.csv、items.j1、items.xml)

basic.py

 # -*- coding: utf-8 -*-

 import scrapy

 from crawl_novel.items import CrawlNovelItem

 class BasicSpider(scrapy.Spider):

     name = 'basic'

     allowed_domains = ['www']

     start_urls = ['http://www.biquge.info/22_22559/']

     def parse(self, response):

         '''

         self.log("title: %s" % response.xpath('//h1[1]/text()').extract())

         self.log("author: %s" % response.xpath('//*[@id="info"]/p[1]/text()').extract())

         self.log("classify: %s" % response.xpath('//*[@id="info"]/p[2]/text()').extract())

         self.log("recommend: %s" % response.xpath('//*[@id="listtj"]//text()').extract())

         self.log("chapter_urls %s" % response.xpath('//*[@id="list"]//a').extract())

         '''

         # 填充item

         item = CrawlNovelItem()

         item['title'] = response.xpath('//h1[1]/text()').extract()

         item['author'] = response.xpath('//*[@id="info"]/p[1]/text()').extract()

         item['classify'] = response.xpath('//*[@id="info"]/p[2]/text()').extract()

         item['recommend'] = response.xpath('//*[@id="listtj"]//text()').extract()
 　　　　 item['chapter_urls'] = response.xpath('//*[@id="list"]//a/@href').extract() 
 return item

清理——item装载器、添加管理字段，并对数据进行格式化和清洗

使用ItemLoader以代替那些杂乱的extract()和xpath()操作

使用MapCompose参数

使用lambda表达式

 # -*- coding: utf-8 -*-

 import datetime

 import socket

 import urlparse

 import scrapy

 from scrapy.loader import ItemLoader

 from scrapy.loader.processors import MapCompose, Join

 from crawl_novel.items import CrawlNovelItem

 class BasicSpider(scrapy.Spider):

     name = 'basic'

     allowed_domains = ['www']

     start_urls = ['http://www.biquge.info/22_22559/']

     def parse(self, response):

         # 定义装载器

         l = ItemLoader(item=CrawlNovelItem(), response=response)

         # 使用处理器

         # 去除首位空白符，使结果按照收尾标题格式

         l.add_xpath('title', '//h1[1]/text()', MapCompose(unicode.strip, unicode.title))

         l.add_xpath('author', '//*[@id="info"]/p[1]/text()', MapCompose(unicode.strip))

         l.add_xpath('classify', '//*[@id="info"]/p[2]/text()', MapCompose(unicode.strip))

         # 将多个结果连接在一起

         l.add_xpath('recommend', '//*[@id="listtj"]//text()', Join())

         # 使用lambda表达式（以response.url为基础，将相对路径i转化为绝对路径）

         l.add_xpath('chapter_urls', '//*[@id="list"]//a/@href', MapCompose(lambda i: urlparse.urljoin(response.url, i)))

         # 添加管理字段

         l.add_value('url', response.url)

         l.add_value('project', self.settings.get('BOT_NAME'))

         l.add_value('spider', self.name)

         l.add_value('server', socket.gethostname())

         l.add_value('date', datetime.datetime.now())

         return l.load_item()

创建contract，检验代码可用性

使用scrapy check + 文件名执行

　　e.g. scrapy check basic

     def parse(self, response):

         """This function parses a property page.

         @url http://www.biquge.info/22_22559/

         @returns items 1

         @scrapes title author classify recommend chapter_urls

         @scrapes url project spider server date

         """

         # 定义装载器

         l = ItemLoader(item=CrawlNovelItem(), response=response)

         ……

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说的更多相关文章

Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
python网络爬虫（12）去哪网酒店信息爬取
目的意义爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源少部分来源于书.python爬虫开发与项目实战构造本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...

随机推荐

【Leetcode】【Medium】Unique Binary Search Trees II
Given n, generate all structurally unique BST's (binary search trees) that store values 1...n. For e ...
SAP Customer Data Cloud(Gigya)的用户搜索实现
我在Gigya前台根据email搜索,输入一个邮箱地址,回车,在Chrome开发者工具里观察到到后台的网络请求: 这是一个post请求: __RequestVerificationToken 请求体: ...
su
参数选项:-,-l,--login 切换用户的同时,将用户的家目录.系统环境变量等重新按切换后的用户初始化.-c 向shell传递单个命令,仅希望在某个用户下执行命令,而不用直接切换到该用户下来操作. ...
hdu-2879 hehe---积性函数
题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=2879 题目大意: he[n]为小于n且满足x^2 = x (mod n)的个数 hehe[n] = ...
Loj#572. 「LibreOJ Round #11」Misaka Network 与求和
题目有生之年我竟然能\(A\) 这个题求的是这个 \[\sum_{i=1}^n\sum_{j=1}^nf(gcd(i,j))^k\] \(f(i)\)定义为\(i\)的次大质因子,其中\(f(p)= ...
说说application/x-www-form-urlencoded和application/json的区别
今天一位同事在于微信小程序开发人员那边在对接测试的时候,遇到了一个错误,安卓那边是以application/json作为请求体类型,而Java这边仍向往常那样没有多么大的变化,但是就是前台传输的数据为 ...
js中array(数组).map
使用前使用后代码:
100个常用的linux命令(转)
来源:JavaRanger – javaranger.com http://www.javaranger.com/archives/907 1,echo “aa” > test.txt 和 ...
使用PIE.htc让万恶的IE内核浏览器IE6\7\8支持CSS3部分属性
万恶的IE内核浏览器,这是多少前端程序员头疼的事情... 今天给大家介绍一下如何用 PIE.htc 来让IE浏览器支持CSS3的 border-radius.box-shadow.CSS3 Backg ...
一点一点看JDK源码（二）java.util.List
一点一点看JDK源码(二)java.util.List liuyuhang原创,未经允许进制转载本文举例使用的是JDK8的API 目录:一点一点看JDK源码(〇) 1.综述 List译为表,一览表, ...

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

管理字段

Python表达式

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说的更多相关文章

随机推荐

热门专题