scrapy 爬取小说
QiushuSpider
# -*- coding: utf-8 -*-
import scrapy
import time
from qiushu.items import QiushuItem class QiushuspiderSpider(scrapy.Spider):
name = 'QiushuSpider'
allowed_domains = ['www.qiushu.cc']
start_urls = ['http://www.qiushu.cc/'] def parse(self, response):
'''解析分类列表'''
# TODO 解析分类
# 分类URLs
links = response.xpath('//p[@class="hot_tips"]/a/@href').extract()
# 所有类型链接
for i in links:
url = 'http://www.qiushu.cc' + i
yield scrapy.Request(url, callback=self.parse_books, dont_filter=True) def parse_books(self, response):
'''解析书籍列表'''
# TODO: 解析书籍列表
# time.sleep(2)
book_url = []
for i in response.xpath('//*[@id="main"]/div[1]/div/div/ul/li'):
book_dan_url = ''.join(i.xpath('.//span[@class="t1"]/a/@href').extract_first())
book_url.append(book_dan_url)
print('*' * 30, book_dan_url)
# import ipdb as pdb; pdb.set_trace()
print('*' * 30, book_url)
for i in book_url:
yield scrapy.Request(i, callback=self.parse_section, dont_filter=True)
# TODO: 处理下一页
xia_url = ''.join(response.xpath('//*[@class="next"]/@href').extract())
if bool(xia_url):
yield scrapy.Request(xia_url, callback=self.parse_books, dont_filter=True) def parse_section(self, response):
'''解析具体的某一章'''
# TODO: 解析具体的章
item = QiushuItem()
# 书名
item['name'] = ''.join(response.xpath('//div[@class="title"]/h1/text()').extract())
# 作者
item['author'] = ''.join(response.xpath('//div[@class="title"]/span/text()').extract())
# 书籍分类标签
item['booktype'] = ''.join(response.xpath('//*[@id="main"]/div[2]/text()[2]').extract()).split('>')[1]
# 书籍状态
item['state'] = ''.join(response.xpath('//*[@id="main"]/div[2]/span/text()').extract())
# 书籍的有效地址
item['showUrl'] = response.url
# 书籍描述
item['describe'] = ''.join(response.xpath('//div[@class="intro"]/p/text()').extract())
yield item
items
# -*- coding: utf-8 -*- # Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html import scrapy class QiushuItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 书名
name = scrapy.Field()
# 作者
author = scrapy.Field()
# 书籍分类标签
booktype = scrapy.Field()
# 书籍状态
state = scrapy.Field()
# 书籍的有效地址
showUrl = scrapy.Field()
# 书籍描述
describe = scrapy.Field()
scrapy 爬取小说的更多相关文章
- Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑 一 准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
- scrapy爬取小说盗墓笔记
# -*- coding: utf-8 -*- import scrapy from daomu.items import DaomuItem class DaomuspiderSpider(scra ...
- 小说免费看!python爬虫框架scrapy 爬取纵横网
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 风,又奈何 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
- 以豌豆荚为例,用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
- scrapy 爬取纵横网实战
前言 闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧 准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目 两条命 ...
- Python实战项目网络爬虫 之 爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
- scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
随机推荐
- 三、CSS样式——字体
概念: CSS字体属性定义文本的字体系列.大小.加粗.风格和变形. 属性 描述 font-family 设置字体系列 font-size 设置字体的大小 font-style 设置字体的风格 font ...
- 关于mpi的理论知识以及编写程序来实现数据积分中的梯形积分法。
几乎所有人的第一个程序是从“hello,world”程序开始学习的 #include "mpi.h" #include <stdio.h> int main(int a ...
- Windows环境下在sublime text3配置C编译环境
1. 检查本机有没有安装GCC,没有的话先进行安装 2. 选择 sublime 的Tools->Build System->New Build System,建立配置文件,文件命名为C.s ...
- py库:os、shutil、pathlib
https://www.cnblogs.com/MnCu8261/p/5494807.html shutil模块 http://blog.csdn.net/rozol/article/details/ ...
- Spring 依赖注入(基本注入和自动适配注入)
Spring 依赖注入 Spring框架的核心功能之一就是通过依赖注入的方式来管理Bean之间的依赖关系. 属性注入 构造注入 内部注入 自动装配 1.属性注入 IService: public in ...
- java面试题复习(五)
41.阐述final.finally.finalize的区别 final:修饰符(关键字)有三种用法:如果一个类被声明为final,意味着它不能再派生出新的子类,即不能被继承,因此它和abstract ...
- KVM虚拟化环境安装随笔
1. KVM由来 KVM:Kernel-based Virtual Machine 2.软件说明 libvirt 作用:虚拟机的管理软件 virt virt-install virt-clone ...
- Django url
urlpatterns = [ url(正则表达式, views视图函数,参数,别名),] 参数说明: 一个正则表达式字符串 一个可调用对象,通常为一个视图函数或一个指定视图函数路径的字符 ...
- python之路:变量与变量基本操作(老王版)
python开发之路:变量与变量基本操作 你是一个师范大学的优秀毕业生,现在在某某小学工作. 你想:判作业真的很累,隔壁老王现在天天玩<蓝月传奇>,银行里存满了钱.唉,每节课1个小时,每个 ...
- python中的全局变量和局部变量
python中,对于变量作用域的规定有些不一样. 在诸如C/C++.java等编程语言中,默认在函数的内部是能够直接訪问在函数外定义的全局变量的,可是这一点在python中就会有问题.以下是一个样例. ...