scrapy 自学入门demo分享
本文基于python 3.7.0,win10平台; 2018-08
安装
安装python
- 官网下载 https://www.python.org/
- 注意环境变量是否配置成功
安装scrapy
为了安装顺利,请备好梯子
- pip install Scrapy
安装过程中注意以下报错信息:
Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"
解决办法:
- https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载对应版本twisted的whl文件
- cp:表示python版本
- amd64:表示64位
- 下载后在文件目录下执行: pip install Twisted-18.7.0-cp37-cp37m-win_amd64.whl(文件名)
创建项目
- 创建scrapy:scrapy startproject youName
- 创建spider:scrapy genspider // 在项目跟目录执行
配置settings.py文件
- 如果抓取的内容包含中文可配置:FEED_EXPORT_ENCODING = 'utf-8'
- 报错误信息403:把USER_AGENT加上(可在网站请求头信息中查看)
编写items.py文件
import scrapy
class NovelItem(scrapy.Item):
title = scrapy.Field()
content = scrapy.Field()
这些即你需要保存的字段名
编写spider
import scrapy
# 引入自定义的items
from myTest.items import NovelItem
# # 继承scrapy.Spider
class NovelSpider(scrapy.Spider):
# 爬虫名
name = 'novel_spider'
# 允许的域名
allowed_domains = ['http://www.danmeila.com']
# 入口url 扔到调度器里面去
start_urls = ['http://www.danmeila.com/chapter/20180406/29649.html']
def parse(self, response):
movieList = response.xpath('//*[@id="container"]/div[3]/div[2]/div[2]/div/div/ul/li')
novelContent = NovelItem()
for item in movieList:
u = 'http://www.danmeila.com' + item.xpath('.//a/@href').extract_first()
yield scrapy.Request(u, callback= self.content_a, meta= { 'nc': novelContent }, dont_filter = True)
# 放到管道里否则 pipeline获取不到
# 如果你发现拿到的内容一直为空,注意是否被过滤了,即dont_filter没有设置
def content_a(self, response):
novelContent = response.meta['nc']
novelContent['title'] = response.xpath('//*[@id="J_article"]/div[1]/h1/text()').extract_first()
yield novelContent
注意以下几点:
- 采用xpath编写,在浏览器中可以直接查看元素,找到要爬取内容的标签,右键选copy xpath
- extract_first()的使用;text() 获取文本;@属性名 获取属性值
- 在父节点下使用xpath路径前要加./
- 去除换行空格用 xpath('normalize-space('.//div/text()')')
执行
导出为json: scrapy crawl your-spider-name -o test.json
如果出现报错信息:
- async语法错误,把用到该名称作为参数的文件全部作修改 把这个参数名改为其它即可
- 报错 No module named 'win32api': 到https://pypi.org/project/pypiwin32/#files(下载文件pypiwin32-223-py3-none-any.whl 执行 pip install pypiwin32-223-py3-none-any.whl )
若有疑问或错误,请留言,谢谢!Github blog issues
scrapy 自学入门demo分享的更多相关文章
- egg 自学入门demo分享
目录 安装 项目 连接数据库 编写model 编写controller 添加路由 2018-08,本文适用于对egg有兴趣想要了解的同学 完整项目代码:https://github.com/NameH ...
- 史诗手册!微信小程序新手自学入门宝典!
一.小程序官方指南 1:官方开发工具下载: https://mp.weixin.qq.com/debug/wxadoc/dev/devtools/download.html?t=201714 0.12 ...
- WPF自学入门(三)WPF路由事件之内置路由事件
有没有想过在.NET中已经有了事件机制,为什么在WPF中不直接使用.NET事件要加入路由事件来取代事件呢?最直观的原因就是典型的WPF应用程序使用很多元素关联和组合起来,是否还记得在WPF自学入门(一 ...
- WPF自学入门(十一)WPF MVVM模式Command命令
在WPF自学入门(十)WPF MVVM简单介绍中的示例似乎运行起来没有什么问题,也可以进行更新.但是这并不是我们使用MVVM的正确方式.正如上一篇文章中在开始说的,MVVM的目的是为了最大限度地降低了 ...
- WPF自学入门(十二)WPF MVVM模式提取函数
我们平时在写代码时为了不重复写代码,会进行复制代码或者写通用方法.今天我们就来把上传做的函数提取成为通用的方法调用.把上次写的函数提取为两个主要的文件:ObserableObject和RelayCom ...
- 自学入门 Python 优质中文资源索引
所有资源基于 Python3 版本,全部中文内容,适用于 爬虫 / Web / 数据 方向,每个单元根据学习习惯从 书籍 / 文档 / 视频 中选择一类即可,建议任选一本书籍,然后配合文档类进行学习. ...
- WPF自学入门(十一)WPF MVVM模式Command命令 WPF自学入门(十)WPF MVVM简单介绍
WPF自学入门(十一)WPF MVVM模式Command命令 在WPF自学入门(十)WPF MVVM简单介绍中的示例似乎运行起来没有什么问题,也可以进行更新.但是这并不是我们使用MVVM的正确方式 ...
- ReactJs 入门DEMO(转自别人)
附件是分享的一些他人的ReactJs入门DEMO,以前版本使用的是JSXTransformer.js,新版的用browser.min.js替代了. DEMO 下载地址:http://files.cnb ...
- Maven+SpringMVC+Dubbo 简单的入门demo配置
转载自:https://cloud.tencent.com/developer/article/1010636 之前一直听说dubbo,是一个很厉害的分布式服务框架,而且巴巴将其开源,这对于咱们广大程 ...
随机推荐
- easyui close的最大化的dialog 切换 tab 再次出现
今天发现一个神奇的bug,easyui中的dialog在经历了d.panel('close');之后,当前的tab仍然未关闭,切换了另一tab,然后回去刚才的tab,发现已经close的dialog又 ...
- DStream转为DF的两种方式(突破map时元组22的限制)
在进行Spark Streaming的开发时,我们常常需要将DStream转为DataFrame来进行进一步的处理, 共有两种方式,方式一: val spark = SparkSession.buil ...
- 【译】.NET Core 3.0 发布自包含单体可执行程序
.NET Core 提供的发布应用程序选项 self-contained 是共享应用程序的好方法,因为应用程序的发布目录包含所有组件.运行时和框架.您只需要告诉使用者应用程序的入口 exe 文件,就可 ...
- [原创]lvs+ospf+nginx实现高可用大流量web架构
lvs+ospf+nginx实现高可用大流量web架构配置总概述 架构图: 配置如下: .quagga之zebra配置: # cat /etc/quagga/zebra.conf ! ! Zebra ...
- 在springboot中使用swagger2
1.在springboot中使用swagger的话,首先在pom文件中引入依赖 <!-- https://mvnrepository.com/artifact/io.springfox/spri ...
- [PTA] L3-015 球队“食物链”
原题链接 思路: 如果有环,则起点一定为"1".如果没有可以胜过"1"的,则无环. 根据W,L来建立图,用dfs从1节点遍历+回溯. 剪枝:dfs到某个子序列时 ...
- 安卓BindService笔记
1 前言 最近学习到了安卓的service,记录一下自己对BindService的理解,学习教程以及部分代码来自菜鸟教程的android教程:菜鸟教程安卓端BindService链接 2 正文 先贴一 ...
- 为什么一直玩A股的股民转战去玩港美股了?港美股系统搭建!
今天先聊一下,为什么买港美股?不买 A 股? 1.A 股散户太多,港股美股机构居多. A 股市场,散户占据了70%以上交易份额,散户太多有什么坏处?少量的机构和大户很容易坐庄操控股价.A 股几乎所有票 ...
- 浅谈单点登陆(SSO)
背景 在企业发展初期,企业使用的系统很少,通常一个或者两个,每个系统都有自己的登录模块,运营人员每天用自己的账号登录,很方便. 但随着企业的发展,用到的系统随之增多,运营人员在操作不同的系统时,需要多 ...
- MVC WebApi 实现Token验证
基于令牌的认证 我们知道WEB网站的身份验证一般通过session或者cookie完成的,登录成功后客户端发送的任何请求都带上cookie,服务端根据客户端发送来的cookie来识别用户. WEB A ...