Scrapy中用xpath/css爬取豆瓣电影Top250:解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起。。。。
下面我就采用scrapy爬取豆瓣电影top250的方法记录一下,里面采用了selector的xpath和css两种各实现了一遍,其中xpath的选取路径较为清晰以及能够直接选到标签属性,css则较为有点小抽象,没有xpath直观,优点是结构简单,书写方便。于是我都实现了一遍,汗哒哒。。。
步骤一:生成项目名称
从windows的cmd命令行或者ubuntu的终端下进入你想保存项目的文件下,输入一下代码:
scrapy startproject doubanmovie (注意:换成你的项目名称)
cd doubanmovie
- 1
- 2
cmd中进入doubanmovie后,也就是进入你的项目文件夹后,后面所有的在cmd下或者终端下进行的scrapy命令都是在这个目录下进行的。
步骤二:配置settings.py文件
这个文件就是一些基本的配置,比如访问网站的延迟代理等等,在这里我们设置下将爬取的数据以指定的格式保存到指定目录
FEED_URI = u'file:///E:/python/wswp-code/MyExample/MyScrapy/douban3.csv' #将抓取的数据存放到douban.csv文件中。(从E:/开始,换成你的目录)
FEED_FORMAT = 'CSV'
- 1
- 2
然后就是关闭代理了,默认使用代理,有些网页使用本地代理无法访问,否则会报错[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
[scrapy] DEBUG: Crawled (403)HTTP status code is not handled or not allowed
此时,修改setting.py如下:
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
- 1
- 2
- 3
之后就可以正常爬取豆瓣电影网站了。
步骤三:配置items.py文件
import scrapy
class Doubanmovie3Item(scrapy.Item):
rank = scrapy.Field()#电影排名
title = scrapy.Field()#标题--电影名
link = scrapy.Field()#详情链接
star = scrapy.Field()#电影评分
rate = scrapy.Field()#评价人数
quote = scrapy.Field() #名句
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
步骤四:生成spider文件夹下的爬虫douban.py文件
在上面的cmd下或者终端下:
scrapy genspider douban
- 1
或者
scrapy genspider douban movie.douban.com
- 1
步骤五:配置spider文件夹下的douban.py文件
这里也就是重点了,爬取的规则和解析都在这里进行书写,我在这里采用了selector的xpath和css方法分别实现了一遍,就是想进行个对比,读者可以随便选择一个。
xpath方法:
# -*- coding: utf-8 -*-
import scrapy
from doubanmovie.items import DoubanmovieItem
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for info in response.xpath('//div[@class="item"]'):
item = DoubanmovieItem()
item['rank'] = info.xpath('div[@class="pic"]/em/text()').extract()
item['title'] = info.xpath('div[@class="pic"]/a/img/@alt').extract()
item['link'] = info.xpath('div[@class="pic"]/a/@href').extract()
item['star'] = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()
item['rate'] = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[4]/text()').extract()
item['quote'] = info.xpath('div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()').extract()
yield item
# 翻页
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
css方法:
# -*- coding: utf-8 -*-
import scrapy
from doubanmovie.items import DoubanmovieItem
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]
start_urls = ['http://movie.douban.com/top250']
def parse(self, response):
for info in response.css('div.item'):
item = DoubanmovieItem()
item['rank'] = info.css('div.pic em::text').extract()
item['title'] = info.css('div.pic a img::attr(alt)').extract()
item['link'] = info.css('div.pic a::attr(href)').extract()
item['star'] = info.css('div.info div.bd div.star span.rating_num::text').extract()
rate = info.css('div.info div.bd div.star span')
item['rate'] = rate[3].css('::text').extract()
item['quote'] = info.css('div.info div.bd p.quote span::text').extract()
yield item
# 翻页
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
url = response.urljoin(next_page[0].extract())
yield scrapy.Request(url, self.parse)
"""
补充点关于css的用法
Scrapy的中Css 选择器
//通过 名为 video_part_lists 的Class 中下面的 li 标签
liList = response.css('.video_part_lists li')
for li in liList:
再通过li 标签获取 a 标签中得 href 属性
name= li.css('a::attr(href)').extract()
"""
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
步骤六:启动爬虫,观察日志
在上面的cmd中或者终端下:
scrapy crawl douban -s LOG_LEVEL=INFO
- 1
或者
scrapy crawl douban -s LOG_LEVEL=DEBUG
- 1
这个设置可以观察到详细的运行日志
步骤七:解决乱码问题
此时在你之前设定的保存文件的目录下,有了一个.csv文件,用window的记事本或者notepad++打开的话,可以正常显示;但是用excel打开的话则可能出来乱码,此时只需要重新用记事本打开然后另存为ANSI编码,然后就能用window的excel打开了。
附上参考的链接:
http://www.jianshu.com/p/62e0a588ee0d
http://www.tuicool.com/articles/Un2MNfe
http://blog.csdn.net/heu07111121/article/details/50832999
http://www.tuicool.com/articles/eymema
Scrapy中用xpath/css爬取豆瓣电影Top250:解决403HTTP status code is not handled or not allowed的更多相关文章
- scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
- scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
- urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
- python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
- 【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
- python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...
- 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...
- Python爬虫入门:爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
- Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
随机推荐
- after、append和appendTo三个函数的区别
jq文档的说明是 1.after函数 定义和用法: after() 方法在被选元素后插入指定的内容. 语法: $(selector).after(content) 实例: <html>&l ...
- Apache高级配置
认证授权和访问控制 ip访问控制: 目录控制语句以开头:以结束. AllowOverride None:不允许覆盖,即不允许从根目录向子目录覆盖.即默认情况下拒绝从根目录下向子目录访 问,如果要看根目 ...
- VS 一键调用 SVN Blame
在Windows上做项目开发的时候,常常需要调用SVN Blame去追溯一个文件的编辑历史,但是这个常见的需求往往需要很繁琐的步骤.首先需要打开文件所在文件夹,然后右键,在一长排上下文菜单中准确地选中 ...
- gcc编译选项汇集
gcc -g 调试选项(DEBUGGING OPTION)GNU CC拥有许多特别选项,既可以调试用户的程序,也可以对GCC排错: -g 以操作系统的本地格式(stabs, COFF, XCOFF,或 ...
- MySql sqlstate代码大全(转载)
http://blog.csdn.net/u013847120/article/details/52887813 本章列出了当你用任何主机语言调用MySQL时可能出现的错误.首先列出了服务器错误消息. ...
- SSL Pining Mode 设置iOS SSL 连接安全
一:SSL Ping Mode 使用SSL来进行网络通信成为了很多mobile app的默认选择.最近一些文章发现:一些app并没有采用“额外的措施”来保证窃听不可以发生:这个“额外的步骤“就是SSL ...
- NSPredicate模糊搜索和精确搜索
#pragma mark ------------ searchBar 代理方法 -------------------------- - (void)searchBar:(UISearchBar * ...
- NoSQL数据库介绍(2)
2 NoSQL潮流 在这一章中,将一起讨论NoSQL潮流的动机和主要驱动力.以及NoSQL主张的批评和反馈.本章将通过不同的尝试得出结论来分类和描写叙述NoSQL数据库.当中一个分类法将在随 ...
- 算法笔记_076:蓝桥杯练习 结点选择(Java)
目录 1 问题描述 2 解决方案 1 问题描述 问题描述 有一棵 n 个节点的树,树上每个节点都有一个正整数权值.如果一个点被选择了,那么在树上和它相邻的点都不能被选择.求选出的点的权值和最大是多 ...
- recess----1.第一个APP-helloRecess
选择recess的理由很简单,这个架构看起来很轻量级,很简单.至少是写起应用来感觉不需要考虑太多和架构相关的东西.没有按作者给的过程一步步来,折腾了好久...在这里记录一下. 安装过程略,官网文档无压 ...