Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

Scrapy在window上的安装教程见下面的链接：Scrapy安装教程

上述安装教程已实践，可行。（本来打算在ubuntu上安装Scrapy的，但是Ubuntu 磁盘空间太少了，还没扩展磁盘空间，所以没有在Ubuntu上装，至于如何在Ubuntu上安装Scrapy，网上有挺多教程的)

Scrapy的入门教程见下面链接：Scrapy入门教程

上面的入门教程是很基础的，先跟着作者走一遍，要动起来哟，不要只是阅读上面的那篇入门教程。

下面我简单总结一下Scrapy爬虫过程：

1、在Item中定义自己要抓取的数据：

movie_name就像是字典中的“键”，爬到的数据就像似字典中的“值”。在继承了BaseSpider的类中会用到：

第一行就是上面那个图中的TutorialItem这个类，红框圈出来的就是上图中的movie_name这个变量

2、然后在spiders目录下编辑Spider.py那个文件

按上面【入门教程】来写就行了，我这边给个例子，跟我上面的item是匹配的：

【入门教程】你没有给出start_requests这个方法，稍后我会讲到这个方法。另外这里的代码我都是截图，后面我会用代码面板显示我的代码，有需要的人可以复制下来玩玩。

3、编辑pipelines.py文件，可以通过它将保存在TutorialItem中的内容写入到数据库或者文件中

下面的代码示例是写到文件（如果要写到数据库中去，这里有个示例代码）中去：

对json模块的方法的注释：dump和dumps（从Python生成JSON），load和loads（解析JSON成Python的数据类型）；dump和dumps的唯一区别是dump会生成一个类文件对象，dumps会生成字符串，同理load和loads分别解析类文件对象和字符串格式的JSON。（注释来于http://www.jb51.net/article/52224.htm ）

4、爬虫开始

上述三个过程后就可以爬虫了，仅需上述三个过程哟，然后在dos中将目录切换到tutorial下输入scrapy crawl douban就可以爬啦：

上面几个过程只是先理清楚用Scrapy爬虫的思路，下面的重点戏是第二个过程，我会对这个过程进行较详细的解释，并提供代码。

douban_spider.py这个文件的代码如下：

 #coding=utf-8

 import sys

 reload(sys)

 #python默认环境编码时ascii

 sys.setdefaultencoding("utf-8")

 from scrapy.spider import BaseSpider

 from scrapy.http import Request

 from scrapy.selector import HtmlXPathSelector

 from tutorial.items import TutorialItem

 import re

 class DoubanSpider(BaseSpider):

     name = "douban"

     allowed_domains = ["movie.douban.com"]

     start_urls = []

     def start_requests(self):

         file_object = open('movie_name.txt','r')

         try:

             url_head = "http://movie.douban.com/subject_search?search_text="

             for line in file_object:

                 self.start_urls.append(url_head + line)

             for url in self.start_urls:

                 yield self.make_requests_from_url(url)

         finally:

             file_object.close()

             #years_object.close()

     def parse(self, response):

         #open("test.html",'wb').write(response.body)

         hxs = HtmlXPathSelector(response)

         #movie_name = hxs.select('//*[@id="content"]/div/div[1]/div[2]/table[1]/tr/td[1]/a/@title').extract()

         movie_link = hxs.select('//*[@id="content"]/div/div[1]/div[2]/table[1]/tr/td[1]/a/@href').extract()

         #movie_desc = hxs.select('//*[@id="content"]/div/div[1]/div[2]/table[1]/tr/td[2]/div/p/text()').extract()

         if movie_link:

             yield Request(movie_link[0],callback=self.parse_item)

     def parse_item(self,response):

         hxs = HtmlXPathSelector(response)

         movie_name = hxs.select('//*[@id="content"]/h1/span[1]/text()').extract()

         movie_director = hxs.select('//*[@id="info"]/span[1]/span[2]/a/text()').extract()

         movie_writer = hxs.select('//*[@id="info"]/span[2]/span[2]/a/text()').extract()

         #爬取电影详情需要在已有对象中继续爬取

         movie_description_paths = hxs.select('//*[@id="link-report"]')

         movie_description = []

         for movie_description_path in movie_description_paths:

             movie_description = movie_description_path.select('.//*[@property="v:summary"]/text()').extract()

         #提取演员需要从已有的xPath对象中继续爬我要的内容

         movie_roles_paths = hxs.select('//*[@id="info"]/span[3]/span[2]')

         movie_roles = []

         for movie_roles_path in movie_roles_paths:

             movie_roles = movie_roles_path.select('.//*[@rel="v:starring"]/text()').extract()

         #获取电影详细信息序列

         movie_detail = hxs.select('//*[@id="info"]').extract()

         item = TutorialItem()

         item['movie_name'] = ''.join(movie_name).strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';')

         #item['movie_link'] = movie_link[0]

         item['movie_director'] = movie_director[0].strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';') if len(movie_director) > 0 else ''

         #由于逗号是拿来分割电影所有信息的，所以需要处理逗号;引号也要处理，否则插入数据库会有问题

         item['movie_description'] = movie_description[0].strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';') if len(movie_description) > 0 else ''

         item['movie_writer'] = ';'.join(movie_writer).strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';')

         item['movie_roles'] = ';'.join(movie_roles).strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';')

         #item['movie_language'] = movie_language[0].strip() if len(movie_language) > 0 else ''

         #item['movie_date'] = ''.join(movie_date).strip()

         #item['movie_long'] = ''.join(movie_long).strip()

         #电影详情信息字符串

         movie_detail_str = ''.join(movie_detail).strip()

         #print movie_detail_str

         movie_language_str = ".*语言:</span> (.+?)<br><span.*".decode("utf8")

         movie_date_str = ".*上映日期:</span> <span property=\"v:initialReleaseDate\" content=\"(\S+?)\">(\S+?)</span>.*".decode("utf8")

         movie_long_str = ".*片长:</span> <span property=\"v:runtime\" content=\"(\d+).*".decode("utf8")

         pattern_language =re.compile(movie_language_str,re.S)

         pattern_date = re.compile(movie_date_str,re.S)

         pattern_long = re.compile(movie_long_str,re.S)

         movie_language = re.search(pattern_language,movie_detail_str)

         movie_date = re.search(pattern_date,movie_detail_str)

         movie_long = re.search(pattern_long,movie_detail_str)

         item['movie_language'] = ""

         if movie_language:

             item['movie_language'] = movie_language.group(1).strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';')

         #item['movie_detail'] = ''.join(movie_detail).strip()

         item['movie_date'] = ""

         if movie_date:

             item['movie_date'] = movie_date.group(1).strip().replace(',',';').replace('\'','\\\'').replace('\"','\\\"').replace(':',';')

         item['movie_long'] = ""

         if movie_long:

             item['movie_long'] = movie_long.group(1)

         yield item

douban_spider.py

代码有了，我来一步步讲解哈。

前言：我要爬的是豆瓣的数据，我有了很多电影的名字，但是我需要电影的详情，我用了一下豆瓣电影的网站，发现当我在搜索框里输入“Last Days in Vietnam”时url会变成http://movie.douban.com/subject_search?search_text=Last+Days+in+Vietnam&cat=1002 然后我就试着直接输入http://movie.douban.com/subject_search?search_text=Last+Days+in+Vietnam这个url，搜索结果是一样的，很显然这就是get方式，这样我们就找到了规律：http://movie.douban.com/subject_search?search_text=后面加上我们的电影名字并用加号分割就行了。

我们的电影名字（大量的电影名字）是存在movie_name.txt这个文件中里面的（一行一个电影名字）：

我们可以先用python脚本（shell脚本也行）将电影名之间的空格处理为+，也可以在爬虫中读取电影名后进行一次replace处理（我是先处理成+的）。爬虫读取电影名字文件，然后构建url，然后就根据得到的网页找到搜索到的第一个电影的url（其实第一个电影未必一定是我们要的，但是这种情况是少数，我们暂时不理会它），得到第一个电影的url后，再继续爬，这次爬到的页面就含有我们想要的电影信息，需要使用XPath来获得html文件中元素节点，最后将获得的信息存到TutorialItem中，通过pipelines写入到data.dat文件中。

XPath的教程在这里：w3school的基础教程和scrapy官网上的Xpath 这些东西【入门教程】中都有说。

1、start_requests方法：

在【入门教程】那篇文章中没有用到这个方法，而是直接在start_urls中存入我们要爬虫的网页链接，但是如果我们要爬虫的链接很多，而且是有一定规律的，我们就需要重写这个方法了，首先我们看看start_requests这个方法是干嘛的：

可见它就是从start_urls中读取链接，然后使用make_requests_from_url生成Request，

start_requests官方解释在这里

那么这就意味我们可以在start_requests方法中根据我们自己的需求往start_urls中写入我们自定义的规律的链接：

2、parse方法：

生成了请求后，scrapy会帮我们处理Request请求，然后获得请求的url的网站的响应response，parse就可以用来处理response的内容。在我们继承的类中重写parse方法：

parse_item是我们自定义的方法，用来处理新连接的request后获得的response：

递归爬虫的方法这里和这里有。

HtmlXPathSelector的解释在这里

为了获得我想要的数据我也是蛮拼的，由于豆瓣电影详情的节点是没太大规律了，我后面还用了正则表达式去获取我要的内容，具体看上面的代码中parse_item这个方法吧：

好了，结束了，这里还有一篇Scrapy的提高篇，有兴趣的去看看吧。

写写博客是为了记录一下自己实践的过程，也希望能对需要者有用吧！

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）的更多相关文章

Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
scrapy安装及入门使用
scrapy安装及入门使用安装 pip3.7 install Scrapy 输入scrapy命令查看是否安装成功 J-pro:myproject will$ scrapy Scrapy 2.1.0 ...
Java豆瓣电影爬虫——抓取电影详情和电影短评数据
一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. ...
Python 3.6.3 官网下载安装测试入门教程 (windows)
1. 官网下载 Python 3.6.3 访问 Python 官网 https://www.python.org/ 点击 Downloads => Python 3.6.3 下载 Python ...
《挑战30天C++入门极限》入门教程：实例详解C++友元
入门教程:实例详解C++友元在说明什么是友元之前,我们先说明一下为什么需要友元与友元的缺点: 通常对于普通函数来说,要访问类的保护成员是不可能的,如果想这么做那么必须把类的成员都生命成为pu ...
转：Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）
Scrapy在window上的安装教程见下面的链接:Scrapy安装教程上述安装教程已实践,可行.(本来打算在ubuntu上安装Scrapy的,但是Ubuntu 磁盘空间太少了,还没扩展磁盘空间,所 ...

随机推荐

haproxy实现负载均衡
一.安装tar zxvf haproxy-1.4.22.tar.gzcd haproxy-1.4.22make TARGET=linux26 PREFIX=/usr/local/haproxy ins ...
CSS3字体图标
网址:http://icomoon.io/http://iconfont.cn/ 阿里巴巴字体库 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1 ...
c++中ifstream读文件的问题(关于eof())
今天帮别人找BUG,是一段关于c++读写文件的问题,使用的是ifstream与outstream类,关于ofstream与ifstream的用法,此处不再獒述,见代码: #include<ios ...
ahk鼠标连击工具
;x = 0开始点击,x = 1暂停点击 ^::ck_start() ^::ck_end() ck_start() { x = { Click } } ck_end() { x = else x = ...
[Android-2A] -仿IOS微信滑动删除_SwipeListview左滑删除例子
https://yunpan.cn/cueUIQkRafQrH (提取码:7ec1) 关于这样类似的例子网上的代码很多,最近发现这个例子里的代码在开发中会遇到一系列的问题.比如ListView的OnI ...
Form_Form与OAF页面互相调用（案例）
2014-12-27 Created By BaoXinjian
WebADI_Oracle ERP R12使用前WebADI设定（案例）
2014-12-25 Created By BaoXinjian
【jQuery】关于选择器中的 :first 、 :first-child 、 :first-of-type
[:first] <!DOCTYPE html><html lang="zh-CN"><head> <title>test&l ...
tar.gz和rpm安装文件（转载）
from:http://bbs.chinaunix.net/thread-2277750-1-1.html Linux软件的二进制分发是指事先已经编译好二进制形式的软件包的发布形式,其优点是安装使用容 ...
ubuntu 永久设置dns信息
ubuntu 自从12.04后,会自动刷写 /etc/resolv.conf 文件,导致写入的dns信息会在重启的时候丢失. ============================ 转自:http: ...

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

HtmlXPathSelector的解释在这里

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）的更多相关文章

随机推荐

热门专题