【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类、描述的信息?且看下面分解。
1. 页面分析
当我们在豌豆荚首页搜索框输入微信
后,会跳转到搜索结果的页面,其url为http://www.wandoujia.com/search?key=%微信
。搜索结果一般是按相关性排序的;所以,我们认为第一条搜索结果为所需要爬取的。紧接着,点进去后会跳转到页面http://www.wandoujia.com/apps/com.tencent.mm
,我们会发现豌豆荚的APP的详情页,是www.wandoujia.com/apps/
+ APP package
组成。
让我们退回到搜索结果页面,分析页面元素,如图:
所有搜索结果在<ul>
无序列表标签中,每一个搜索结果在<li>
标签中。对应地,CSS选择器应为
'#j-search-list>li::attr(data-pn)'
接下来,我们来分析APP的详情页,APP的名称所对应的HTML元素如图:
APP类别的如图:
APP描述的如图:
不难得到这三类元素所对应的CSS选择器
.app-name>span::text
.crumb>.second>a>span::text
.desc-info>.con::text
通过上面的分析,确定爬取策略如下:
- 逐行读取APP文件,拼接搜索页面URL;
- 分析搜索结果页面,跳转到第一条结果对应的详情页;
- 爬取详情页相关结果,写到输出文件
2. 爬虫实现
分析完页面,可以coding写爬虫了。但是,若裸写Python实现,则要处理下载间隔、请求、页面解析、爬取结果序列化。Scrapy提供一个轻量级、快速的web爬虫框架,并很好地解决了这些问题;中文doc有比较详尽的介绍。
数据清洗
APP文件中,可能有一些名称不规整,需要做清洗:
# -*- coding: utf-8 -*-
import re
def clean_app_name(app_name):
space = u'\u00a0'
app_name = app_name.replace(space, '')
brackets = r'\(.*\)|\[.*\]|【.*】|(.*)'
return re.sub(brackets, '', app_name)
URL处理
拿清洗后APP名称,拼接搜索结果页面URL。因为URL不识别中文等字符,需要用urllib.quote
做URL编码:
# -*- coding: utf-8 -*-
from appMarket import clean
import urllib
def get_kw_url(kw):
"""concatenate the url for searching"""
base_url = u"http://www.wandoujia.com/search?key=%s"
kw = clean.clean_app_name(kw)
return base_url % (urllib.quote(kw.encode("utf8")))
def get_pkg_url(pkg):
"""get the detail url according to pkg"""
return 'http://www.wandoujia.com/apps/%s' % pkg
爬取
Scrapy的爬虫均继承与scrapy.Spider
类,主要的属性及方法:
- name,爬虫的名称,
scrapy crawl
命令后可直接跟爬虫的名称,即可启动该爬虫 - allowed_domains,允许爬取域名的列表
- start_requests(),开始爬取的方法,返回一个可迭代对象(iterable),一般为scrapy.Request对象
- parse(response),既可负责处理response并返回处理的数据,也可以跟进的URL(以做下一步处理)
items为保存爬取后数据的容器,类似于Python的dict,
import scrapy
class AppMarketItem(scrapy.Item):
# define the fields for your item here like:
kw = scrapy.Field() # key word
name = scrapy.Field() # app name
tag = scrapy.Field() # app tag
desc = scrapy.Field() # app description
豌豆荚Spider代码:
# -*- coding: utf-8 -*-
# @Time : 2016/6/23
# @Author : rain
import scrapy
import codecs
from appMarket import util
from appMarket.util import wandoujia
from appMarket.items import AppMarketItem
class WandoujiaSpider(scrapy.Spider):
name = "WandoujiaSpider"
allowed_domains = ["www.wandoujia.com"]
def __init__(self):
self.apps_path = './input/apps.txt'
def start_requests(self):
with codecs.open(self.apps_path, 'r', 'utf-8') as f:
for app_name in f:
yield scrapy.Request(url=wandoujia.get_kw_url(app_name),
callback=self.parse_search_result,
meta={'kw': app_name.rstrip()})
def parse(self, response):
item = AppMarketItem()
item['kw'] = response.meta['kw']
item['name'] = response.css('.app-name>span::text').extract_first()
item['tag'] = response.css('.crumb>.second>a>span::text').extract_first()
desc = response.css('.desc-info>.con::text').extract()
item['desc'] = util.parse_desc(desc)
item['desc'] = u"" if not item["desc"] else item["desc"].strip()
self.log(u'crawling the app %s' % item["name"])
yield item
def parse_search_result(self, response):
pkg = response.css("#j-search-list>li::attr(data-pn)").extract_first()
yield scrapy.Request(url=wandoujia.get_pkg_url(pkg), meta=response.meta)
APP文件里的应用名作为搜索词,也应被写在输出文件里。但是,在爬取时URL有跳转,如何在不同层级间的Request传递变量呢?Request中的meta (dict) 参数实现了这种传递。
APP描述.desc-info>.con::text
,extract返回的是一个list,拼接成string如下:
def parse_desc(desc):
return reduce(lambda a, b: a.strip()+b.strip(), desc, '')
结果处理
Scrapy推荐的序列化方式为Json。Json的好处显而易见:
- 跨语言;
- Schema明晰,较于'\t'分割的纯文本,读取不易出错
爬取结果有可能会有重复的、为空的(无搜索结果的);此外,Python2序列化Json时,对于中文字符,其编码为unicode。对于这些问题,可自定义Pipeline对结果进行处理:
class CheckPipeline(object):
"""check item, and drop the duplicate one"""
def __init__(self):
self.names_seen = set()
def process_item(self, item, spider):
if item['name']:
if item['name'] in self.names_seen:
raise DropItem("Duplicate item found: %s" % item)
else:
self.names_seen.add(item['name'])
return item
else:
raise DropItem("Missing price in %s" % item)
class JsonWriterPipeline(object):
def __init__(self):
self.file = codecs.open('./output/output.json', 'wb', 'utf-8')
def process_item(self, item, spider):
line = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(line)
return item
还需在settings.py中设置
ITEM_PIPELINES = {
'appMarket.pipelines.CheckPipeline': 300,
'appMarket.pipelines.JsonWriterPipeline': 800,
}
分配给每个类的整型值,确定了他们运行的顺序,按数字从低到高的顺序,通过pipeline,通常将这些数字定义在0-1000范围内。
【Python实战】Scrapy豌豆荚应用市场爬虫的更多相关文章
- python基于scrapy框架的反爬虫机制破解之User-Agent伪装
user agent是指用户代理,简称 UA. 作用:使服务器能够识别客户使用的操作系统及版本.CPU 类型.浏览器及版本.浏览器渲染引擎.浏览器语言.浏览器插件等. 网站常常通过判断 UA 来给不同 ...
- scrapy——7 scrapy-redis分布式爬虫,用药助手实战,Boss直聘实战,阿布云代理设置
scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍 实战-利用scrapy-redis分布式爬 ...
- Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
- dota玩家与英雄契合度的计算器,python语言scrapy爬虫的使用
首发:个人博客,更新&纠错&回复 演示地址在这里,代码在这里. 一个dota玩家与英雄契合度的计算器(查看效果),包括两部分代码: 1.python的scrapy爬虫,总体思路是pag ...
- Python实战:Python爬虫学习教程,获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
- 基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
- python 全栈开发,Day137(爬虫系列之第4章-scrapy框架)
一.scrapy框架简介 1. 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前S ...
- 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程 适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人, ...
- Python:Scrapy(二) 实例分析与总结、写一个爬虫的一般步骤
学习自:Scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 - 知乎 Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 1.声明Item 爬虫爬取的目标是从非 ...
随机推荐
- STL容器分类
- HTML学习有感
自从到大三之后一直在纠结课下去学些什么,刚开始一直在学PS,当时学的还算可以,可以一段时间不用之后就忘记了,这使我很郁闷!之后一直想学JAVA,跟已经工作的同学讨来了相关的视屏资料以及他培训时的笔记: ...
- TDR分辨率
在日常的生活工作中,有很多测试测量的工具,比如测量长度的尺子,计量时间的钟表等等,谈到测试测量工具的时候,分辨率是关键指标之一,比如尺子的 分辨率是1mm,时钟的分辨率是秒.所谓分辨率就是测试测量工具 ...
- Docker实践:运行Python应用
本文将使用fig应用编排实现一个python的计数器,并使用web展示. 阅读本文您需要具备以下知识: 1.了解Python 2.熟练Docker基础知识(包括Dockerfile语法) 3.了解Do ...
- 获取bing.com的图片并在gnome3中设置自动切换
发现 bing.com 上的图片很好看,因此打算每天把 bing.com 的图片下载下来,用作桌面. 需要做的是两个部分,爬取图片到目录和设置目录图片为桌面背景并可以自动切换. 第一部分,下载图片,使 ...
- php解决中文截取乱码问题
针对截取字符串出现中文乱码问题,网上有很多介绍,也有很多函数,但笔者看着网上的函数,总感觉有点别扭, 所以自己动手写了一个防止截取字符串时出现中文乱码的函数. 实现的原理还是比较简单,主要是利用ASC ...
- 简易版的TimSort排序算法
欢迎探讨,如有错误敬请指正 如需转载,请注明出处http://www.cnblogs.com/nullzx/ 1. 简易版本TimSort排序算法原理与实现 TimSort排序算法是Python和Ja ...
- 谈谈StringBuffer和StringBuilder
(1) 速度 在执行速度方面的比较:StringBuilder > StringBuffer > String ①String 是不可变的对象(String类源码中存放字符的数组被声明为f ...
- MongoDB 聚合操作
在MongoDB中,有两种方式计算聚合:Pipeline 和 MapReduce.Pipeline查询速度快于MapReduce,但是MapReduce的强大之处在于能够在多台Server上并行执行复 ...
- iOS运行时编程(Runtime Programming)和Java的反射机制对比
运行时进行编程,类似Java的反射.运行时编程和Java反射的对比如下: 1.相同点 都可以实现的功能:获取类信息.属性设置获取.类的动态加载(NSClassFromString(@“clas ...