python3.4+pyspider爬58同城（二）

之前使用python3.4+selenium实现了爬58同城的详细信息，这次用pyspider实现，网上搜了下，目前比较流行的爬虫框架就是pyspider和scrapy，但是scrapy不支持python3，所以…

直接上代码，后面注解：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2016-04-17 16:54:22
# Project: tongcheng

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
    crawl_config = {
                    'itag':'v226'
    }

@every(minutes=24 * 60)
def on_start(self):
self.crawl('http://sz.58.com/pbdn/0/pn1/', callback=self.index_page)

@config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('#infolist a.t').items():
            if ('Mzhuanzhuan' not in str(each.attr.href)) and ('jump' not in each.attr.href):
                self.crawl(each.attr.href, callback=self.detail_page,fetch_type='js')

@config(priority=2)
def detail_page(self, response):

return {
            "provice":response.doc('.crb_i a').eq(1).text(),
            "title":response.doc('.col_sub.mainTitle h1').text(),
             "data":response.doc(".time").text(),
            "views":response.doc("#totalcount").text(),
            "price":response.doc(".price.c_f50").text(),
            "condition":response.doc("#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li:nth-child(2) > div.su_con > span").text(),
             "area":response.doc(".c_25d").find('a').text() if response.doc(".c_25d").find('a').text()!='' else "无",
             "seller":response.doc("#divContacter > ul > ul > li > a").text()

        }

crawl_config = { 'itag':'v226' } #访问表头，useragent等请求信息都是在这里配置，其中itag表示版本的意思。pyspider有一个机制，如果在主页run一遍，那么每个请求的url都会有一个md5，标记这个任务已经结束，你再次点击run，pyspider不会再去请求同样的url，所以有时候我们修改完代码后，需要让任务执行一遍，重新将itag的版本号改一下就行。

on_start 函数类似java main函数，是运行代码的入口。

self.crawl('http://sz.58.com/pbdn/0/pn1/', callback=self.index_page) #意思是去请求'http://sz.58.com/pbdn/0/pn1/'网址，返回的内容交给index_page这个函数去处理。

index_page 函数，处理'http://sz.58.com/pbdn/0/pn1/'网址返回的内容，从代码我们可以看到，pyspider请求网站返回的对象都是用response为变量，而responce.doc()意思就是使用pyquery去处理网页返回的内容，所以responce.doc()该方法其实类似于:

from pyquery import PyQuery as doc 将pyquery封装。

detail_page函数作用，就是获取网页的详细信息，获取下图区域，价格，浏览量等信息，并且返回一个字典

fetch_type='js' #pyspider调用phantomjs去渲染js,因为浏览量是js渲染，如果我们使用requests去请求，得不到该数据。pyspider已经封装了调用phantomjs函数库，所以我们在使用fetch_type时候，要保证安装了phantomjs。

@every(minutes=24 * 60)

这些装饰器作用是告诉pyspider多久自动执行一次，这样我们每天就可以获取最新的信息，此处代表每天执行一次。

@config(age=10 * 24 * 60 * 60)表示已经得到的数据保留十天，十天后弃掉

python3.4+pyspider爬58同城（二）的更多相关文章

python3.4+selenium爬58同城（一）
爬取http://bj.58.com/pbdn/0/pn2/中除转转.推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下这周学习了爬虫,但是遇到一些 ...
Python 爬58同城城市租房信息
爬取完会自动生成csv电子表格文件,含有房价.押付.链接等信息环境 py2.7 pip install lxml pip install cssselect #coding:utf-8 impo ...
使用Python3.x抓取58同城（南京站）的演出票的信息
#!/usr/bin/env python #-*-coding: utf-8 -*- import re import urllib.request as request from bs4 impo ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
用Python写爬虫爬取58同城二手交易数据
爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import request ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
【Android测试】【随笔】与 “58同城” 测试开发交流
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/5384698.html 初衷一直都有一个这样的想法: 虽然 ...

随机推荐

Monkey and Banana（HDU 1069 动态规划）
Monkey and Banana Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others ...
根据文字计算Label的尺寸
CGSize size = [self.username.text boundingRectWithSize:(CGSize){130,20} options:NSStringDrawingUsesL ...
IOS 保存图片至相册
IOS 保存图片至相册应用中有时我们会有保存图片的需求,如利用UIImagePickerController用IOS设备内置的相机拍照,或是有时我们在应用程序中利用UIKit的 UIGraphi ...
C语言内存调试技巧—C语言最大难点揭秘
本文将带您了解一些良好的和内存相关的编码实践,以将内存错误保持在控制范围内.内存错误是 C 和 C++ 编程的祸根:它们很普遍,认识其严重性已有二十多年,但始终没有彻底解决,它们可能严重影响应用程序, ...
Linux系统监控
http://my.oschina.net/aiguozhe/blog/35730 http://my.oschina.net/aiguozhe/blog/35730
Codeforces 414B Mashmokh and ACM
http://codeforces.com/problemset/problem/414/B 题目大意: 题意:一个序列B1,B2...Bl如果是好的,必须满足Bi | Bi + 1(a | b 代表 ...
必须得是一万小时的刻意训练（deliberate practice）
成功素质1:一万小时与格物致知 “格物致知14”的概念,我是从张银奎11老师那里了解到的.它的意思是“推究事物的原理,从而获得知识”,跟我在<透过现象看本质 - 写在观看WWDC 2016 Ke ...
使用 C# 编写简易 ASP.NET Web 服务器
原文 http://www.cnblogs.com/lcomplete/p/use-csharp-write-aspnet-web-server.html 如果你想获得更好的阅读体验,可以前往我在 g ...
返回本机的mac物理路径
/// <summary> /// 返回本机的mac物理路径 /// </summary> /// <return ...
算法的稳定性（Stability of Sorting Algorithms）
如果具有同样关键字的纪录的在排序前和排序后相对位置保持不变.一些算法本身就是稳定的,如插入排序,归并排序,冒泡排序等,不稳定的算法有堆排序,快速排序等. 然而,一个本身不稳定的算法通过一点修正也能变成 ...

python3.4+pyspider爬58同城（二）

python3.4+pyspider爬58同城（二）的更多相关文章

随机推荐

热门专题