pyspider使用

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-11-08 22:33:55

# Project: qsbk

from pyspider.libs.base_handler import *

from lxml import html

from urlparse import urljoin

import datetime

class Handler(BaseHandler):

    crawl_config = {

    }

    def __init__(self):

        self.start_url='https://www.qiushibaike.com/'

    @every(minutes=24 * 60)

    def on_start(self):

        self.crawl(self.start_url, callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)

    def index_page(self, response):

        root=html.fromstring(response.content.decode('utf-8'))

        content_left_node = root.xpath("//div[@id='content-left']")

        div_node_list = content_left_node[0].xpath("./div")

        tasks=[]

        for div_node in div_node_list:

            title_node = div_node.xpath(

                ".//div[@class='author clearfix']/a[contains(@onclick,'web-list-author-text')]/h2/text()")

            __content_url =div_node.xpath("./a[@class='contentHerf']/@href")

            content_url = urljoin(self.start_url, __content_url[0])

            content_node = div_node.xpath(".//div[@class='content']/span[1]")

            content = content_node[0].xpath('string(.)')

            name = title_node[0]

            info = ''.join(content)

            crawldate = datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')

            item = {}

            item['name'] = name.strip() if name else name

            item['info'] = info.strip() if info else info

            item['crawldate'] = crawldate

            item['url'] = content_url

            tasks.append(item)

        return {'data':tasks}

pyspider使用的更多相关文章

用pyspider爬淘宝MM照片
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-12-09 15:24:54 # Project: taobaomm ...
Python爬虫进阶二之PySpider框架安装配置
关于首先,在此附上项目的地址,以及官方文档 PySpider 官方文档安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS ...
pyspider爬豆瓣电影实例
直接copy官网实例会出现599的错误,百度了很久发现是因为证书的问题添加这一句忽略证书 validate_cert = False 代码如下: ++++++++++++++++++++++++++ ...
pyspider 简单应用之快速问医生药品抓取（一）
网址:http://yp.120ask.com/search/-0-0--0-0-0-0.html from pyspider.libs.base_handler import * class Han ...
Ubuntu下配置Pyspider环境
Ubuntu 14.04.4 LTS 1.ubuntu 系统自带Python 所以不用安装Python 注:安装前先更新下软件源命令 :sudo apt-get update 2.开始安装pip 命 ...
pyspider安装
官方文档上说的比较简单: pip install pyspider 但是实际安装时还是有些问题导致无法成功. windows下安装先安装PhantomJS 可以依照自己的开发平台选择不同的包进行下载 ...
安装pyspider
费了三个小时,换了很多版本的Python pip lxml,最终选择安装anaconda2 非常顺利运行pyspider后localhost:500正常显示开森
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
【转】CentOS 6.5安装pyspider过程记录
原文地址:http://blog.sina.com.cn/s/blog_48c95a190102wczx.html 1.根据pyspider官方推荐的安装方法,使用pip命令直接安装pyspider ...
centos安装lxml和pyspider
yum -y install --nogpgcheck python34u-devel.x86_64 yum -y install libcurl-devel yum -y install libxs ...

随机推荐

scrapy 中间件
一.中间件的分类 scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种 1 ...
C# 随机四位数验证码
string str ="abcdefghigklmnopqrstuvwxyzABCDEFJHIGKLMNOPQRSTUVWXYZ1234567890"; while(true){ ...
【洛谷P1972】HH的项链离线+树状数组
题目大意:静态查询序列区间颜色数. 题解:对于一个查询区间 [l , r] ,若有两个相同颜色的点在这个区间中,则总是取下标靠近端点 r 的颜色计入答案贡献.对于每个下标,记录下在这个下标之前,且距离 ...
babel的使用及babel与gulp结合工作流
Babel 通过语法转换器支持最新版本的 JavaScript . 它有非常多的插件,这些插件能够允许我们立刻使用新语法,无需等待浏览器支持. 那我们怎么使用babel呢? 首先我们来了解babel基 ...
vcf格式文件转化为Excel（csv）格式文件（R语言的write.csv，write.table功能，Excel表的文件导入功能）
最近在整理文件,准备把vcf文件转化为Excel格式,或者CSV格式,网上搜了一堆资料,还真有人专门开发出转化格式的工具:叫vcf2csv(下载地址http://vcf2csv.sourceforge ...
C# 多窗体之间方法调用
看似一个简单的功能需求,其实很多初学者处理不好的,很多朋友会这么写: //父窗体是是frmParent,子窗体是frmChildA //在父窗体中打开子窗体 frmChildA child = new ...
php简单一句话分析
<?php $arr="j{fq-)dUTXY`}b.@"; ;$i< strlen($arr);$i++){ $arr[$i]=chr(ord($arr[$i])-) ...
Linux记录-分区（df/fdisk/mount/umount/fuser）
1.查看磁盘挂载(df -TH) 2.卸载umount /dev/vdb1 3.查杀用户进程(fuser -m -v -i -k /dev/vdb1) 4.再次卸载umount /dev/vdb1,并 ...
Hbase记录-HBase扫描/计数/权限
HBase扫描 scan 命令用于查看HTable数据.使用 scan 命令可以得到表中的数据.它的语法如下: scan ‘<table name>’ 下面的示例演示了如何使用scan ...
线程本地变量ThreadLocal (耗时工具)【原】
线程本地变量类 package king; import java.util.ArrayList; import java.util.List; import java.util.Map; impor ...

pyspider使用

pyspider使用的更多相关文章

随机推荐

热门专题