1.参考

pyspider作者官网：

其他：

2.jQuery 语法

jQuery 是一个 JavaScript 库。jQuery 极大地简化了 JavaScript 编程。
http://www.w3school.com.cn/jquery/jquery_syntax.asp
http://www.w3school.com.cn/jquery/jquery_selectors.asp
http://www.w3school.com.cn/jquery/jquery_ref_selectors.asp

语法    描述
$(this)    当前 HTML 元素
$("p")    所有 <p> 元素
$("p.intro")    所有 class="intro" 的 <p> 元素
$(".intro")    所有 class="intro" 的元素
$("#intro")    id="intro" 的元素
$("ul li:first")    每个 <ul> 的第一个 <li> 元素
$("[href]") 选取所有带有 href 属性的元素。
$("[href='#']") 选取所有带有 href 值等于 "#" 的元素。
$("div#intro .head")    id="intro" 的 <div> 元素中的所有 class="head" 的元素

jQuery CSS 选择器可用于改变 HTML 元素的 CSS 属性。!!!!!
$("p").css("background-color","red");

3.pyspider相关

(1) 全局配置，调试时每次修改代码记得更新itag，save，刷新页面再run

class Handler(BaseHandler):

    crawl_config = {

        'itag': 'v001',

        'headers': {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    }

(2) response.save用于传递数据

    file_name = 'xxx'

    self.crawl(img.attr.src, callback=self.save_img, save={'file_name': file_name})

def save_img(self,response):

    file_name = response.save['file_name']  #使用传入的数据

(3) 如果返回结果为多项的json，无法每一项返回一个条目。。。

# https://binux.blog/2015/01/pyspider-tutorial-level-2-ajax-and-more-http/

# 我测试返回的数据不是预期（我想每个电影为显示一行）

# 你想要在界面中显示为多行？这是不行的，results 页面永远只会每个 url 返回一个结果。如果这个结果是一个数组，那么就显示一个数组。

    def json_parser(self, response):

        return [{

            "title": x['title'],

            "rate": x['rate'],

            "url": x['url']

        } for x in response.json['subjects']]

(4) 操作pyspider的response.doc

xml_doc = '''

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

    <book>

      <title lang="eng">Harry Potter</title>

      <price>29.99</price>

    </book>

    <book>

      <title lang="eng">Learning XML</title>

      <price>39.95</price>

    </book>

</bookstore>'''

from pyquery import PyQuery

response_doc = PyQuery(xml_doc)  #response_doc即pyspider的response.doc

for each in response_doc('book>title').items():   #括号内部使用CSS选择tag，.items()用来遍历

    print each.attr.lang

    print each.text()

    print 123

(5) 操作pyspider的response.etree

html_doc = '''

<div>

    <ul>

         <li class="item-0">first item</li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

         <li class="item-1 active"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a></li>

     </ul>

 </div>'''

import lxml.html

response_etree = lxml.html.fromstring(html_doc)   #response_etree即pyspider的response.etree

for each in response_etree.xpath('//ul/li/a'):

    print each.xpath('./@href') #返回列表  [0]可能报错

    print each.text

    print 123

print

for each in response_etree.cssselect('div li a'):

    print each.get('href')  #推荐或返回None

    print each.text

    print 123

print

(6) 方便本地调试response.doc 和 response.etree

url = 'http://movie.douban.com/top250'

headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

# response_doc = PyQuery(url,headers=headers)

request = urllib2.Request(url,headers=headers)

f = urllib2.urlopen(request)

# Note: this returns a tree, not an element.  Use``parse(...).getroot()`` to get the document root.

response_etree = lxml.html.parse(f).getroot()    #.getroot() 

for each in response_etree.xpath('//a[contains(@href,"subject")]'):

    print each.xpath('./@href')[0]

print

for each in response_etree.cssselect('a[href*="subject"]'):

    print each.get('href')

print 

# pyspider源代码为doc=PyQuery(etree)

response_doc = PyQuery(response_etree)

for each in response_doc('a[href*="subject"]').items():

    print each.attr.href

pyspider和pyquery总结的更多相关文章

pyspider用PyQuery解析页面数据
示例说明: 本示例主要是PyQuery解析返回的response页面数据.response.doc解析页面数据是pyspider的主要用法,应该熟练掌握基本使用方法.其他返回类型示例见后续文章. py ...
【转】CentOS 6.5安装pyspider过程记录
原文地址:http://blog.sina.com.cn/s/blog_48c95a190102wczx.html 1.根据pyspider官方推荐的安装方法,使用pip命令直接安装pyspider ...
pyspider示例代码三：用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
pyspider 简单应用之快速问医生药品抓取（一）
网址:http://yp.120ask.com/search/-0-0--0-0-0-0.html from pyspider.libs.base_handler import * class Han ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
scrapy跟pyspider的杂谈
最近有一个私人项目要搞,可能最近的博客都会变成爬虫跟数据分析类的了.既然是爬虫,第一反应想到的就是鼎鼎大名的scrapy了,其次想到的pyspider,最后想到的就是自己写. scrapy是封装了tw ...
Python pyspider 安装与开发
PySpider 简介 PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器.任务监视器, ...
Python爬虫-pyspider框架的使用
pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用常用的数据库进行爬取结果的存储,还能定时设置任务与任务优 ...
pyspider 文档介绍
一代码区结构 def on_start(self)是脚本的入口点.单击run仪表板上的按钮时将调用它. self.crawl(url, callback=self.index_page)*是这里最重 ...

随机推荐

/usr/bin/ld: .build_release/tools/alignment_tools.o: undefined reference to symbol 'omp_get_thread_num@@OMP_1.0'
问题:/usr/bin/ld: .build_release/tools/alignment_tools.o: undefined reference to symbol 'omp_get_threa ...
GitHub最基本使用总结
GitHub最基本使用入门入门必看博客:https://mp.weixin.qq.com/s/LbzSwl4dYwrSPze0w10l8w 一.Git Linux安装 Git Linux安装教程:h ...
codeforces选做
收录了最近本人完成的一部分codeforces习题,不定期更新 codeforces 1132E Knapsack 注意到如果只使用某一种物品,那么这八种物品可以达到的最小相同重量为$840$ 故 ...
opencv 增强现实（二）：特征点匹配
import cv2 as cv import numpy as np # def draw_keypoints(img, keypoints): # for kp in keypoints: # x ...
使用Spring Boot Actuator将指标导出到InfluxDB和Prometheus
使用Spring Boot Actuator将指标导出到InfluxDB和Prometheus Spring Boot Actuator是Spring Boot 2发布后修改最多的项目之一.它经过 ...
bootstrap学习：基本组件以及布局；
1.下拉菜单: <div class="btn-group"> <button type="button" class="btn b ...
CSS布局-flex布局入门教程
前言 2009年,W3C 提出了一种新的方案----Flex 布局,可以简便.完整.响应式地实现各种页面布局.目前,它已经得到了所有浏览器的支持,这意味着,现在就能很安全地使用这项功能. 查询兼容 F ...
Java同步容器
一.为什么会出现同步容器 Java的集合框架中,主要有四大类别:List,Set,Queue,Map List,Set,Queue接口分别继承了Collection接口,Map本身是一个接口. 注意C ...
Ubuntu里设置python默认版本为python3（转载）
0 - 步骤在命令行中执行下述命令: sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 sudo ...
第十三章部署Java应用程序
打包清单文件被命名为MANIFEST.MF,用于描述归档特征. 清单文件被分为多个节, 第一节被称为主节,作用于整个文件; 其他节则必须起始于Name的条目. 节之间空行分开. jar cfm JA ...

pyspider和pyquery总结