Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上.CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联. XPath选择器 常用的路径表达式,这里列举了一些常用的,XPath的功能非常强大,内含超过100个的内建函数.下面为常用的方法 nodeName 选取此节点的所有节点 / 从根节点选取 // 从匹配选…
转载自:http://www.cnblogs.com/liwenzhou/p/8258992.html 一.Web框架本质 我们可以这样理解:所有的Web应用本质上就是一个socket服务端,而用户的浏览器就是一个socket客户端. 这样我们就可以自己实现Web框架了. import socket sk = socket.socket() sk.bind(("127.0.0.1", 80)) sk.listen(5) while True: conn, addr = sk.accep…
简介 今天宏哥在这里首先给小伙伴们和童鞋们分享一个有关昙花的小典故:话说昙花原是一位花神,她每天都开花,四季都灿烂.她还爱上了每天给她浇水除草的年轻人.后来,此事给玉帝得知.于是,玉帝大发雷霆,要拆散鸳鸯.他将花神抓了起来,把她贬为每年只能开一瞬间的昙花,不让她再和情郎相见,还把那年轻人送去灵鹫山出家,赐名韦陀,让他忘记前尘,忘记花神. 多年过去了,韦陀果真忘了花神,潜心习佛,渐有所成.而花神却怎么也忘不了那个曾经照顾她的小伙子.她知道每年暮春时分,韦陀总要下山来为佛祖采集朝露煎茶.所以,昙花就…
 #!/usr/bin/env python# -*- coding: utf-8 -*-# @Time    : 2018/5/28 18:51# @Author  : StalloneYang# @File    : mysql_test.py# @desc: # 连接数据库 import pymysql.cursors # 连接MySQL数据库connection = pymysql.connect(host='localhost', port=3306, user='yang', pas…
修饰器 NOTE 1.函数对象有一个__name__属性,可以拿到函数的名字: #!/usr/bin/env python3 def now(): print('2017/2/19') def main(): f = now f() print(now.__name__) print(f.__name__) if __name__ == '__main__': main() sh-3.2# ./decorator1.py 2017/2/19 now now 2.增强now函数的功能,又不想重新对…
封装 广义上的封装,它其实是一种面向对象的思想,它能够保护代码;狭义上的封装是面向对象三大特性之一,能把属性和方法都藏起来不让人看见 私有属性 私有属性表示方式即在一个属性名前加上两个双下划线 class Fighter: def __init__(self,name,hp,atk,speed): self.name = name self.__hp = hp #私有属性 变形成self._Fighter__hp self.__atk = atk #私有属性 变形为self._Fighter__…
# 访问字典car = {'make':'bmw', 'model':'550i', 'year':2016}print(car)print(car['make']) # 添加元素d = {}d['one'] = 1print(d) # 嵌套字典d = {'k1' : {'nestk1': 'nestvalue1', 'nestk2':'nestvalue2'}, 'fds':3}print(d)print(d['k1']['nestk1']) # 访问嵌套元素 # 字典的keys, value…
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎 在通过scrapy登录知乎之前,我们先通过requests模块登录知乎,来熟悉这个登录过程 不过在这之前需要了解的知识有: cookie和session关于cookie和session我之前整理了一篇博客供参考:http://www.cnblogs.com/zhaof/p/7211253.htmlrequests…
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎 在通过scrapy登录知乎之前,我们先通过requests模块登录知乎,来熟悉这个登录过程 不过在这之前需要了解的知识有: cookie和session关于cookie和session我之前整理了一篇博客供参考:http://www.cnblogs.com/zhaof/p/7211253.htmlrequests…
第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 记录url可以是缓存,或者数据库,如果保存数据库按照以下方式: id URL加密(建索引以便查询) 原始URL 保存URL表里应该至少有以上3个字段1.URL加密(建索引以便查询)字段:用来查询这样速度快,2.原始URL,用来给加密url做对比,防止加密不同的URL出现同样的加密值 自动递归url…