爬网页？--Chrome帮你计算XPath

最近用HtmlUnit/HtmlCleaner爬网页,这两个工具都使用XPath来定位html元素.发现chrome竟然有算出XPath的功能! 打开一个网页,F12,在弹出的小窗口中选中一个标签,右键,看到“copy XPath”了吧! 对chrome的崇敬之情++…

python学习道路(day11note)(协程,同步与异步的性能区别,url爬网页,select,RabbitMq)

1.协程 #协程又称微线程是一种用户的轻量级线程程序级别代码控制就不用加机器 #不同函数 = 不同任务 A函数切到B函数没有进行cpu级别的切换,而是程序级别的切换就是协程 yelied #单线程下多个任务流用协程,比如打电话可以切换,nginx #爽妹给你打电话的时候,她不说话,刘征电话过来时候你可以切过去,这时候要是爽妹说话,就会bibi响 ''' 协程的好处: 无需线程上下文切换的开销无需原子操作锁定及同步的开销 "原子操作(atomic operation)是不需要synchr…

探究为何rem在chrome浏览器上计算出错

最近在一个项目中,测试同学提了一个bug,说手机上有个页面的某些字体显示偏大.就像这样我用chrome浏览器在pc上测试了一下,发现pc上也有这个问题,但是用其它浏览器打开这个页面就没有发现这个问题. 于是,上网百度了一下,发现原来是chrome浏览器的问题. 通过各种百度Google然后我总结了一下这个问题产生的原因: chrome浏览器目前支持的最小的字体大小为12px,而我在html根元素上设置font-size:62.5%,计算之后就是10px,1rem=10px. 由于我页面字体大小…

Python3.x爬虫教程：爬网页、爬图片、自己主动登录

林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单的介绍.在进行爬虫之前,先简单来进行一个HTTP协议的解说.这样以下再来进行爬虫就是理解更加清楚. 一.HTTP协议 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写. 它的发展是万维网协会(World Wide Web Consortium)和Intern…

协程demo，1异步爬网页 2异步socket请求

一.异步爬网页 ''' 协程并发爬网页 ''' from urllib import request import gevent,time from gevent import monkey # 让gevent知道urllib里的哪些操作属于IO操作 monkey.patch_all() # 标记当前程序所有的IO操作 def f(url): print("GET:{0}".format(url)) resp = request.urlopen(url) data = resp.rea…

Java爬网页数据，并存储到本地数据库中

由于开发一个人工智能项目,需要强大的后台数据库加持,所以,没有办法,又是需要医疗数据,只能自己爬某医疗网站数据,进行分析,但是由于不同网站的结构不一样,所以这个程序只能爬该网站的,第一次爬网页数据,自己写的底层分析处理源码,不能当做你们的爬数据工具,但是可以进行学习,毕竟是底层级别的,也很简单,放到这里,免费交流,免费下载源码,我放到GitHub上去了. https://github.com/ChangeYD/changeMax 这是爬下来的数据,很多,我也分类了几张表.…

【python】-- 协程介绍及基本示例、协程遇到IO操作自动切换、协程（gevent）并发爬网页

协程介绍及基本示例协程,又称微线程,纤程.英文名Coroutine.一句话说明什么是协程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈.因此: 协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每次过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置. 协程的好处: 无需线程上下文切换的开销无需原子操作锁定及同步的开销 "原子操作(a…

python爬虫案例：使用XPath爬网页图片

用XPath来做一个简单的爬虫,尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # -*- coding:utf-8 -*- import urllib import urllib2 from lxml import etree def loadPage(url): """ 作用:根据url发送请求,获取服务器响应文件 url: 需要爬取的url地址 """ #print url #headers = {"…

python技巧 — Chrome浏览器中的 XPath Helper

用于XPath 爬取网页结构的时候使用, 安装后快捷键调用左边 ctrl+ shift+x 启动安装流程: 1. 打开chrome浏览器,扩展程序 .搜索 XPath Helper 下载安装(前提需要梯子,因为这个是属于goolge商店应用) 有这个显示就是安装成功了 2. 点击详情,勾选隐身模式…

网页元素定位神器之Xpath详解

摘要: 经常在工作中会使用到XPath的相关知识,但每次总会在一些关键的地方不记得或不太清楚,所以免不了每次总要查一些零碎的知识,感觉即很烦又浪费时间,所以对XPath归纳及总结一下. ... 经常在工作中会使用到XPath的相关知识,但每次总会在一些关键的地方不记得或不太清楚,所以免不了每次总要查一些零碎的知识,感觉即很烦又浪费时间,所以对XPath归纳及总结一下. 在这篇文章中你将能学习到: XPath简介 XPath 路径表达式详解 XPath在DOM,XSLT及XQuery中的应…

C#编程实践–帮老婆计算产假方案

摘要今天中午午休时,和老婆聊天,老婆还过几天就要请产假了,她在网上问我让我帮她数一下该怎么请假最划算,老婆是个会过日子的人,面对此种要求我当然义不容辞,不过想到这个问题我的第一反应是:这个怎么可以用数的呢?于是,我开始去了解2014年上海市最新的产假政策规定,大致概况如下:“产假加上晚育假一共128天,其中前面98天是正常产假,其中已经包括国家法定节日和双休日,后面30天是晚育假,只包含双休日,不包含国家法定节日,也就是说遇到国家法定节日则假期往后顺延”,注意黑体粗字描述,可以知道这里面的精打…

Python3 中爬网页 \uxxx 问题

今天上午在没事儿爬一下我自己的博客主页文章练习下.在写入的时候遇到的编码问题,折腾了半天 ,记录一下 import urllib.request import time str1 = urllib.request.urlopen('https://www.cnblogs.com/thelovelybugfly/').read().decode('utf-8') url = ['']*10 i = 0 title = str1.find(r'postTitle2') href = str1.fin…

Chrome浏览器调试移动端网页 chrome://inspect/#devices

我使用的是魅族(魅蓝NOTE6 ),电脑是win 7系统,以下几步就可以轻松使用浏览器内置的功能调试移动端网页了: 注意:谷歌浏览器需要先FQ,不然调试页面会空白或者报404错误,(不会FQ的可以联系我 QQ:2417301781) 1. 手机开启调试模式连接电脑,确保是调试模式连接的(不知道怎么打开调试模式的可以参考:http://jingyan.baidu.com/article/046a7b3ee3b565f9c27fa9b2.html): 2. 手机上打开一个网页,只要是webview形…

python爬网页中文乱码问题

再用python爬取网页时,用模拟浏览器登陆,得到的中文字符出现乱码,该怎么解决呢? url = “http://newhouse.hfhouse.com/” req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" }) reqHtml = urllib2.urlopen(req).re…

网页结构的简介和Xpath语法的入门教程

相信很多小伙伴已经听说过Xpath,之前小编也写过一篇关于Xpath的文章,感兴趣的小伙伴可以戳这篇文章如何利用Xpath抓取京东网商品信息以及Python网络爬虫四大选择器(正则表达式.BS4.Xpath.CSS)总结.今天小编继续给大家介绍一些Xpath知识点,希望对大家的学习有帮助. 1.Xpath让我们可以使用一种类似于Windows下的文件路径的方式,让我们可以定位到HTML或者XML结构中的具体元素.Xpath本身包含标一些准函数库,可以让我们的Xpath语法更加强大. 2.在H…

用Chrome 浏览器调试移动端网页 chrome://inspect/#devices

谷歌输入(chrome://inspect/#devices) 我使用的是小米(红米NOTE2 ),电脑是win 10 系统,以下几步就可以轻松使用浏览器内置的功能调试移动端网页了: 1. 手机开启调试模式连接电脑,确保是调试模式连接的(不知道怎么打开调试模式的可以参考:http://jingyan.baidu.com/article/046a7b3ee3b565f9c27fa9b2.html): 2. 手机上打开一个网页,只要是webview形式的网页应该都是可以的: 3. 电脑chrome浏…

xpath的chrome插件安装，xpath基本语法

xpath插件安装: 注意:提前安装xpath插件 (1)打开chrome浏览器 (2)点击右上角小圆点 (3)更多工具 (4)扩展程序 (5)拖拽xpath插件到扩展程序中 (6)如果crx文件失效,需要将后缀修改zip (7)再次拖拽 (8)关闭浏览器重新打开 (9)ctrl + shift + x (10)出现小黑框 1.安装lxml库 pip install lxml ‐i https://pypi.douban.com/simple 2.导入lxml.etree from lxml i…

JS帮你计算属相

背景:一个人出生在2014年的正月初一,他的生肖到底是属蛇还是属马呢?这就要确定那一天才是一年的开始.是春节还是立春?每年的春节是正月初一,但是生肖必须是从立春日开始计算.春节是1912年孙中山先生废除旧历,采用公元纪年之后的1914年,时任民国大总统的袁世凯颁布法令,每年的正月初一是春节,在此之前传统上都是以二十四节气的立春作为岁首.综上所属,2014年正月初一出生的应该是属蛇. 既然知道了每年的立春日才是真正的生肖判断标准,那么怎么才能获取每年的立春日是多少呢? …

python进程池爬取下载美女图片（xpath）--lowbiprogrammer

# -*- coding: utf-8 -*-import requests,osfrom lxml import etreeimport multiprocessingfrom retrying import retry# 创建地址池urllist = ["http://www.zhuangxiule.cn/c{}p{}/".format(i,x) for i in range(16,26) for x in range(0,25)]@retry(stop_max_attempt_n…

EasyNVR网页Chrome无插件播放安防摄像机视频流是怎么做到web浏览器延时一秒内

背景说明由于互联网的飞速发展,传统安防摄像头的视频监控直播与互联网直播相结合是大势所趋.传统安防的直播大多在一个局域网内,在播放的客户端上也是有所限制,一般都需要OCX Web插件进行直播.对于安防监控的视频直播需求,根据不同的业务需求,对视频直播需求也不尽相同.针对这样的行业大环境背景,立足于开源社区的EasyDarwin团队推出了EasyNVR.EasyDSS等系列产品.而对于安防监控的视频直播需求,对延时要求都比较高. 用户问题咨询企业集成视频到自身的物联网系统时,发现视频直播延时相对…

你没有看错，爬网页数据，C# 也可以像 Jquery 那样

一:背景 1. 讲故事前段时间搞了一个地方性民生资讯号,资讯嘛,都是我抄你的,你抄官媒的,小市民都喜欢奇闻异事,所以就存在一个需求,如何去定向抓取奇闻异事的地方号上的新闻,其实做起来很简单,用逻辑回归即可,这篇主要讨论如何去抓取,在 C# 中大家都知道抓取通用的库是 HtmlAgilityPack,但是这个库主流的做法是采用 xpath 提取网页内容,这就让我很不爽了,毕竟不熟悉莫名的抵抗哈,像我这个年纪的码农,被 Jquery 教育了至少 5-6 年,所以必须用类Jquery 的方式,在…

利用协程爬网页，自动切换io 精典案例：

首先Python提供的协程库gevent好像并不能知道那些程序使用了io 所以要加一个补丁,mondey,以下同步和异步各爬一次的案例 : , from urllib import requestimport gevent,timefrom gevent import monkeymonkey.patch_all() #把当前程序的所有的io操作给我单独的做上标记 def f(url): print('GET: %s' % url) resp = request.urlopen(url) da…

pyspider爬网页出现中文乱码的解决办法

为什么会出现乱码呢?按照binux的说法这就是 lxml 的蛋疼之处,给它 unicode 它有的时候它不认,给它 bytes 它又处理不好方法1: response.content = (response.content).decode('utf-8') #目标站是 utf-8 编码方法2: response.content = response.content.decode('gbk', errors='ignore')#目标站是gbk 方法3:(binux的方案) import py…

BeautifulSoup爬网页图片

#-*- coding: utf-8 -*- import urllib2 import urllib import os from BeautifulSoup import BeautifulSoup def getAllImageLink(): # 需要下载图片的地址 html = urllib2.urlopen('http://www.win4000.com/meinvtag34.html').read() soup = BeautifulSoup(html) liResult = sou…