Python 抓取html所有特定元素的方法

直接上代码哦，够直接了吧~

from lxml import etree

#import mechanize

import lxml.html

#import cookielib

#br = mechanize.Browser()

#r = br.open('http://yourdomain.com')

#html = br.response().read()

#root = lxml.html.fromstring(html)

#divs = root.xpath("//div[@class='test']")

hparser = etree.HTMLParser(encoding='utf-8') #for avoiding unicode codec problems

htree = etree.parse('http://yourdomain.com',hparser)

htree.write('/tmp/bi.html') 

divs= htree.xpath("//div[@class='test']")

要获取class包含test的所有div，比如<div class="test website"></div>

把上述xpath的参数修改为 "div[contains(@class,'test')]" 即可。

Python 抓取html所有特定元素的方法的更多相关文章

python抓取中文网页乱码通用解决方法
注:转载自http://www.cnpythoner.com/ 我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法. 首页我们需 ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
Python抓取框架：Scrapy的架构
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...

随机推荐

wkhtmltopdf Windows下测试demo 成功
html2pdf 转pdf 中文不换行然后找到了wkhtmltopdf 支持中文换行样式也支持在PHP中生成PDF文件,可以使用 FPDF 和 TCPDF .但是它们只能用于创建简单的表格,当涉 ...
servlet对应.net中的http上下文
java中的servlet在.net中其实就是http上下文.
python装饰器注意事项
内容: 1.装饰器基本结构复习 2.装饰器注意事项 python装饰器详细内容:http://www.cnblogs.com/wyb666/p/8748102.html 1.装饰器基本结构复习装饰器 ...
Dev使用技巧汇总
C# XtraGrid的行指示器(RowIndicator)行号以及图标设置参考网址:https://www.cnblogs.com/xuliangxing/p/6775438.html DateE ...
聚合模型---K-Means
聚类模型:K-Means 聚类(clustering)属于无监督学习(unsupervised learning) 无类别标记在线 demo:http://syskall.com/kmeans.js ...
maven项目将web2.5改为web3.1
用maven构建的web项目默认的web.xml为2.3的版本,而我们需要更改为我们想要的版本(3.1). 在这里有两种方式更改web.xml的版本: 第一种: 将项目切换为navigator视图,然 ...
利用SQLServer查询分析器获取存储过程的返回值，检查测试存储过程
1.存储过程没有返回值的情况(即存储过程语句中没有return之类的语句)用方法 int count = ExecuteNonQuery(..)执行存储过程其返回值只有两种情况(1)如果通过查询分析器 ...
跟着太白老师学python day11 闭包及在爬虫中的基本使用
闭包的基本概念: 闭包内层函数对外层函数的变量(不包括全局变量)的引用,并返回,这样就形成了闭包闭包的作用:当程序执行时,遇到了函数执行,它会在内存中开辟一个空间,如果这个函数内部形成了闭包, 那 ...
ELK-Stack 最后一次全篇文档
简介: ELK-Stack 日志收集系统.最后一次全篇记录的笔记,之后关于 ELK 的笔记都将是片段型.针对性的. 环境介绍: ELK-Stack:192.168.1.25 ( Redis.LogS ...
中文分词工具jieba中的词性类型
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素形容词性语素.形容词代码为 a,语素代码g前面置以A. a 形容词取英语形容词 adje ...

Python 抓取html所有特定元素的方法

Python 抓取html所有特定元素的方法的更多相关文章

随机推荐

热门专题