python 之readability与BeautifulSoup
以前要采集某个网页,一般做法是写程序源代码爬出来,然后用正则去匹配出来,这种针对指定的网页去爬效果还可以,但是如果是批量的网页这种实现就会变得不现实,在这时候就有readability出手的意义了,readability能迅速将内容爬取出来,其他的有几种库也可以,这里就不比较了但是我觉得这个挺好用的。接着说,用pip 安装好readability模块就可以使用了。代码如下
html = urllib.urlopen("http://www.cnblogs.com/EncryptingLife/p/5156263.html").read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()
这个时候readable_article就是爬取的内容,按照常例写正则匹配,前面已经说过了这种方式不适合大量的页面,
BeautifulSoup 非常强大可以用来找出对应的东西不需要写正则。官方文档是:
http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5
简单的说说里面的几种用法吧。
soup =BeautifulSoup(readable_article,"lxml")
1.按照标签来获取
eg:
1.tag = soup.p
这个会获取p标签的内容 如果直接打印的话会显示为第一个p元素的值
2.tag = soup.head
这个获取head里面的内容
2.用css选择器来获取
eg:
1.soup.select(".python")
这里会查找所有class为python的元素,ID直接是soup.select("#python")
2.
z=soup.select("p > a")
for a in z:
print a.get("href")
这个可以把p标签下的a标签全部取出来,然后获取它的url
3.soup.find_all("p", class_="body strikeout")
3.取文本的可以使用soup.get_text()
这里会取出里面所有的文本
4.find() 与find_all()
eg
1.soup.find('head')
这个会查找head
2.soup.find_all('b')
这个是查找所有的b元素
3.传递方法
也可以是这样的:
def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id')
4.也可以用正则
for tag in soup.find_all(re.compile("^b")):
print(tag.name)
5.也可以传递列表这时候会匹配出符合其中一个条件的项相当于或者
soup.find_all(["a", "b"])
这个会查找所有a标签与b标签
6.还可以有如下几种形式
soup.find_all(id="link2")
soup.find_all("p", "title")
soup.find_all("title")
soup.find_all(href=re.compile("elsie"))
5.还有几种类似jquery的写法
first_link.find_next_siblings("a")
last_link = soup.find("a", id="link3")
last_link # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
last_link.find_previous_siblings("a")
这时候会查找到符合前面条件的兄弟节点
下面这个可以查找父元素
title_tag = soup.title
title_tag # <title>The Dormouse's story</title>
title_tag.parent
# <head><title>The Dormouse's story</title></head>
暂时就写到这里
python 之readability与BeautifulSoup的更多相关文章
- python学习之——安装Beautifulsoup、requests、lxml
安装Beautiful soup: 1.下载安装包,解压到python的安装目录: 2.cmd 进入安装包解压后的存放位置: 3.使用命令:python setup.py build , pyt ...
- Python学习 - 使用BeautifulSoup来解析网页一:基础入门
写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...
- Python爬虫:用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
- 【Python】 html解析BeautifulSoup
BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...
- Python爬虫基础之BeautifulSoup
一.BeautifulSoup的基本使用 from bs4 import BeautifulSoup from bs4 import SoupStrainer import re html_doc = ...
- Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介 我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
- python爬虫训练——正则表达式+BeautifulSoup爬图片
这次练习爬 传送门 这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的s ...
- Python爬虫利器:BeautifulSoup库
Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...
随机推荐
- windows 8.1 下蓝屏报错:SYSTEM_SERVICE_EXCEPTION(NETIO.SYS)的解决办法
大概2周前,电脑突然蓝屏了,我上网查了一下解决办法,因为大部分内容是英文的,所以我只大概看了下,看到这个问题好像是由于软件冲突造成的,于是就把小红伞去掉了,而那天电脑也真的没有再蓝屏(之前大 ...
- Android之GridView
<GridView android:id="@+id/gridView" android:layout_width="match_parent" andr ...
- 搭建高可用mongodb集群(一)——配置mongodb
在大数据的时代,传统的关系型数据库要能更高的服务必须要解决高并发读写.海量数据高效存储.高可扩展性和高可用性这些难题.不过就是因为这些问题Nosql诞生了. NOSQL有这些优势: 大数据量,可以通过 ...
- 海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析.分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法.欧式距离.Jaccard相 ...
- OpenCV linux cmake添加使用
安装好opencv之后: 只需要添加一下,就可以方便的使用opencv了,find_package opencv 会寻找FindOpenCV.cmake find_package(OpenCV REQ ...
- BLE资料应用笔记 -- 持续更新
BLE资料应用笔记 -- 持续更新 BLE 应用笔记 小书匠 简而言之,蓝牙无处不在,易于使用,低耗能和低使用成本.'让我们'更深入地探索这些方面吧. 蓝牙无处不在-,您可以在几乎每一台电话.笔记本电 ...
- JQuery调用Servlet实现文件下载
jsp页面上的txt附件,点击后浏览器默认直接打开,结果是乱码. 因为用户上传的txt文件可能是ANSI.Unicode.UTF-8编码的任意一种,上传时后台获取文件内容重写一遍保证浏览器打开正常太过 ...
- Javascript重要知识点梳理
Javascript重要知识点梳理 一.Javascript流程控制 js中常用的数据类型 var关键字的使用 if – else if – else switch while for 二.Javas ...
- Hibernate和Jpa的关系
http://blog.sina.com.cn/s/blog_5f1619e80100yoxz.html Jpa是规范,Hibernate是实现,使用Hibernate的时候一定会使用到Jpa
- VS 2010 问题集锦
1.Cannot find or open the PDB file 用vs2010写程序时,经常遇到:按F5,提示命令符一闪而过,且显示“Cannot find or open the PDB fi ...