以前要采集某个网页,一般做法是写程序源代码爬出来,然后用正则去匹配出来,这种针对指定的网页去爬效果还可以,但是如果是批量的网页这种实现就会变得不现实,在这时候就有readability出手的意义了,readability能迅速将内容爬取出来,其他的有几种库也可以,这里就不比较了但是我觉得这个挺好用的。接着说,用pip 安装好readability模块就可以使用了。代码如下

html = urllib.urlopen("http://www.cnblogs.com/EncryptingLife/p/5156263.html").read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()

这个时候readable_article就是爬取的内容,按照常例写正则匹配,前面已经说过了这种方式不适合大量的页面,

BeautifulSoup 非常强大可以用来找出对应的东西不需要写正则。官方文档是:

http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5

简单的说说里面的几种用法吧。

  soup =BeautifulSoup(readable_article,"lxml")

1.按照标签来获取

  eg:

    1.tag = soup.p

    这个会获取p标签的内容 如果直接打印的话会显示为第一个p元素的值

    2.tag = soup.head

    这个获取head里面的内容

2.用css选择器来获取

  eg:

    1.soup.select(".python")

     这里会查找所有class为python的元素,ID直接是soup.select("#python")

    2.

      

z=soup.select("p > a")
for a in z:
print a.get("href")

      这个可以把p标签下的a标签全部取出来,然后获取它的url

    3.soup.find_all("p", class_="body strikeout")

3.取文本的可以使用soup.get_text()

    这里会取出里面所有的文本

4.find() 与find_all()

  eg

  1.soup.find('head')

    这个会查找head

  2.soup.find_all('b')

    这个是查找所有的b元素

  3.传递方法

    也可以是这样的:

      def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id')

  4.也可以用正则

    for tag in soup.find_all(re.compile("^b")):

      print(tag.name)

  5.也可以传递列表这时候会匹配出符合其中一个条件的项相当于或者

    soup.find_all(["a", "b"])

    这个会查找所有a标签与b标签

  6.还可以有如下几种形式

    soup.find_all(id="link2")

    soup.find_all("p", "title")

    soup.find_all("title")

    soup.find_all(href=re.compile("elsie"))

5.还有几种类似jquery的写法

  first_link.find_next_siblings("a")

  last_link = soup.find("a", id="link3")

  last_link  # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

  last_link.find_previous_siblings("a")

  这时候会查找到符合前面条件的兄弟节点

  下面这个可以查找父元素

  

  title_tag = soup.title

  title_tag # <title>The Dormouse's story</title>

  title_tag.parent

  # <head><title>The Dormouse's story</title></head>

暂时就写到这里

python 之readability与BeautifulSoup的更多相关文章

  1. python学习之——安装Beautifulsoup、requests、lxml

    安装Beautiful soup: 1.下载安装包,解压到python的安装目录: 2.cmd 进入安装包解压后的存放位置: 3.使用命令:python  setup.py build   , pyt ...

  2. Python学习 - 使用BeautifulSoup来解析网页一:基础入门

    写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...

  3. Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

  4. 【Python】 html解析BeautifulSoup

    BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...

  5. Python爬虫基础之BeautifulSoup

    一.BeautifulSoup的基本使用 from bs4 import BeautifulSoup from bs4 import SoupStrainer import re html_doc = ...

  6. Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  7. Python HTML解析器BeautifulSoup(爬虫解析器)

    BeautifulSoup简介 我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...

  8. python爬虫训练——正则表达式+BeautifulSoup爬图片

    这次练习爬 传送门 这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的s ...

  9. Python爬虫利器:BeautifulSoup库

    Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...

随机推荐

  1. coredump

    COREDUMP调试的使用 一,什么是coredump 跑程序的时候经常碰到SIGNAL 或者 call trace的问题,需要定位解决,这里说的大部分是指对应程序由于各种异常或者bug导致在运行过程 ...

  2. git使用简单教程

    废话不多说,直接开始 1. 进入https://github.com/ 创建你的账号,然后开始创建一个你的仓库(基本概念请自行百度),比如jun. 2. 创建好仓库之后,下载git 3,设置git,就 ...

  3. IE8的兼容性问题

    IE的兼容性问题是前端开发人员的老大难问题,不过随着时代的发展,IE6逐渐的被淘汰,现在以及很少有网站兼容IE6了,一般都兼容到IE8,现在我总结了一些IE8的兼容性问题及解决方法. 1.使用meta ...

  4. Oracle表空间数据文件移动的方法

    最近遇到这样的一个问题,Oracle存放表空间文件的盘符 空间不够了,必须把部分表空间迁移出去, [转]http://www.jb51.net/article/77026.htm 实现把用户表空间中的 ...

  5. html5 canvas用动画的形式装载图像

    本示例使用HTML5 canvas,简单的编写了装载图片效果, 请使用支持HTML5的浏览器预览效果: 下图为以逐渐横向栅格的效果图 html部分: <!DOCTYPE html> < ...

  6. (转)LAMPer技能树

  7. BruteXSS:XSS暴力破解神器

    ×01 BruteXSS BruteXSS是一个非常强大和快速的跨站点脚本暴力注入.它用于暴力注入一个参数.该BruteXSS从指定的词库加载多种有效载荷进行注入并且使用指定的载荷和扫描检查这些参数很 ...

  8. 关于c++

    http://www.ezlippi.com/blog/2014/12/c-open-project.html

  9. Git很好的教程

    本文地址:http://www.cnblogs.com/yhLinux/p/4067064.html 很好的Git教程,作为初学者,跟着作者的教程走了一遍之后,基本熟悉了Git的常用操作,此教程简洁明 ...

  10. zabbix利用mutt和msmtp配置邮件报警

    Mutt安装 yum –y install mutt msmtp安装 yum –y install openssl openssl-devel libntlm libntlm-devel cyrus- ...