以前要采集某个网页,一般做法是写程序源代码爬出来,然后用正则去匹配出来,这种针对指定的网页去爬效果还可以,但是如果是批量的网页这种实现就会变得不现实,在这时候就有readability出手的意义了,readability能迅速将内容爬取出来,其他的有几种库也可以,这里就不比较了但是我觉得这个挺好用的。接着说,用pip 安装好readability模块就可以使用了。代码如下

html = urllib.urlopen("http://www.cnblogs.com/EncryptingLife/p/5156263.html").read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()

这个时候readable_article就是爬取的内容,按照常例写正则匹配,前面已经说过了这种方式不适合大量的页面,

BeautifulSoup 非常强大可以用来找出对应的东西不需要写正则。官方文档是:

http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5

简单的说说里面的几种用法吧。

  soup =BeautifulSoup(readable_article,"lxml")

1.按照标签来获取

  eg:

    1.tag = soup.p

    这个会获取p标签的内容 如果直接打印的话会显示为第一个p元素的值

    2.tag = soup.head

    这个获取head里面的内容

2.用css选择器来获取

  eg:

    1.soup.select(".python")

     这里会查找所有class为python的元素,ID直接是soup.select("#python")

    2.

      

z=soup.select("p > a")
for a in z:
print a.get("href")

      这个可以把p标签下的a标签全部取出来,然后获取它的url

    3.soup.find_all("p", class_="body strikeout")

3.取文本的可以使用soup.get_text()

    这里会取出里面所有的文本

4.find() 与find_all()

  eg

  1.soup.find('head')

    这个会查找head

  2.soup.find_all('b')

    这个是查找所有的b元素

  3.传递方法

    也可以是这样的:

      def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id')

  4.也可以用正则

    for tag in soup.find_all(re.compile("^b")):

      print(tag.name)

  5.也可以传递列表这时候会匹配出符合其中一个条件的项相当于或者

    soup.find_all(["a", "b"])

    这个会查找所有a标签与b标签

  6.还可以有如下几种形式

    soup.find_all(id="link2")

    soup.find_all("p", "title")

    soup.find_all("title")

    soup.find_all(href=re.compile("elsie"))

5.还有几种类似jquery的写法

  first_link.find_next_siblings("a")

  last_link = soup.find("a", id="link3")

  last_link  # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

  last_link.find_previous_siblings("a")

  这时候会查找到符合前面条件的兄弟节点

  下面这个可以查找父元素

  

  title_tag = soup.title

  title_tag # <title>The Dormouse's story</title>

  title_tag.parent

  # <head><title>The Dormouse's story</title></head>

暂时就写到这里

python 之readability与BeautifulSoup的更多相关文章

  1. python学习之——安装Beautifulsoup、requests、lxml

    安装Beautiful soup: 1.下载安装包,解压到python的安装目录: 2.cmd 进入安装包解压后的存放位置: 3.使用命令:python  setup.py build   , pyt ...

  2. Python学习 - 使用BeautifulSoup来解析网页一:基础入门

    写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...

  3. Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

  4. 【Python】 html解析BeautifulSoup

    BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...

  5. Python爬虫基础之BeautifulSoup

    一.BeautifulSoup的基本使用 from bs4 import BeautifulSoup from bs4 import SoupStrainer import re html_doc = ...

  6. Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  7. Python HTML解析器BeautifulSoup(爬虫解析器)

    BeautifulSoup简介 我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...

  8. python爬虫训练——正则表达式+BeautifulSoup爬图片

    这次练习爬 传送门 这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的s ...

  9. Python爬虫利器:BeautifulSoup库

    Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...

随机推荐

  1. brew 任何命令 都 报 synatx error

    brew 忽然不能用了,任何命令都报 syntax error near unexpected token `<<<' 解决方案 cd $(brew --prefix) git fe ...

  2. node-webkit 支持pdf浏览

    因为项目最近需要进行pdf文件的预览. 项目:linux平台下使用node-webkit开发的桌面应用. 所以在想如何解决这个问题. 首先,firefox直接可以打开pdf文件,预览效果佳,有菜单,放 ...

  3. LXD 2.0 系列(四):资源控制

    LXD 提供了各种资源限制.其中一些与容器本身相关,如内存配额.CPU 限制和 I/O 优先级.而另外一些则与特定设备相关,如 I/O 带宽或磁盘用量限制.-- Stéphane Graber 本文导 ...

  4. python文件、数据库读写编码的问题

    读写utf-8文件 fh = open(file_name, 'r', encoding = 'UTF-8') 读写数据库utf-8格式 connect = pymysql.connect(host= ...

  5. 时间“Thu Aug 14 2014 14:28:06 GMT+0800”的转换

    var date = "Thu Aug 14 2014 14:28:06 GMT+0800"; var va = DateTime.ParseExact(date, "d ...

  6. 对象的比较与排序:IComparable和IComparer接口

    IComparable和ICompare 接口是.net framework 中比较对象的标准方式,这两个接口提供一个返回值类似(大于0 等于0 小于0)的比较方法,二者区别如下: . ICompar ...

  7. 浅谈struts2之chain

    转自:http://blog.csdn.net/randomnet/article/details/8656759 前一段时间,有关chain的机制着实困绕了许久.尽管网上有许多关于chain的解说, ...

  8. 如何防止JAVA反射对单例类的攻击?

    在我的上篇随笔中,我们知道了创建单例类有以下几种方式: (1).饿汉式; (2).懒汉式(.加同步锁的懒汉式.加双重校验锁的懒汉式.防止指令重排优化的懒汉式); (3).登记式单例模式; (4).静态 ...

  9. CAD2012安装错误

    安装CAD2012总是会出现各种错误,不能安装,特别是.NET Framework Runtime 4.0安装错误. 单独安装dotNetFx40_Full_x86_x64.exe会提示更高级的版本已 ...

  10. uva-10305

      题意:给出n个任务,任务不是完全独立的,有些任务必须依赖另外一些任务才能执行:m个任务关系. 输出:n个任务的可能执行顺序: 我的解决方法:这就是个赤裸裸的拓扑排序,直接dfs拓扑每一个任务点,然 ...