以前要采集某个网页,一般做法是写程序源代码爬出来,然后用正则去匹配出来,这种针对指定的网页去爬效果还可以,但是如果是批量的网页这种实现就会变得不现实,在这时候就有readability出手的意义了,readability能迅速将内容爬取出来,其他的有几种库也可以,这里就不比较了但是我觉得这个挺好用的。接着说,用pip 安装好readability模块就可以使用了。代码如下

html = urllib.urlopen("http://www.cnblogs.com/EncryptingLife/p/5156263.html").read()
readable_article = Document(html).summary()
readable_title = Document(html).short_title()

这个时候readable_article就是爬取的内容,按照常例写正则匹配,前面已经说过了这种方式不适合大量的页面,

BeautifulSoup 非常强大可以用来找出对应的东西不需要写正则。官方文档是:

http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5

简单的说说里面的几种用法吧。

  soup =BeautifulSoup(readable_article,"lxml")

1.按照标签来获取

  eg:

    1.tag = soup.p

    这个会获取p标签的内容 如果直接打印的话会显示为第一个p元素的值

    2.tag = soup.head

    这个获取head里面的内容

2.用css选择器来获取

  eg:

    1.soup.select(".python")

     这里会查找所有class为python的元素,ID直接是soup.select("#python")

    2.

      

z=soup.select("p > a")
for a in z:
print a.get("href")

      这个可以把p标签下的a标签全部取出来,然后获取它的url

    3.soup.find_all("p", class_="body strikeout")

3.取文本的可以使用soup.get_text()

    这里会取出里面所有的文本

4.find() 与find_all()

  eg

  1.soup.find('head')

    这个会查找head

  2.soup.find_all('b')

    这个是查找所有的b元素

  3.传递方法

    也可以是这样的:

      def has_class_but_no_id(tag): return tag.has_attr('class') and not tag.has_attr('id')

  4.也可以用正则

    for tag in soup.find_all(re.compile("^b")):

      print(tag.name)

  5.也可以传递列表这时候会匹配出符合其中一个条件的项相当于或者

    soup.find_all(["a", "b"])

    这个会查找所有a标签与b标签

  6.还可以有如下几种形式

    soup.find_all(id="link2")

    soup.find_all("p", "title")

    soup.find_all("title")

    soup.find_all(href=re.compile("elsie"))

5.还有几种类似jquery的写法

  first_link.find_next_siblings("a")

  last_link = soup.find("a", id="link3")

  last_link  # <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

  last_link.find_previous_siblings("a")

  这时候会查找到符合前面条件的兄弟节点

  下面这个可以查找父元素

  

  title_tag = soup.title

  title_tag # <title>The Dormouse's story</title>

  title_tag.parent

  # <head><title>The Dormouse's story</title></head>

暂时就写到这里

python 之readability与BeautifulSoup的更多相关文章

  1. python学习之——安装Beautifulsoup、requests、lxml

    安装Beautiful soup: 1.下载安装包,解压到python的安装目录: 2.cmd 进入安装包解压后的存放位置: 3.使用命令:python  setup.py build   , pyt ...

  2. Python学习 - 使用BeautifulSoup来解析网页一:基础入门

    写技术博客主要就是总结和交流的,如果文章用错,请指正啊! 以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的. 一 ...

  3. Python爬虫:用BeautifulSoup进行NBA数据爬取

    爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...

  4. 【Python】 html解析BeautifulSoup

    BeautifulSoup bs是个html解析模块,常用来做爬虫? ■ 安装 BeautifulSoup可以通过pip来安装,用pip install beautifulsoup4 即可.但是仅仅这 ...

  5. Python爬虫基础之BeautifulSoup

    一.BeautifulSoup的基本使用 from bs4 import BeautifulSoup from bs4 import SoupStrainer import re html_doc = ...

  6. Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  7. Python HTML解析器BeautifulSoup(爬虫解析器)

    BeautifulSoup简介 我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...

  8. python爬虫训练——正则表达式+BeautifulSoup爬图片

    这次练习爬 传送门 这贴吧里的美食图片. 如果通过img标签和class属性的话,用BeautifulSoup能很简单的解决,但是这次用一下正则表达式,我这也是参考了该博主的博文:传送门 所有图片的s ...

  9. Python爬虫利器:BeautifulSoup库

    Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...

随机推荐

  1. sublime插件@sublimelinter安装使用

    sublimelinter插件是一款sublime编辑器的代码校验插件,支持多种语言,对于前端来说主要包含css和js校验. 要是用这款插件 1)安装node,然后在全局安装jshint(npm in ...

  2. linux环境下配置solr5.3详细步骤

    本人上周五刚刚配置了一遍centos下配置solr5.3版本,综合借鉴并改进了一些教程,贴出如下 单位使用内网,本教程暂无截图,抱歉 另,本人是使用.net编程调用solr的使用的是solrnet,在 ...

  3. 用数组取到当前栈内的ViewController 并根据下标取某个ViewController

    NSArray *navArray = self.navigationController.viewControllers; TabsViewController *tabsVC = [[TabsVi ...

  4. 122. Best Time to Buy and Sell Stock(二) leetcode解题笔记

    122. Best Time to Buy and Sell Stock II Say you have an array for which the ith element is the price ...

  5. create()创建的控件不能映射消息函数的解决

    有时,使用create()在运行时创建的控件不能将消息映射到父窗口内,此时需要使用消息转发的机制,主要原理:注册一个全局的消息,针对接收消息的控件编写继承类,在该继承类中响应消息,并将已注册的全局消息 ...

  6. 《第一本docker书》- 第一章笔记

    环境: Ubuntu 14.04.2 LTS (GNU/Linux 3.16.0-30-generic i686) 第一章: 1 Docker客户端和服务器 2 Docker镜像 添加一个文件,执行一 ...

  7. 浅论ViewController的加载 -- 解决 viewDidLoad 被提前加载的问题(pushViewController 前执行)

    一个ViewController,一般通过init或initWithNibName来加载.二者没有什么不同,init最终还是要调用initWithNibName方法(除非这个ViewControlle ...

  8. Debian系统vim中文显示乱码问题

    网上查的一堆东西好像都不灵,试了半天! 先安装中文字体:sudo aptitude install fonts-arphic-uming fonts-wqy-zenhei 然后:sudo locale ...

  9. iOS 的文字滚动条效果的实现

    UILabel *label = [[UILabel alloc]initWithFrame:CGRectMake(50, 100, 300, 50)]; label.text  = @"欢 ...

  10. 让fetch也可以timeout

    原生的HTML5 API fetch并不支持timeout属性,习惯了jQuery的ajax配置的同学,如果一时在fetch找不到配置timeout的地方,也许会很纠结.fetch 的配置 API 如 ...