写技术博客主要就是总结和交流的,如果文章用错,请指正啊!

以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的。

一、字符的编码和解码

  和网页打交道,首先解决的就是web页面的编码方式,不幸的是不同网站的页面编码方式基本不相同,有的是gb2312,有的是utf-8,有的是gbk,下面是我查看我以后需要的网站源码后得出的web页面的编码方式:

di = { 'gb2312':['http://www.sina.com.cn','http://www.people.com.cn/','http://www.people.com.cn/'
,'http://www.163.com/','http://www.qq.com/'],
'gbk':['http://www.sohu.com'],
'utf-8':['http://www.huanqiu.com/','http://www.xinhuanet.com/']
}

  这个python字典,我会一直手动更新的。为什么需要手动更新呢?因为我不会动态的检测web页面的编码方式,虽然说HTTP的Header中有content的编码方式,即Content-Type这一项,但是上面的网站基本上都没有在Content-Type中表明编码方式,翻墙看了一下谷歌,youtube和facebook,在Content-Type里面都表明了编码方式,一般都为utf-8。

  知道了编码方式,就要解码了,因为BeautifulSoup先将html页面全部转码为unicode的,所以在将html页面传入BeautifulSoup中的时候,先解码,如果html的字符编码为gb2312:

response = urllib2.urlopen(url).read().decode('gb2312','ignore')
bs = BeautifulSoup(response)

  如果你想将unicode字符编码为特定的编码方式:  

response = urllib2.urlopen(url).read().decode('gb2312','ignore').encode('utf-8')

  因为业务场景不一样,我只需要抓取部分网站的页面,所以我手动查看了上面几个网站的编码方式。当然有其它的方法了,见我在stackoverflow上的提问:http://stackoverflow.com/questions/28184863/how-to-decode-and-encode-web-page-with-python 。

二、解压

很多网站为了减少流量,将页面压缩。常见的压缩方式为gzip,随便百度一下就可以收到解压gzip文件的代码:

def unzip(data):
import gzip
import StringIO
data = StringIO.StringIO(data)
gz = gzip.GzipFile(fileobj=data)
data = gz.read()
gz.close()
return data

其它的压缩方式暂不讨论。

三、一个很丑陋的demo

# -*- coding: utf-8 -*-
'''
Created on 2015年1月28日 @author: zhang
'''
from bs4 import BeautifulSoup result = {}
key_word = u'李克强' def unzip(data):
import gzip
import StringIO
data = StringIO.StringIO(data)
gz = gzip.GzipFile(fileobj=data)
data = gz.read()
gz.close()
return data def init_bs(url,encoding):
import urllib2
html_doc = ''
respone = urllib2.urlopen(url)
header = respone.info() if 'Content-Encoding' in header:
if header['Content-Encoding'] == 'gzip': html_doc = unzip(respone.read()).decode(encoding,'ignore')
else:
pass
else:
html_doc = respone.read().decode(encoding,'ignore')
return(BeautifulSoup(html_doc)) def get_target(soup):
for link in soup.find_all('a'):
text = link.get_text()
if text.find(key_word) != -1:
result[link.get('href')] = text di = { 'gb2312':['http://www.sina.com.cn','http://www.people.com.cn/','http://www.people.com.cn/'
,'http://www.163.com/','http://www.qq.com/'],
'gbk':['http://www.sohu.com'],
'utf-8':['http://www.huanqiu.com/','http://www.xinhuanet.com/']
} for k,v in di.iteritems():
for url in v: soup = init_bs(url,'gb2312')
get_target(soup) for k,v in result.iteritems():
print k,v

  

Python学习 - 使用BeautifulSoup来解析网页一:基础入门的更多相关文章

  1. Python学习笔记之爬取网页保存到本地文件

     爬虫的操作步骤: 爬虫三步走 爬虫第一步:使用requests获得数据: (request库需要提前安装,通过pip方式,参考之前的博文) 1.导入requests 2.使用requests.get ...

  2. python学习(25) BeautifulSoup介绍和实战

    BeautifulSoup是python的html解析库,处理html非常方便 BeautifulSoup 安装 pip install beautifulsoup4 BeautifulSoup 配合 ...

  3. python学习之----BeautifulSoup的find()和findAll()及四大对象

    BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通 过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...

  4. python学习笔记——爬虫中提取网页中的信息

    1 数据类型 网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据 常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据 是结构化数据的一种形式,并不符合关系 ...

  5. python学习之BeautifulSoup模块爬图

    BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...

  6. 使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了

    BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 ...

  7. python学习-迭代器,列表解析和列表生成式

    迭代器为类序列对象提供了一个类序列的接口.Python 的迭代无缝的支持序列对象,而且还允许程序猿迭代非序列类型,包括用户定义的对象. 迭代器是一个next()方法的对象,而不是通过索引计数.当需要下 ...

  8. Python学习笔记之参数解析

    python提供了两种方法进行命令行的参数解析,分别是getopt和optparse类中的模块OptionParser,下面分别详细了解这两个模块: 1.getopt模块 首先复习C语言的命令行解析: ...

  9. Python学习---xml文件的解析[beautifulsoup4模块学习]

    1.1. 安装beautifulsoup4 pip install beautifulsoup4 [更多参考]https://blog.csdn.net/sunhuaqiang1/article/de ...

随机推荐

  1. sql宽字节注入,绕过单引号

    参加下面: http://leapar.lofter.com/post/122a03_3028a9 http://huaidan.org/archives/2268.html https://ilia ...

  2. Intellij IDEA 导入Eclipse或MyEclipse的Web项目(旧版 转载)

    Intellij IDEA 导入Eclipse或MyEclipse的Web项目 博客分类: Intellig IDEA Intellij IDEAEclipseWeb  Intellij IDEA 导 ...

  3. 深入理解C#:编程技巧总结(一)

    原创文章,转载请注明出处! 以下总结参阅了:MSDN文档.<C#高级编程>.<C#本质论>.前辈们的博客等资料,如有不正确的地方,请帮忙及时指出!以免误导! 1.实现多态性的两 ...

  4. uva10622 Perfect P-th Powers

    留坑(p.343) 完全不知道哪里有问题qwq 从31向下开始枚举p,二分找存在性,或者数学函数什么的也兹辞啊 #include<cstdio> #include<cstring&g ...

  5. [Oracle] Data Pump 详细使用教程(4)- network_link

    [Oracle] Data Pump 详细使用教程(1)- 总览 [Oracle] Data Pump 详细使用教程(2)- 总览 [Oracle] Data Pump 详细使用教程(3)- 总览 [ ...

  6. delphi tidhttp 超时的解决方案

    现在delphi都发布到xe10.1了,tidhttp还有缺陷,那就是超时设置在没有网络或者连不上服务器的时候是无效的,不管你设置为多少都要10-20秒.connectTimeout和readTime ...

  7. Java基础知识强化06:使用BigDecimal计算阶乘1+1/2!+1/3!+……

    package himi.hebao04; import java.math.BigDecimal; public class TestDemo07 { public static void main ...

  8. Java中ArrayList问题:删除一个ArrayList中的重复元素,注意留意一个问题

    该问题有两种方法: 一 利用两个数组,此法简单,不讨论 二 利用一个数组,从第0个开始依次取元素,并在其后元素中查找是否有该元素,有则删掉后面的重复元素,依次遍历.---但是这种情况要特别注意,当后续 ...

  9. mac 终端常见指令

    基本命令 1.列出文件 ls 参数 目录名        例: 看看驱动目录下有什么:ls /System/Library/Extensions参数 -w 显示中文,-l 详细信息, -a 包括隐藏文 ...

  10. empty函数PHP

    empty译为: adj.空的,空虚的,空洞的;空闲的,无效的,徒劳的;无聊的,愚蠢的;言语或行动空洞的 vt.(使)成为空的, 把…弄空;把…腾出来 vi.成为空的;流空 n.空车;空的东西 是PH ...