抓取网页

python核心库

urllib2

实现对静态网页的抓取，不得不说，“人生苦短，我用python”这句话还是有道理的，要是用java来写，这估计得20行代码

（对不住了博客园了，就拿你开刀吧）

def staticFetch():

    url = "http://www.cnblogs.com/"

    request = urllib2.Request(url)

    response = urllib2.urlopen(request)

    print response.read()

实现对动态网页的抓取，采用post请求，如果想用get方法，只需要把参数接在url后面，不需要data这个参数

def postFetch():

    data = 'Keywords:爬虫'

    url = "http://zzk.cnblogs.com/s/blogpost?Keywords=%E7%88%AC%E8%99%AB"

    request = urllib2.Request(url, data)

    response = urllib2.urlopen(request)

    print response.read()

匹配数据

正则表达式	解释	案例（伪代码）
.*	贪婪模式，匹配除了换行符之外的所有字符	str = abcbc regex = a.*c return abcbc
.*?	非贪婪模式	str = abcbc regex = a.*c return abc
(.*?)	表示只要匹配这一部分如果是匹配多个则返回的是一个元组类型	str = abcbc regex = a(.*)c return b
more

伪造浏览器请求

urllib2.HTTPError: HTTP Error 403: Forbidden

当你在运行python的时候出现这个错误，则该网址设置过了禁止爬虫访问，需要伪装一下http的请求头，加入如下代码再运行就ok了。

head={'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

urllib2.Request(url,headers=head)

网页乱码问题

看看爬下来的html是什么编码格式的

一般都是utf-8，也有gb2312和asic的，保证你的编码和网页的编码是同一种编码。

中文乱码

如果爬下来的网页打印的时候出现\xe6\x96\xb0\xe4\xba\xba这种信息，你可以用以下语句转换成字符串查看

','.join(str)

参考资料

//一个python爬虫从入门到放弃的好博客

http://cuiqingcai.com/1052.html

基于python的爬虫（一）的更多相关文章

基于python的爬虫项目
一.项目简介 1.1 项目博客地址 https://www.cnblogs.com/xsfa/p/12083913.html 1.2 项目完成的功能与特色爬虫和拥有三个可视化数据分析 1.3 项目采 ...
基于python的爬虫流程图(精简版)
网址: https://www.processon.com/view/link/5e1148b8e4b07db4cfa9cf34 如果链接失效,请及时反馈(在评论区评论),博主会及时更新
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
基于python的知乎开源爬虫 zhihu_oauth使用介绍
今天在无意之中发现了一个知乎的开源爬虫,是基于Python的,名字叫zhihu_oauth,看了一下在github上面star数还挺多的,貌似文档也挺详细的,于是就稍微研究了一下.发现果然很好用啊.就 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
基于python的知乎开源爬虫 zhihu
今天在无意之中发现了一个知乎的开源爬虫,是基于Python的,名字叫zhihu_oauth,看了一下在github上面star数还挺多的,貌似文档也挺详细的,于是就稍微研究了一下.发现果然很好用啊.就 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
基于python爬虫的github-exploitdb漏洞库监控与下载
基于python爬虫的github-exploitdb漏洞库监控与下载 offensive.py(爬取项目历史更新内容) #!/usr/bin/env python # -*- coding:utf- ...
基于python的pixiv爬虫
基于python的pixiv爬虫 1.目标在和朋友吹逼过程中,聊到qq群机器人,突发奇想动手做一个p站每日推荐色图的色图机,遂学习爬虫. 目标: 批量下载首页推荐色图. 由于对qq机器人不熟,先利用 ...

随机推荐

OpenStack及其构成简介
新的一年新的开始,突然想学习下Openstack,之前了解过很多,但是想系统的学习一下,第一次写博客,只想把学到的东西记录下来加深印象,如有写的不好的地方请多多见谅.下面开门见山. 1.What is ...
自动化利器-Zabbix
1.1为何需要监控系统在一个IT环境中会存在各种各样的设备,例如:硬件设备.软件设备.其系统的构成也是非常复杂的. 多种应用构成负载的IT业务系统,保证这些资源的正常运转,是一个公司IT部门的职责. ...
看Lucene源码必须知道的基本概念
终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很大关系.虽然咱的技术不敢说是部门第一的 ...
关于C++ 循环
有的时分,可能需求屡次履行同一块代码.通常情况下,句子是顺序履行的:函数中的第一个句子先履行,接着是第二个句子,依此类推. 编程言语供给了答应更为杂乱的履行途径的多种操控结构. 循环句子答应咱们屡次履 ...
开源的C#实现WebSocket协议客户端和服务器websocket-sharp组件解析
很久没有写博客了(至少自己感觉很长时间没有写了),没办法啊,楼主也是需要生活的人啊,这段一直都在找工作什么的.(整天催我代码的人,还望多多谅解啊,我会坚持写我们的项目的,还是需要相信我的,毕竟这是一个 ...
JDBC的使用流程
//导入包: import java.sql.*; //注册JDBC驱动程序: Class.forName("com.mysql.jdbc.Driver"); //打开一个连接: ...
css伪类的组合用法
利用伪类组合,可以用css代替js以达到目的,少些一下js .textarea:empty:before { display: block; content: '请输入'; color: #ababa ...
DirectFB环境搭建
一.下载安装包 http://www.directfb.org/index.php?path=Main%2FDownloads git clone git://git.directfb.org/git ...
APP品牌具体有哪几个要素？又是如何操作的？
对于品牌的一些认识首先我们要知道,品牌是由用户与公司及其产品&服务互动后所产生的,失去了与用户互动并且承认的是伪品牌,对于开发者来说,APP的品牌要先从标志与颜色考虑起,但实话实说,标志与颜 ...
hibernate 使用 hibernate tool 生成配置文件和实体类
安装Hibernate插件下载所需的Hibernatetools http://www.hibernate.org/6.html 将下载得到的文件解压得到的features和plugins文件夹, ...

基于python的爬虫（一）