用python写爬虫

Python提供了许多Module，通过这些Module，可以很简单的做一些工作。比如，要获得cloga这个词在百度搜索结果页中的排名结果（排名结果+URL），这就是一个很简单的爬虫需求。

首先，要通过urllib2这个Module获得对应的HTML源码。

import urllib2
url='http://www.baidu.com/s?wd=cloga'

content=urllib2.urlopen(url).read()

通过上面这三句就可以将URL的源码存在content变量中，其类型为字符型。

接下来是要从这堆HTML源码中提取我们需要的内容。用Chrome查看一下对应的内容的代码（也可以用Firefox的Firebug）。

可以看到url的信息存储在span标签中，要获取其中的信息可以用正则式。

import re

urls_pat=re.compile(r'(.*?)')

siteUrls=re.findall(results_pat,content)

re.compile是将字符串编译为用于python正则式的模式，字符前的r表示是纯字符，这样就不需要对元字符进行两次转义。re.findall返回的是字符串中符合results_pat的列表，由于在results_pat中使用了子表达式，所以results存储的就是子表达式所匹配的内容，即与之间的内容。

用正则式获得内容还需要进一步处理，因为其中包含html标签。类似，hi.baidu.com/cloga 2010-8-29或者 hi.baidu.com/cloga 2010-8-29 ，同样可以用正则式的sub方法替换掉这些标签。

strip_tag_pat=re.compile(r'<.*?>')

file=open('results000.csv','w')

for i in results:

 i0=re.sub(strip_tag_pat,'',i)

 i0=i0.strip()

 i1=i0.split(' ')

 date=i1[-1]

 siteUrl=''.join(i1[:-1])

 rank+=1

 file.write(date+','+siteUrl+','+str(rank)+'\n')

file.close()

完整代码如下：
#!/usr/bin/python

import urllib2

url='http://www.baidu.com/s?wd=cloga'

content=urllib2.urlopen(url).read()

import re

urls_pat=re.compile(r'(.*?)')

siteUrls=re.findall(urls_pat,content)

strip_tag_pat=re.compile(r'<.*?>')

file=open('results000.csv','w')

rank=0

for i in siteUrls:

 i0=re.sub(strip_tag_pat,'',i)

 i0=i0.strip()

 i1=i0.split()

 date=i1[-1]

 siteUrl=''.join(i1[:-1])

 rank+=1

 file.write(date+','+siteUrl+','+str(rank)+'\n')

file.close()
再来就是把对应的结果输出到文件中，比如，排名、URL、收入日期这样的形式。OK，这样就用Python实现了一个简单的爬虫需求。秀一下上面代码的输出。
2013-7-1,www.cloga.info/,1

2013-6-19,www.zhihu.com/people/cloga,2

2013-6-12,www.cloga.info/ga_javascript/,3

2013-6-7,www.douban.com/people/cloga/,4

2013-6-11,dict.youdao.com/eng/cloga/,5

2013-6-1,cloga.com/,6

2013-6-12,www.cloga.info/tag/web-metrics...,7

2013-6-3,book.douban.com/people/47082939/coll...,8

2013-6-19,space.chinaz.com/Cloga,9

2013-4-24,website.informer.com/cloga.info,10

用python写爬虫的更多相关文章

python写爬虫时的编码问题解决方案
在使用Python写爬虫的时候,常常会遇到各种令人抓狂的编码错误问题.下面给出一些简单的解决编码错误问题的思路,希望对大家有所帮助. 首先,打开你要爬取的网站,右击查看源码,查看它指定的编码是什么,如 ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
Python写爬虫-爬甘农大学校新闻
Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you ne ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
Python写爬虫爬妹子
最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有通用的思路的,即下载数据.解析数据.保存数据.下面一一来讲. 1.下载数据首先打 ...
《用Python写爬虫》学习笔记（一）
注:纯文本内容,代码独立另写,属于本人学习总结,无任何商业用途,在此分享,如有错误,还望指教. 1.为什么需要爬虫? 答:目前网络API未完全放开,所以需要网络爬虫知识. 2.爬虫的合法性? 答:爬虫 ...
《用Python写爬虫》学习笔记（二）编写第一个网络爬虫
1.首先,下载网页使用Python的urllib2模块,或者Python HTTP模块request来实现 urllib2会出现问题,解决方法1.重试下载(设置下载次数) 2.设置用户代理 2.其次, ...
python写爬虫的弯路
一开始按照视频上的找了笔趣阁的网站先爬一部小说, 找了<遮天>,但是章节太多,爬起来太慢, 就换了一个几十章的小说. 根据视频里的去写了代码, 在正则表达式哪里出了很大的问题. from ...
python写爬虫遇到需要解码js一些记录
js在线格式化网站 https://beautifier.io/ Python 执行 JS 代码 NodeJS 安装方式先解决 JS 环境,这里推荐安装 Node.js ,安装方便,执行效率也高. ...

随机推荐

JS判断字符串是否全为中文
//第一种代码(全为中文则返回"true",不全为中文则返回"false"): <script language="javascript&quo ...
[推荐]ORACLE PL/SQL编程之四：把游标说透(不怕做不到，只怕想不到)
原文:[推荐]ORACLE PL/SQL编程之四:把游标说透(不怕做不到,只怕想不到) [推荐]ORACLE PL/SQL编程之四: 把游标说透(不怕做不到,只怕想不到) 继上两篇:ORACLE PL ...
【剑指offer】Q32：从1至n整1出现的次数（python）
def q32(n, len): if n < 0: return 0 elif n <= 1: return n total = 0 while n > 0: if n >= ...
SQL点滴16—SQL分页语句总结
原文:SQL点滴16-SQL分页语句总结今天对分页语句做一个简单的总结,他们大同小异的,只要理解其中一个其他的就很好理解了. 使用top选项 *from Orders orderid from Or ...
Web神器WebStorm 8.0测试版发放（慧都独家）
WebStorm 8.0测试版的发放,标志着WebStorm规划构建的发展成熟. 此次WebStorm 8.0测试版的主要变化是支持高级的AngularJS和集成Spy-js JavaScript跟踪 ...
用lucene.net根据关键字检索本地word文档
目前在做一个winform小软件,其中有一个功能是能根据关键字检索本地保存的word文档.第一次是用com读取word方式(见上一篇文章),先遍历文件夹下的word文档,读取每个文档时循环关键字查找, ...
leetcode第21题--Generate Parentheses
problem: Given n pairs of parentheses, write a function to generate all combinations of well-formed ...
[LeetCode] ZigZag Conversion [9]
称号 The string "PAYPALISHIRING" is written in a zigzag pattern on a given number of rows li ...
WebIM(5)----将WebIM嵌入到页面中
在之前的文章中,已经开发了一个简单的WebIM,但是这个WebIM是在独立的页面中的,今天发布的WebIM是一个可以嵌入到自己网页中的版本,你只需添加少量的代码,就可以在页面中嵌入一个WebIM.不过 ...
PHP中实现在数据库中的增、删、查、改
其实要想在PHP中访问并获取到数据库中的数据其实并不难,下面我以例子为大家介绍: 首先,打开PHP软件和WampServer服务,确保在WampServer中的phpMyAdmin中有你要使用的数据表 ...

用python写爬虫

用python写爬虫的更多相关文章

随机推荐

热门专题