用python2.7,采集新浪博客

#coding=utf-8       #新浪博客

import urllib

import re

import os

url=['']*1500 #每一骗博客的地址

title=['']*1500  #每一篇博客的标题

page=1  #博客分页

count=1  #文章计数

while page<=9:

	con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1193491727_0_'+str(page)+'.html').read()

	i=0

	hrefstart=con.find(r'href="http://blog.sina.com.cn/s/blog_')

	print hrefstart

	hrefend=con.find(r'.html',hrefstart)

	print hrefend

	titlestart=con.find(r'>',hrefend)

	print titlestart

	titleend=con.find(r'</a>',titlestart)

	print titleend

	while i<=50 and titleend!=-1 and hrefend!=-1:

		url[i]=con[hrefstart+6:hrefend+5]

		title[i]=con[titlestart:titleend]

		print page,i,count, title[i]

		print url[i]

		hrefstart=con.find(r'href="http://blog.sina.com.cn/s/blog_',titleend)

		hrefend=con.find(r'.html',hrefstart)

		titlestart=con.find(r'>',hrefend)

		titleend=con.find(r'</a>',titlestart)

		content=urllib.urlopen(url[i]).read()

		filename=url[i][-26:]

		print filename

		if not os.path.isdir("1"):

		   os.mkdir("1")

		target=open('1/'+filename,'w')

		target.write(content)

		i=i+1

		count=count+1

	else:

		print page,'本页查找到结尾了'

	page=page+1

else:

	print'本次任务结束了'

用python2.7,采集新浪博客，王石的博客文章。

实现了文章列表多页采集，实现了下载到本地。

练手之做，如果有更好的代码，也分享一些给我

欢迎交流　　

还有几点未作：

1、利用正则实现提取每一页的文章内容。

2、目录按照下载时间自动命名

用python2.7,采集新浪博客的更多相关文章

python中multiprocessing.pool函数介绍_正在拉磨_新浪博客
python中multiprocessing.pool函数介绍_正在拉磨_新浪博客 python中multiprocessing.pool函数介绍 (2010-06-10 03:46:5 ...
python网络爬虫新浪博客篇
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代 ...
MWeb 1.3.7 发布！增加发布到 Wordpress 等支持 MetaWeblog API 的服务，如：Wordpress 博客、新浪博客、cnblogs、oschina。
MWeb 1.3.7 版的新功能增加发布到 Wordpress 等支持 Metaweblog API 的服务,目前经测试过的有: Wordpress 博客.新浪博客.cnblogs.oschina. ...
新浪博客地址 http://blog.sina.com.cn/u/2145079955
原来新浪博客地址 http://blog.sina.com.cn/u/2145079955
新浪博客如何显示高亮代码，DIY
新浪博客对代码的支持功能不尽完美,或者说一点都不好,可是对于一个追求完美的技术痴而言,代码不能够完美的显示,心里总有那么一些不爽,那么如何在新浪中显示那些带颜色的代码呢?经过探究,可以如下设置: ...
基于samba实现win7与linux之间共享文件_阳仔_新浪博客
基于samba实现win7与linux之间共享文件_阳仔_新浪博客然后启动samba执行如下指令: /dev/init.d/smb start 至此完成全部配置.
推荐一款自己的软件作品[豆约翰博客备份专家]，新浪博客，QQ空间，CSDN，cnblogs博客备份，导出CHM,PDF(转载)
推荐一款自己的软件作品[豆约翰博客备份专豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站( ...
Marzoni(玛佐尼）意大利顶级西服面料之一_HollandandSherry_新浪博客
Marzoni(玛佐尼)意大利顶级西服面料之一_HollandandSherry_新浪博客 Marzoni(玛佐尼)意大利顶级西服面料之一 (2013-01-08 17:30:04) 转载▼
说一说高级男装面料_SuMisura_新浪博客
说一说高级男装面料_SuMisura_新浪博客说一说高级男装面料

随机推荐

SOCKS 5协议详解(转)
笔者在实际学习中,由于在有些软件用到了socks5(如oicq,icq等),对其原理不甚了解,相信很多朋友对其也不是很了解,于是仔细研读了一下rfc1928,觉得有必要译出来供大家参考. 1．介绍: ...
c#窗体虚线图形验证码设计
/************************窗体验证码背景图形设计及核心代码**********/ using System;using System.Collections.Generic;u ...
chrome浏览器开发者工具之同步修改至本地
相信好多小伙伴喜爱webpack的热加载技术,省时而又不繁琐,讨厌F5或者Ctrl+F5. 嘿嘿,现在介绍大家一个在浏览器中修改直接同步到本地代码修改的方法--- (程序员都是从0开始数数的!) 第0 ...
angularJS--ngSelect
给select绑定ng-model时,经常会出现首选第一个option值是undefined.如图, 源代码 <select ng-model="newSupplier.company ...
linux学习之——vim简明教程
摘自 http://blog.csdn.net/niushuai666/article/details/7275406 ——————————正文开始—————————— 你想以最快的速度学习人类史上 ...
TCP协议学习记录 (三) Ping程序 RR选项记录路由hop
一开始想直接在上个程序改,自己构造IP包头,但后来发现不行,微软不让干了,所以后来选用libcap库来收发包代码写的很乱.. #pragma pack(4) #define ECHO_REQUEST ...
clr via c# 读书笔记
WOW64 WOW64 (Windows 位应用程序提供了位的模拟,可以使大多数位应用程序在无需修改的情况下运行在 Windows 位版本上. com对象 COM:The Component Ob ...
Java中从控制台输入数据的几种常用方法
Java中从控制台输入数据的几种常用方法一.使用标准输入串System.in //System.in.read()一次只读入一个字节数据,而我们通常要取得一个字符串或一组数字 //System.in ...
查看Oracle中是否有锁表的sql
1.查看是否有锁表的sql 代码如下: select 'blocker('||lb.sid||':'||sb.username||')-sql:'|| qb.sql_text blockers, 'w ...
.Net判断一个对象是否为数值类型探讨总结（高营养含量，含最终代码及跑分）
前一篇发出来后引发了积极的探讨,起到了抛砖引玉效果,感谢大家参与. 吐槽一下:这个问题比其看起来要难得多得多啊. 大家的讨论最终还是没有一个完全正确的答案,不过我根据讨论结果总结了一个差不多算是最终版 ...

用python2.7,采集新浪博客

用python2.7,采集新浪博客的更多相关文章

随机推荐

热门专题