Python爬取韩寒所有新浪博客

接上一篇，我们依据第一页的链接爬取了第一页的博客，我们不难发现，每一页的链接就仅仅有一处不同（页码序号），我们仅仅要在上一篇的代码外面加一个循环，这样就能够爬取全部博客分页的博文。也就是全部博文了。

# -*- coding : -utf-8 -*-

import urllib

import time

url = [' ']*350

page = 1

link = 1

while page <=7://眼下共同拥有7页。3

    con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()

    i = 0

    title = con.find(r'<a title=')

    href = con.find(r'href=',title)

    html = con.find(r'.html',href)

    while title != -1 and href != -1 and html != -1 and i<350:

        url[i] = con[href + 6:html + 5]

        content = urllib.urlopen(url[i]).read()

        open(r'allboke/'+url[i][-26:],'w+').write(content)

        print 'link',link,url[i]

        title = con.find(r'<a title=',html)

        href = con.find(r'href=',title)

        html = con.find(r'.html',href)

        i = i + 1

        link = link + 1

    else:

        print 'page',page,'find end!'

    page = page + 1

else:

    print 'all find end'

#i = 0

#while i < 350:

    #content = urllib.urlopen(url[i]).read()

    #open(r'save/'+url[i][-26:],'w+').write(content)

    #print 'downloading',i,url[i]

    #i = i + 1

    #time.sleep(1)

#else:

print 'download artical finished!'

代码最以下部分，保存网页仅仅能保存到50，不知道错在哪里。

所以就将保存网页的代码放在搜索里，找到就保存！

正确执行界面：

执行结果：

Python爬取韩寒所有新浪博客的更多相关文章

Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
python网络爬虫新浪博客篇
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代 ...
python中multiprocessing.pool函数介绍_正在拉磨_新浪博客
python中multiprocessing.pool函数介绍_正在拉磨_新浪博客 python中multiprocessing.pool函数介绍 (2010-06-10 03:46:5 ...
python datetime模块strptime/strptime format常见格式命令_施罗德_新浪博客
python datetime模块strptime/strptime format常见格式命令_施罗德_新浪博客 python datetime模块strptime/strptime form ...
python中逐行读取文件的最佳方式_Drupal_新浪博客
python中逐行读取文件的最佳方式_Drupal_新浪博客 python中逐行读取文件的最佳方式 (2010-08-18 15:59:28) 转载▼ 标签: python ...
python—webshell_醉清风xf_新浪博客
python—webshell_醉清风xf_新浪博客 python—webshell (2012-05-23 09:55:46) 转载▼
Javascript Jquery 中的数组定义与操作_子木玲_新浪博客
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
关于Windows文件读写_暗涌_新浪博客
关于Windows文件读写_暗涌_新浪博客这几天在研究怎么才能加快windows文件读写速度,搜了很多文章,MSDN也看了不少.稍微给大家分享一下. 限制windows文件读写速度的 ...
MWeb 1.3.7 发布！增加发布到 Wordpress 等支持 MetaWeblog API 的服务，如：Wordpress 博客、新浪博客、cnblogs、oschina。
MWeb 1.3.7 版的新功能增加发布到 Wordpress 等支持 Metaweblog API 的服务,目前经测试过的有: Wordpress 博客.新浪博客.cnblogs.oschina. ...

随机推荐

IOS 自动布局-UIStackPanel和UIGridPanel(四)
为什么说scrollview的自动化布局是难点? 对scrollview做自动化布局,无非就是想对scrollview里面的subviews来做自动化布局.但是scrollview里面的subview ...
websphere8.5 与cxf2.x冲突问题
一个客户was部署的小问题,记录一下. 问题现象在我们的服务中用调用别人的webservice服务报错,框架用的cxf. 报错关键信息有: E com.ibm.ws.webcontainer.web ...
大数据学习——sqoop导入数据
把数据从关系型数据库导入到hadoop 启动sqoop 导入表表数据到HDFS 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS. sqoop import \ --connect jd ...
x86保护模式-六控制转移
控制转移可以分为两大类 :同一任务内的控制转移和任务间的控制转移(任务切换) 同一个任务内的控制转移可以分为段内转移 .特权级不变的段间转移和特权级改变的段间转移段内转移与实模式相同 ...
【LeetCode】Reverse Nodes in k-Group(k个一组翻转链表)
这是LeetCode里的第25道题. 题目要求: 给出一个链表,每 k 个节点一组进行翻转,并返回翻转后的链表. k 是一个正整数,它的值小于或等于链表的长度.如果节点总数不是 k 的整数倍,那么将最 ...
[uiautomator篇] 设置@test的执行顺序
http://jackyrong.iteye.com/blog/2025609 Brief Junit 4.11里增加了指定测试方法执行顺序的特性测试类的执行顺序可通过对测试类添加注解 “@FixM ...
82. Spring Boot – 启动彩蛋【从零开始学Spring Boot】
我们在[28. SpringBoot启动时的Banner设置 ] 这一小节介绍过设置Spring Boot的Banner,但是实际当中,我们希望做的更漂亮,所以也就有了这小节Spring Boot-启 ...
BZOJ 2440 [中山市选2011]完全平方数 ——莫比乌斯函数
$\sum_{i=1}^n[i==d^2*p]$ 其中p无平方因子$=\sum_{d^2\mid n,d>=2}\sum_{i=1}^{\lfloor {n/d^2} \rfloor} \lef ...
【2018.10.27】CXM笔记
一个数大约有 $O(\sqrt(n)/log^2(n))$ 个约数. 1. 一个棋盘,每个格子最开始都是白的.可以按一个格子,它马跳(日字跳)能到达的 $8$ 个格子反色(当前格不反色).问有多少种方 ...
Longge的问题（bzoj 2705）
Description Longge的数学成绩非常好,并且他非常乐于挑战高难度的数学问题.现在问题来了:给定一个整数N,你需要求出∑gcd(i, N)(1<=i <=N). Input 一 ...

Python爬取韩寒所有新浪博客

Python爬取韩寒所有新浪博客的更多相关文章

随机推荐

热门专题