关于Python网络爬虫实战笔记③

Python网络爬虫实战笔记③如何下载韩寒博客文章

target：下载全部的文章

1. 博客列表页面规则

也就是，

http://blog.sina.com.cn/s/articlelist_1191258123_0_*.html

字符串的连接：

但是字符串和整型变量不能连接在一起

这个时候可以用str()函数

再回到题目上来， http://blog.sina.com.cn/s/articlelist_1191258123_0_*.html中的*得用page来替换

page=1
con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()

结合一下以前的代码，实现所有文章的下载

#coding:utf-8
import urllib
import time
url=['']*350
page=1
link=1
while page<=7:
   con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()
   i=0
   title=con.find(r'<a title')
   href=con.find(r'href=',title)
   html=con.find(r'.html',href)

   while title !=-1 and href !=-1 and html !=-1 and i < 350:
      url[i]=con[href+6:html+5]
      print link,' ',url[i]
      title=con.find(r'<a title',html)
      href=con.find(r'href=',title)
      html=con.find(r'.html',href)
      i=i+1
      link=link+1
   else: 
      print 'page',page,'find end'
   page=page+1
else:
   print 'all find end'

j=0
while j<350:
    content =urllib.urlopen(url[j]).read()
    open(r'hanhan/'+url[j][-26:],'w+').write(content)
    print 'downloading',url[j]
    j=j+1
    time.sleep(15)
else:
    print 'download article finished'

这样就能把全部的文章都下载下来～

关于Python网络爬虫实战笔记③的更多相关文章

关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
python网络爬虫实战之快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
Python网络爬虫实战：根据天猫胸罩销售数据分析中国女性胸部大小分布
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.是网络爬虫和数据分析的综合应用项目.本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S ...
Python网络爬虫实战入门
一.网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序. 爬虫的基本流程: 发起请求: 通过HTTP库向目标站点发起请求,也就是发送一个Request ...
python网络爬虫学习笔记（一）Request库
一.Requests库的基本说明引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个 ...

随机推荐

Swfit中视图跳转
.跳转到任一UIViewController var sb = UIStoryboard(name: "Main", bundle:nil) var vc = sb.instant ...
jQuery模拟原生态App上拉刷新下拉加载
jQuery模拟原生态App上拉刷新下拉加载效果代码,鼠标上拉时会显示loading字样,并且会模拟加载一条静态数据,支持触屏设备使用. <!doctype html> <html ...
ASP.NET MVC 学习之路-3
本文在于巩固基础到这里不得不说ASP.NET MVC一个规则:惯例优先原则 ASP.NET会假定开发人员遵循特定的规则来构建自己的程序而不是使用配置文件 ASP.NET MVC文件夹结构也遵循惯例优 ...
DevExpress]ChartControl 创建Drill-Down样式的Title
关键代码: /// <summary> /// 创建Drill-Down样式的Title /// </summary> /// <param name="cha ...
jQuery源码笔记——二
jQuery选择这样返回对象 var jQuery = function( selector, context ) { return new jQuery.fn.init( selector, con ...
图片的像素和Android的dp值之间的关系。
这是一个困扰我很就得问题.今天在我的反复摸索下,总结出了一些个规律. 以下测试以魅族mx5为例. 手机参数:5.5英寸:高:1920:宽1080. /** * 获得屏幕的宽度 * * @param c ...
MIT6.828 虚拟地址转化为物理地址——二级分页
这个分页,主要是在mit6.828的lab2的背景下来说的. Mit6.828 Lab2:http://pdos.csail.mit.edu/6.828/2014/labs/lab2/ lab2主要讲 ...
day8_python学习笔记_chapter11_函数
1. 返回对象的数目 python实际返回的对象 0 -> None ; 1 -> object ; >1 -> tuple 2. 内部/内嵌函数:如果内部函数的定义包含了 ...
常用DOM整理
常用DOM整理前言: html为document搭建了一棵DOM树,这棵树就是有一系列Node节点所构成的.他为我们定义了文档的结构. Node类型: Node.ELEMENT_NODE(1); ...
超简单TAB切换
<div class="tab-fbox2"> <ul class="title-list2 clearfix"> <li cla ...

关于Python网络爬虫实战笔记③

Python网络爬虫实战笔记③如何下载韩寒博客文章

1. 博客列表页面规则

关于Python网络爬虫实战笔记③的更多相关文章

随机推荐

热门专题