python网络爬虫进入（一）——简单的博客爬行动物

最近。对于图形微信公众号。互联网收集和阅读一些疯狂的-depth新闻和有趣，发人深思文本注释，并选择最佳的发表论文数篇了。但看着它的感觉是一个麻烦的一人死亡。寻找一个简单的解决方案的方法，看看你是否可以把互联网上的信息自己主动收集，然后，他们使用一个统一的筛选。可惜，最近准备学习的知识网络爬虫，于是按照网上的教程要学会尝试写自己的一个小爬虫，嘻嘻，韩寒的博客是用来攀爬。

第一个完整的代码贴上来，根据假设，朋友们需要测试。请安装python相关环境，存。再按F5执行。

#导入urllib库，python訪问网页必须库

import urllib

#时间类库

import time

#定义一个URL数组用来存放捕获的URL地址。也就是须要爬的文字地址路径

url = [''] * 50

#定义link变量，用来记录第几个URL地址

link = 1

#循环捕获博客文件夹第一页全部的文章链接。并下载

#定义con变量来存储urllib.urlopen打开韩寒博客的文件夹地址，特别注意下'+str(page)+'，用来变化每一页文件夹地址的

con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()

#变量title用来存储con变量中找到<a title=开头元素的位置

title = con.find(r'<a title=')

#变量href用来存储con变量中找到href='开头元素的位置

href = con.find(r'href=',title)

#变量html用来存储con变量中找到.html开头元素的位置

html = con.find(r'.html',href)

#存储第一个连接地址

url[0] = con[href + 6:html + 5]

content = urllib.urlopen(url[0]).read()

open(r'hanhan/'+url[0][-26:],'w+').write(content)

print '0 have downloaded',url[0]

#循环捕获每一篇文章的地址，并存储在URL数组中

while title != -1 and href != -1 and html != -1 and link < 50:

    #con[href + 6:html + 5]是用来取con字符串href后6位到html倒数5位之间的字符串

    url[link] = con[href + 6:html + 5]

    #打开读取每一篇文章地址。并存储在content中

    content = urllib.urlopen(url[link]).read()

    #打开hanhan这个文件夹，假设里面没有url[link][-26:]这个字符串命名的文件。便将content里的内容写入。命名为url[link][-26:]

    open(r'hanhan/'+url[link][-26:],'w+').write(content)

    print link,'have downloaded',url[link]

    title = con.find(r'<a title=',html)

    href = con.find(r'href=',title)

    html = con.find(r'.html',href)

    #自增记数

    link = link +1

这个爬虫实现的功能还是非常简陋的，但作为入门我认为还是够的。它仅仅是实现了保存博客第一页文件夹全部文章的HTML文件，并没有抓取特定的内容予以保存。

还有我认为有编程基础的人，看起来应该不是非常费力。主要的思想非常easy，就是先爬地址，然后爬一个地址就下地址相应的网页，接着保存为。

我个人认为。这段代码还是有点邋遢。不够简洁明了。希望通过以后的学习能写出质量更高的代码。

有些看里面涉及的方法python文档可以发现，这是不难，几乎每一句里面我都标有注意事项。

执行：

python网络爬虫进入（一）——简单的博客爬行动物的更多相关文章

Python网络数据采集（1）：博客访问量统计
前言 Python中能够爬虫的包还有很多,但requests号称是“让HTTP服务人类”...口气不小,但的确也很好用. 本文是博客里爬虫的第一篇,实现一个很简单的功能:获取自己博客主页里的访问量. ...
python静态网页爬虫之xpath(简单的博客更新提醒功能）
直接上代码: #!/usr/bin/env python3 #antuor:Alan #-*- coding: utf-8 -*- import requests from lxml import e ...
【python网络爬虫】之requests相关模块
python网络爬虫的学习第一步 [python网络爬虫]之0 爬虫与反扒 [python网络爬虫]之一简单介绍 [python网络爬虫]之二 python uillib库 [python网络爬虫] ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
Python 正则表达式 (python网络爬虫)
昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...

随机推荐

C++,Python,Go对照学习-01
好吧其实学Go只是为了好玩,只是为了好玩,学习过程中不免会把其他我懂的语言的思维定势和习惯带进来,由此有了这篇对照学习的记录,就当是留下学习的脚印吧. 这里所提及的语言特性在C++指最新的C++11标 ...
【C++ Primer每天刷牙】一间迭代器
迭代器的介绍概述迭代器是一种检查容器内元素并遍历元素的数据类型. 迭代器(iterator)是一种对象,它能够用来遍历标准模板库容器中的部分或所有元素,每一个迭代器对象代表容器中的确定的地址.迭代 ...
Arcgis for Javascript之featureLayer图和属性互操作性
说明:主要实现加载FeatureLayer并显示属性表,而要实现联动属性表与地图,首先,看看实施后的效果: 显示效果如上图所看到的,本文章主要实现了下面几个功能:1.FeatureLayer属性表的 ...
DDD领域驱动设计初探
DDD领域驱动设计初探1 前言:又有差不多半个月没写点什么了,感觉这样很对不起自己似的.今天看到一篇博文里面写道:越是忙人越有时间写博客.呵呵,似乎有点道理,博主为了证明自己也是忙人,这不就来学习下D ...
CSS hack方式
史上最全的CSS hack方式一览做前端多年,虽然不是经常需要hack,但是我们经常会遇到各浏览器表现不一致的情况.基于此,某些情况我们会极不情愿的使用这个不太友好的方式来达到大家要求的页面表现 ...
oracle从备份归档日志的方法集中回收
oracle从备份集中抓出归档日志方法在大连医院遇到这个问题,数据库为归档状态,但归档完成后rman通过crontab自己主动备走归档日志并删除存在系统上的归档日志文件.在RealSync程序停止一 ...
ResourceBundle
ResourceBundle本质上也是一个映射,但是它提供了国际化的功能. 假设电脑设置的地区是中国大陆,语言是中文那么你向ResourceBundle(资源约束名称为base)获取abc变量的 ...
JS数据绑定模板artTemplate试用
之前写JS绑定数据曾经用过tmpl库,虽然功能比较强大但是感觉不是很轻量,对于相对简单的数据需求显得有些臃肿.而Ajax返回数据自己拼接html的方式又显得不够高端,因此今天看了一篇介绍artTemp ...
View中选择的数据行中的部分数据传入到Controller中
将View中选择的数据行中的部分数据传入到Controller中 ASP.NET MVC搭建项目后台UI框架—1.后台主框架 ASP.NET MVC搭建项目后台UI框架—2.菜单特效 ASP.NE ...
TCP流量控制协议
说明: 本文仅供学习交流.转载请标明出处,欢迎转载! 本文是下面文献相关内容的总结 [1] <TCP/IP具体解释卷1:协议> [2] <TCP/IP协议族第4版> [3] ...

python网络爬虫进入（一）——简单的博客爬行动物

python网络爬虫进入（一）——简单的博客爬行动物的更多相关文章

随机推荐

热门专题