python爬虫-韩寒新浪博客博文】的更多相关文章

博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 爬第一页博文 #-*-coding:utf--*- import re #导入正则表达式模块 import urllib #导入urllib库 url= response = html = response.read() #print(html) #这里可以将爬取到的html输出到终端 pattern = re.compile('<a title=.*?href=(.*?…
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客.第三集讲爬取所有博客. 看了视频.也留下了代码. 爬虫第一步:查看网页源码: 第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/…
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代码精简了一下,用在另外一个网站而已,而且爬别人的博客总有一种做贼心虚的感觉,怕被各位园友认为是偷窥狂魔.但是这份代码总归是我花了精力去写的,我也不想就此让它深藏在硬盘之中(电脑实在太老了,可能过两年硬盘坏了,这份代码就消失了),还是贴出来权当作抛砖引玉. 说起要爬新浪博客,总归是有一个原因吧.我的原…
python中multiprocessing.pool函数介绍_正在拉磨_新浪博客     python中multiprocessing.pool函数介绍    (2010-06-10 03:46:51)    转载▼    标签:    it    python    pool        分类: Python    摘自:http://hi.baidu.com/xjtukanif/blog/item/faaa06d31df7d1d8572c84fe.html     python自2.6开…
python datetime模块strptime/strptime format常见格式命令_施罗德_新浪博客     python datetime模块strptime/strptime format常见格式命令    (2013-02-21 11:04:05)    转载▼    标签:    datetime    it        分类: python     python的datetime模块非常好使,就是时间格式与字符串格式转化(strptime/strftime函数)的时候老是…
python中逐行读取文件的最佳方式_Drupal_新浪博客 python中逐行读取文件的最佳方式    (2010-08-18 15:59:28)    转载▼    标签:    python    逐行    读取    文件    最佳    方式    readline    it            利用迭代协议让for循环自动调用next从而前进到文件的下一行,而不是直接把文件读取到内存中,有三点原因:写法简单,运行速度快,节省内存.示例如下:    for line in op…
python—webshell_醉清风xf_新浪博客 python—webshell (2012-05-23 09:55:46) 转载▼…
推荐一款自己的软件作品[豆约翰博客备份专 豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站(QQ空间,百度空间,新浪博客,网易博客,豆瓣日记,天涯博客,19楼,博客园,和讯博客,CSDN博客,搜狐博客). 功能概述: 博客备份 可以解析备份博客的文章标题,文章类别,发表时间,文章正文,原文地址共五项内容.支持图片备份,支持断点续传备份,支持增量备份,只备份最新博文. 独立站点备份 备份一些…
原文地址:Word直接发布新浪博客(以Word 2013为例)作者:paulke2011 注意:这篇博客直接由Word 2013发出!这虽然也算是一个教程,但更多的是一个试验品. 老早就知道Word有发布博客的功能,但是一直没有用过.倒也不是没有尝试,而是都失败了.昨天写那一篇关于HCM术语的博客,折腾老半天的格式,发布到新浪博客的时候又因为种种限制导致格式丢失,变成了纯文本.于是又激起了我使用Word直接发布博客的欲望.于是到网上去搜了搜看看能不能碰巧找到解决办法. 甭说,还真有.James…
原文地址:Word直接发布新浪博客(以Word 2013为例)作者:paulke2011 注意:这篇博客直接由Word 2013发出!这虽然也算是一个教程,但更多的是一个试验品. 老早就知道Word有发布博客的功能,但是一直没有用过.倒也不是没有尝试,而是都失败了.昨天写那一篇关于HCM术语的博客,折腾老半天的格式,发布到新浪博客的时候又因为种种限制导致格式丢失,变成了纯文本.于是又激起了我使用Word直接发布博客的欲望.于是到网上去搜了搜看看能不能碰巧找到解决办法. 甭说,还真有.James…