Python 爬取CSDN博客频道
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便
python 部分模块安装时需要其他的附属模块之类的,可以先
pip install wheel
然后可以直接下载whl文件进行安装
pip install lxml-3.5.0-cp34-none-win32.whl
定义一个类,准备保存的类型
class CnblogArticle:
def __init__(self):
self.num=''
self.category=''
self.title=''
self.author=''
self.postTime=''
self.articleComment=''
self.articleView=''
因为CSDN博客频道只有18页,所以解析18页,有多线程解析(main注释部分)及普通解析,在main方法里
注意事项:每个item以class=blog_list区分,部分item下有class=category,少部分没有,所有要注意,否则会报错
<div class="blog_list">
<h1>
<a href="/other/index.html" class="category">[综合]</a>
<a name="49786427" href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank">Python: scikit-image canny 边缘检测</a> <img src="http://static.blog.csdn.net/images/icon-zhuanjia.gif" class="blog-icons" alt="专家" title="专家">
</h1> <dl>
<dt>
<a href="http://blog.csdn.net/matrix_space" target="_blank">
<img src="http://avatar.csdn.net/F/9/7/3_shinian1987.jpg" alt="shinian1987" />
</a>
</dt>
<dd>这个用例说明canny 边缘检测的用法 import numpy as np
import matplotlib.pyplot as plt
from scipy import ndimage as ndi
from skimage import feature # Generate noisy image of a square
im = np.zeros((128, 128))
im[3...</dd>
</dl>
<p>
<a class="tag" href="/tag/details.html?tag=python" target="_blank">python</a>
</p>
<div class="about_info">
<span class="fr digg" id="digg_49786427" blog="1164951" digg="0" bury="0"></span>
<span class="fl">
<a href="http://blog.csdn.net/matrix_space" target="_blank" class="user_name">shinian1987</a>
<span class="time">3小时前</span>
<a href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank" class="view">阅读(104)</a>
<a href="http://blog.csdn.net/matrix_space/article/details/49786427#comments" target="_blank" class="comment">评论(0)</a>
</span>
</div>
</div>
<div class="blog_list">
<h1>
<a name="50524490" href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank">STL_算法 for_each 和 transform 比较</a> </h1> <dl>
<dt>
<a href="http://blog.csdn.net/u010579068" target="_blank">
<img src="http://avatar.csdn.net/9/9/B/3_u010579068.jpg" alt="u010579068" />
</a>
</dt>
<dd>C++ Primer 学习中。。。 简单记录下我的学习过程 (代码为主) 所有容器适用
/**----------------------------------------------------------------------------------
for_each 速度快 ...</dd>
</dl>
<p>
<a class="tag" href="/tag/details.html?tag=STL_算法" target="_blank">STL_算法</a>
<a class="tag" href="/tag/details.html?tag=for_each" target="_blank">for_each</a>
<a class="tag" href="/tag/details.html?tag=transform" target="_blank">transform</a>
<a class="tag" href="/tag/details.html?tag=STL" target="_blank">STL</a>
</p>
<div class="about_info">
<span class="fr digg" id="digg_50524490" blog="1499803" digg="0" bury="0"></span>
<span class="fl">
<a href="http://blog.csdn.net/u010579068" target="_blank" class="user_name">u010579068</a>
<span class="time">3小时前</span>
<a href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank" class="view">阅读(149)</a>
<a href="http://blog.csdn.net/u010579068/article/details/50524490#comments" target="_blank" class="comment">评论(0)</a>
</span>
</div>
</div>
Beautiful Soup 4.2.0 文档 可以去官网直接查看
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import urllib.request
import os
import sys
import time
import threading
class CnblogUtils(object):
def __init__(self):
self.headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36'}
self.contentAll=set() def getPage(self,url=None):
request=urllib.request.Request(url,headers=self.headers)
response=urllib.request.urlopen(request)
soup=BeautifulSoup(response.read(),"lxml")
return soup def parsePage(self,url=None,page_num=None):
soup=self.getPage(url)
itemBlog=soup.find_all('div','blog_list')
cnArticle=CnblogUtils
for i,itemSingle in enumerate(itemBlog):
cnArticle.num=i
cnArticle.author=itemSingle.find('a','user_name').string
cnArticle.postTime=itemSingle.find('span','time').string
cnArticle.articleComment=itemSingle.find('a','comment').string
cnArticle.articleView=itemSingle.find('a','view').string
if itemSingle.find('a').has_attr('class'):
cnArticle.category=itemSingle.find('a','category').string
cnArticle.title=itemSingle.find('a',attrs={'name':True}).string
else:
cnArticle.category="None"
cnArticle.title=itemSingle.find('a').string
self.contentAll.add(str(cnArticle.author))
self.writeFile(page_num,cnArticle.num,cnArticle.author,cnArticle.postTime,cnArticle.articleComment,cnArticle.articleView,cnArticle.category,cnArticle.title) def writeFile(self,page_num,num,author,postTime,articleComment,articleView,category,title):
f=open("a.txt",'a+')
f.write(str('page_num is {}'.format(page_num))+'\t'+str(num)+'\t'+str(author)+'\t'+str(postTime)+'\t'+str(articleComment)+'\t'+str(articleView)+'\t'+str(category)+'\t'+str(title)+'\n')
f.close() def main(thread_num):
start=time.clock()
cnblog=CnblogUtils()
'''
thread_list = list();
for i in range(0, thread_num):
thread_list.append(threading.Thread(target = cnblog.parsePage, args = ('http://blog.csdn.net/?&page={}'.format(i),i+1,)))
for thread in thread_list:
thread.start()
for thread in thread_list:
thread.join()
print(cnblog.contentAll)
'''
for i in range(0,18):
cnblog.parsePage('http://blog.csdn.net/?&page={}'.format(i),i+1)
end=time.clock()
print('time = {}'.format(end-start)) if __name__ == '__main__':
main(18)
程序运行结果:
page_num is 1 0 foruok 18分钟前 评论(0) 阅读(0) [编程语言] Windows下从源码编译SKIA
page_num is 1 1 u013467442 31分钟前 评论(0) 阅读(3) [编程语言] Cubieboard学习资源
page_num is 1 2 tuke_tuke 32分钟前 评论(0) 阅读(15) [移动开发] UI组件之AdapterView及其子类关系,Adapter接口及其实现类关系
page_num is 1 3 xiaominghimi 53分钟前 评论(0) 阅读(51) [移动开发] 【COCOS2D-X 备注篇】ASSETMANAGEREX使用异常解决备注->CHECK_JNI/CC‘JAVA.LANG.NOCLASSDEFFOUNDERROR’
page_num is 1 4 shinian1987 1小时前 评论(0) 阅读(64) [综合] Python: scikit-image canny 边缘检测
page_num is 1 5 u010579068 1小时前 评论(0) 阅读(90) None STL_算法 for_each 和 transform 比较
page_num is 1 6 u013467442 1小时前 评论(0) 阅读(94) [编程语言] OpenGLES2.0着色器语言glsl
page_num is 1 7 u013467442 1小时前 评论(0) 阅读(89) [编程语言] OpenGl 坐标转换
page_num is 1 8 AaronGZK 1小时前 评论(0) 阅读(95) [编程语言] bzoj4390【Usaco2015 Dec】Max Flow
page_num is 1 9 AaronGZK 1小时前 评论(0) 阅读(95) [编程语言] bzoj1036【ZJOI2008】树的统计Count
page_num is 1 10 danhuang2012 1小时前 评论(0) 阅读(90) [编程语言] Node.js如何处理健壮性
page_num is 1 11 EbowTang 1小时前 评论(0) 阅读(102) [编程语言] <LeetCode OJ> 121. Best Time to Buy and Sell Stock
page_num is 1 12 cartzhang 2小时前 评论(0) 阅读(98) [架构设计] 给虚幻4添加内存跟踪功能
page_num is 1 13 u013595419 2小时前 评论(0) 阅读(93) [综合] 第2章第1节练习题3 共享栈的基本操作
page_num is 1 14 ghostbear 2小时前 评论(0) 阅读(115) [系统运维] Dynamics CRM 2016 Series: Overview
page_num is 1 15 u014723529 2小时前 评论(0) 阅读(116) [编程语言] 将由BeanUtils的getProperty方法返回的Date对象的字符串表示还原为对象
page_num is 1 16 Evankaka 2小时前 评论(1) 阅读(142) [架构设计] Jenkins详细安装与构建部署使用教程
page_num is 1 17 Evankaka 2小时前 评论(0) 阅读(141) [编程语言] Ubuntu安装配置JDK、Tomcat、SVN服务器
网速不好时多线程可能报错
获取了数据了就可以进行数据分析,或者深度搜索,根据author去获取author对应的blog等
Python 爬取CSDN博客频道的更多相关文章
- Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
- 利用Python抓取CSDN博客
这两天发现了一篇好文章,陈皓写的makefile的教程,具体地址在这里<跟我一起写makefile> 这篇文章一共分成了14个部分,我看东西又习惯在kindle上面看,感觉一篇一篇地复制成 ...
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
- 公告:CSDN博客频道新功能正式上线!
各位尊敬的CSDN用户: 你们好! 为了更好的服务于用户,CSDN博客最新推出如下功能: 1.取消开通博客3天才能发布博文的限制,博客开通之后即可发表博文 2.博客文章增加自定义摘要功能 在发表 ...
- CSDN博客频道维护公告
各位亲爱的用户: 为了给大家提供更稳定的使用环境,2014年4月23日23点至04月24日1点(本周四凌晨)博客频道server将进行维护,维护期间不能正常訪问.给大家带来不便,敬请广大 ...
- python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
原文地址: python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
- 用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量 效果 代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
- JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
- Hello Python!用 Python 写一个抓取 CSDN 博客文章的简单爬虫
网络上一提到 Python,总会有一些不知道是黑还是粉的人大喊着:Python 是世界上最好的语言.最近利用业余时间体验了下 Python 语言,并写了个爬虫爬取我 csdn 上关注的几个大神的博客, ...
随机推荐
- mysql长连接和短连接的问题
什么是长连接? 其实长连接是相对于通常的短连接而说的,也就是长时间保持客户端与服务端的连接状态. 通常的短连接操作步骤是: 连接->数据传输->关闭连接: 而长连接通常就是: 连接-> ...
- 07.15 first与first-child的区别
举例: $("ul li:first"); //选取第一个 <ul> 元素的第一个 <li> 元素 $("ul li:first-child&q ...
- 利用sass构建组件化的ui库
创建公用的Sass项目模板 在做项目时,不管什么项目,他们之间总是有一些可以共用的部分.比如说重置样式.公用样式.模块组件.UI库等.那么在Sass项目中也是如此.为了避免在每个项目中做一些相同的事情 ...
- Java-----Excel转HTML
尽管是转别人的(忘了哪转过来的了),但此处标为原创不是为了提高訪问量,也不是为了其它.仅仅是纯粹的认为有实际用途.希望能给很多其它有此需求的人看到并能帮到他们就足够了 所需jar包:jxl.jar p ...
- 【leetcode系列】Valid Parentheses
非常经典的问题,使用栈来解决,我这里自己实现了一个栈,当然也能够直接用java自带的Stack类. 自己实现的栈代码: import java.util.LinkedList; class Stack ...
- Ubuntu启动、停止、重新启动MySQL,查看MySQL错误日志、中文编码错误
1)启动: sudo /etc/init.d/mysql start 2)停止: sudo /etc/init.d/mysql stop 3)重新启动: sudo /etc/init.d/mysql ...
- 不定高度实现垂直居中(兼容低版本ie)
css实现垂直居中的方法比较多,但是每种方法的缺陷也很明显,我尝试对其中一种方法进行了改良 先看原方法: <div class="parent"> <div cl ...
- C和C++运算符 (转)
这里是C和C++语言的运算符列表.所有列出的运算符皆含纳于C++:第三个栏目里的内容也使用C来描述.应当注意的是C不支持运算符重载. 下列运算符在两个语言中都是顺序点(运算符未重载时): && ...
- javascript函数apply和call
apply:方法能劫持另外一个对象的方法,继承另外一个对象的属性. Function.apply(obj,args)方法能接收两个参数obj:这个对象将代替Function类里this对象args:这 ...
- Oracle 查询时间在当天的数据
要实现这个功能需要用到trunc这个函数对时间的操作 select trunc(sysdate) from dual --2014-12-27 今天的日期为2014-12-27 select trun ...