初次接触python，写的很简单，开发工具PyCharm，python 3.4很方便

python 部分模块安装时需要其他的附属模块之类的，可以先

pip install wheel

然后可以直接下载whl文件进行安装

pip install lxml-3.5.0-cp34-none-win32.whl

定义一个类，准备保存的类型

class CnblogArticle:

    def __init__(self):

        self.num=''

        self.category=''

        self.title=''

        self.author=''

        self.postTime=''

        self.articleComment=''

        self.articleView=''

因为CSDN博客频道只有18页，所以解析18页，有多线程解析(main注释部分)及普通解析，在main方法里

注意事项:每个item以class=blog_list区分，部分item下有class=category，少部分没有，所有要注意，否则会报错

<div class="blog_list">

        <h1>

                    <a href="/other/index.html" class="category">[综合]</a>

            <a name="49786427" href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank">Python: scikit-image canny 边缘检测</a>

                    <img src="http://static.blog.csdn.net/images/icon-zhuanjia.gif" class="blog-icons" alt="专家" title="专家">

        </h1>

        <dl>

        <dt>

            <a href="http://blog.csdn.net/matrix_space" target="_blank">

                <img src="http://avatar.csdn.net/F/9/7/3_shinian1987.jpg" alt="shinian1987" />

            </a>

        </dt>

        <dd>这个用例说明canny 边缘检测的用法

import numpy as np

import matplotlib.pyplot as plt

from scipy import ndimage as ndi

from skimage import feature

# Generate noisy image of a square

im = np.zeros((128, 128))

im[3...</dd>

        </dl>

        <p>

            <a class="tag" href="/tag/details.html?tag=python" target="_blank">python</a>

        </p>

        <div class="about_info">

                <span class="fr digg" id="digg_49786427" blog="1164951" digg="0" bury="0"></span>

            <span class="fl">

                <a href="http://blog.csdn.net/matrix_space" target="_blank" class="user_name">shinian1987</a>

                <span class="time">3小时前</span>

                <a href="http://blog.csdn.net/matrix_space/article/details/49786427" target="_blank" class="view">阅读(104)</a>

                <a href="http://blog.csdn.net/matrix_space/article/details/49786427#comments" target="_blank" class="comment">评论(0)</a>

            </span>

        </div>

    </div>

<div class="blog_list">

        <h1>

            <a name="50524490" href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank">STL_算法 for_each 和 transform 比较</a>

        </h1>

        <dl>

        <dt>

            <a href="http://blog.csdn.net/u010579068" target="_blank">

                <img src="http://avatar.csdn.net/9/9/B/3_u010579068.jpg" alt="u010579068" />

            </a>

        </dt>

        <dd>C++ Primer 学习中。。。

 

简单记录下我的学习过程 (代码为主)

所有容器适用

/**----------------------------------------------------------------------------------

for_each                    速度快              ...</dd>

        </dl>

        <p>

            <a class="tag" href="/tag/details.html?tag=STL_算法" target="_blank">STL_算法</a>

            <a class="tag" href="/tag/details.html?tag=for_each" target="_blank">for_each</a>

            <a class="tag" href="/tag/details.html?tag=transform" target="_blank">transform</a>

            <a class="tag" href="/tag/details.html?tag=STL" target="_blank">STL</a>

        </p>

        <div class="about_info">

                <span class="fr digg" id="digg_50524490" blog="1499803" digg="0" bury="0"></span>

            <span class="fl">

                <a href="http://blog.csdn.net/u010579068" target="_blank" class="user_name">u010579068</a>

                <span class="time">3小时前</span>

                <a href="http://blog.csdn.net/u010579068/article/details/50524490" target="_blank" class="view">阅读(149)</a>

                <a href="http://blog.csdn.net/u010579068/article/details/50524490#comments" target="_blank" class="comment">评论(0)</a>

            </span>

        </div>

    </div>

Beautiful Soup 4.2.0 文档可以去官网直接查看

# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup

import urllib.request

import os

import sys

import time

import threading

class CnblogUtils(object):

    def __init__(self):

        self.headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36'}

        self.contentAll=set()

    def getPage(self,url=None):

        request=urllib.request.Request(url,headers=self.headers)

        response=urllib.request.urlopen(request)

        soup=BeautifulSoup(response.read(),"lxml")

        return soup

    def parsePage(self,url=None,page_num=None):

        soup=self.getPage(url)

        itemBlog=soup.find_all('div','blog_list')

        cnArticle=CnblogUtils

        for i,itemSingle in enumerate(itemBlog):

            cnArticle.num=i

            cnArticle.author=itemSingle.find('a','user_name').string

            cnArticle.postTime=itemSingle.find('span','time').string

            cnArticle.articleComment=itemSingle.find('a','comment').string

            cnArticle.articleView=itemSingle.find('a','view').string

            if itemSingle.find('a').has_attr('class'):

                cnArticle.category=itemSingle.find('a','category').string

                cnArticle.title=itemSingle.find('a',attrs={'name':True}).string

            else:

                cnArticle.category="None"

                cnArticle.title=itemSingle.find('a').string

            self.contentAll.add(str(cnArticle.author))

            self.writeFile(page_num,cnArticle.num,cnArticle.author,cnArticle.postTime,cnArticle.articleComment,cnArticle.articleView,cnArticle.category,cnArticle.title)

    def writeFile(self,page_num,num,author,postTime,articleComment,articleView,category,title):

        f=open("a.txt",'a+')

        f.write(str('page_num is {}'.format(page_num))+'\t'+str(num)+'\t'+str(author)+'\t'+str(postTime)+'\t'+str(articleComment)+'\t'+str(articleView)+'\t'+str(category)+'\t'+str(title)+'\n')

        f.close()

def main(thread_num):

    start=time.clock()

    cnblog=CnblogUtils()

    '''

    thread_list = list();

    for i in range(0, thread_num):

        thread_list.append(threading.Thread(target = cnblog.parsePage, args = ('http://blog.csdn.net/?&page={}'.format(i),i+1,)))

    for thread in thread_list:

        thread.start()

    for thread in thread_list:

        thread.join()

    print(cnblog.contentAll)

    '''

    for i in range(0,18):

        cnblog.parsePage('http://blog.csdn.net/?&page={}'.format(i),i+1)

    end=time.clock()

    print('time = {}'.format(end-start))

if __name__ == '__main__':

    main(18)

程序运行结果:

page_num is 1    0    foruok    18分钟前    评论(0)    阅读(0)    [编程语言]    Windows下从源码编译SKIA

page_num is 1    1    u013467442    31分钟前    评论(0)    阅读(3)    [编程语言]    Cubieboard学习资源

page_num is 1    2    tuke_tuke    32分钟前    评论(0)    阅读(15)    [移动开发]    UI组件之AdapterView及其子类关系，Adapter接口及其实现类关系

page_num is 1    3    xiaominghimi    53分钟前    评论(0)    阅读(51)    [移动开发]    【COCOS2D-X 备注篇】ASSETMANAGEREX使用异常解决备注->CHECK_JNI/CC‘JAVA.LANG.NOCLASSDEFFOUNDERROR’

page_num is 1    4    shinian1987    1小时前    评论(0)    阅读(64)    [综合]    Python: scikit-image canny 边缘检测

page_num is 1    5    u010579068    1小时前    评论(0)    阅读(90)    None    STL_算法 for_each 和 transform 比较

page_num is 1    6    u013467442    1小时前    评论(0)    阅读(94)    [编程语言]    OpenGLES2.0着色器语言glsl

page_num is 1    7    u013467442    1小时前    评论(0)    阅读(89)    [编程语言]    OpenGl 坐标转换

page_num is 1    8    AaronGZK    1小时前    评论(0)    阅读(95)    [编程语言]    bzoj4390【Usaco2015 Dec】Max Flow

page_num is 1    9    AaronGZK    1小时前    评论(0)    阅读(95)    [编程语言]    bzoj1036【ZJOI2008】树的统计Count

page_num is 1    10    danhuang2012    1小时前    评论(0)    阅读(90)    [编程语言]    Node.js如何处理健壮性

page_num is 1    11    EbowTang    1小时前    评论(0)    阅读(102)    [编程语言]    <LeetCode OJ> 121. Best Time to Buy and Sell Stock

page_num is 1    12    cartzhang    2小时前    评论(0)    阅读(98)    [架构设计]    给虚幻4添加内存跟踪功能

page_num is 1    13    u013595419    2小时前    评论(0)    阅读(93)    [综合]    第2章第1节练习题3 共享栈的基本操作

page_num is 1    14    ghostbear    2小时前    评论(0)    阅读(115)    [系统运维]    Dynamics CRM 2016 Series: Overview

page_num is 1    15    u014723529    2小时前    评论(0)    阅读(116)    [编程语言]    将由BeanUtils的getProperty方法返回的Date对象的字符串表示还原为对象

page_num is 1    16    Evankaka    2小时前    评论(1)    阅读(142)    [架构设计]    Jenkins详细安装与构建部署使用教程

page_num is 1    17    Evankaka    2小时前    评论(0)    阅读(141)    [编程语言]    Ubuntu安装配置JDK、Tomcat、SVN服务器

网速不好时多线程可能报错

获取了数据了就可以进行数据分析，或者深度搜索，根据author去获取author对应的blog等

Python 爬取CSDN博客频道的更多相关文章

Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
利用Python抓取CSDN博客
这两天发现了一篇好文章,陈皓写的makefile的教程,具体地址在这里<跟我一起写makefile> 这篇文章一共分成了14个部分,我看东西又习惯在kindle上面看,感觉一篇一篇地复制成 ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
公告：CSDN博客频道新功能正式上线！
各位尊敬的CSDN用户: 你们好! 为了更好的服务于用户,CSDN博客最新推出如下功能: 1.取消开通博客3天才能发布博文的限制,博客开通之后即可发表博文 2.博客文章增加自定义摘要功能在发表 ...
CSDN博客频道维护公告
各位亲爱的用户: 为了给大家提供更稳定的使用环境,2014年4月23日23点至04月24日1点(本周四凌晨)博客频道server将进行维护,维护期间不能正常訪问.给大家带来不便,敬请广大 ...
python抓取51CTO博客的推荐博客的全部博文，对标题分词存入mongodb中
原文地址: python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
Hello Python!用 Python 写一个抓取 CSDN 博客文章的简单爬虫
网络上一提到 Python,总会有一些不知道是黑还是粉的人大喊着:Python 是世界上最好的语言.最近利用业余时间体验了下 Python 语言,并写了个爬虫爬取我 csdn 上关注的几个大神的博客, ...

随机推荐

Java反射-简单应用
为了程序更好的维护和扩展,在面向对象思维的世界里,首先是面向接口编程,然后我们应该把做什么和怎么做进行分离. 以下我将用一个开晚会的样例来演示一下,终于达到的效果是:工厂+反射+配置文件实现程序的灵活 ...
hive join 优化
common join : 即reducer join,瓶颈在shuffle阶段,会产生较大的网络io: map join:即把小表放前面,扫描后放入每个节点的内存,在map阶段进行匹配: 开启map ...
textContent和innerHtml
textContent,innerText, 查询或者设置元素的文本内容. textContent如,html: <p>test gogo</p> javascript中: v ...
BZOJ 2301: [HAOI2011]Problem b( 数论 )
和POI某道题是一样的... http://www.cnblogs.com/JSZX11556/p/4686674.html 只需要二维差分一下就行了. 时间复杂度O(MAXN + N^1.5) - ...
iReport 4.1 报表制作，子报表，实例解析
开发使用步骤(iReport 4.1.1) (个人总结,如有问题请留言,另外知道table控件用法的给我留言或者发邮件谢谢.Email:jiazx0107@163.com) 目录 1. 开发 ...
JSON.parse这个是啥？
var jsontext = '{"firstname":"Jesper","surname":"Aaberg",&qu ...
CSS3里面的高级属性
-webkit-tap-highlight-color 这个属性只用于iOS (iPhone和iPad).当你点击一个链接或者通过Javascript定义的可点击元素的时候,它就会出现一个半透明的灰色 ...
原生js写的一个当前年份日期星期和时间的显示
话不多说,所有代码如下: <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type& ...
SecureCRT, SecureFX连接Linux时中文乱码解决办法
SecureCRT可以在GUI界面设置,但SecureFX没有设置界面.不过可以直接在配置文件中修改. 1. 找到配置文件夹(选项--全局选项,常规下的配置文件夹),默认是:C:\Documents ...
贴片陶瓷电容的NPO、C0G、X7R、X5R、Y5V、Z5U辨析
NPO与X7R.X5R.Y5V.Z5U神马的有啥区别?主要是介质材料不同.不同介质种类由于它的主要极化类型不一样,其对电场变化的响应速度和极化率亦不一样. 在相同的体积下的容量就不同,随之带来的电容器 ...

Python 爬取CSDN博客频道

Beautiful Soup 4.2.0 文档 可以去官网直接查看

Python 爬取CSDN博客频道的更多相关文章

随机推荐

热门专题

Beautiful Soup 4.2.0 文档可以去官网直接查看