Python实现抓取CSDN热门文章列表

1、使用工具:

Python3.5

BeautifulSoup

2、抓取网站：

csdn热门文章列表 http://blog.csdn.net/hot.html

3、分析网站代码：

4、实现代码：

__author__ = 'Administrator'

import urllib.request

import re

from bs4 import BeautifulSoup

########################################################

#

# 抓取csdn首页文章http://blog.csdn.net/?&page=1

#

#

#

########################################################

class CsdnUtils(object):

    def __init__(self):

        user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

        self.headers = {'Cache-Control': 'max-age=0',

                        'Connection': 'keep-alive',

                        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

                        'User-Agent': user_agent,

        }

    def getPage(self, url=None):

        request = urllib.request.Request(url, headers=self.headers)

        response = urllib.request.urlopen(request)

        soup = BeautifulSoup(response.read(), "html.parser")

        #print(soup.prettify())

        return soup

    def parsePage(self, url=None, page=None):

        soup = self.getPage(url)

        itemBlog = soup.find_all('div', 'blog_list')

        cnArticle = CsdnUtils

        print("========================第", page, "页======================================")

        for i, itemSingle in enumerate(itemBlog):

            cnArticle.num = i

            cnArticle.author = itemSingle.find('a', 'user_name').string

            cnArticle.postTime = itemSingle.find('span', 'time').string

            cnArticle.articleView = itemSingle.find('a', 'view').string

            if itemSingle.find('h1').find('a').has_attr('class'):

                cnArticle.type = itemSingle.find('h1').find('a', 'category').string

            else:

                cnArticle.type = "None"

            cnArticle.title = itemSingle.find('h1').find('a', attrs={'name': True}).string

            cnArticle.url = itemSingle.find('h1').find('a', attrs={'name': True}).get("href")

            print("数据：", cnArticle.num + 1, '\t', cnArticle.author, '\t', cnArticle.postTime, '\t',

                  cnArticle.articleView, '\t', cnArticle.type, '\t', cnArticle.title, '\t', cnArticle.url)

#######     执行入口    ########

if __name__ == "__main__":

    #要抓取的网页地址'http://blog.csdn.net/?&page={}'.format(i+1),i+1)

    url = "http://blog.csdn.net/hot.html"

    cnblog = CsdnUtils()

    for i in range(0, 5):

        cnblog.parsePage(url, i + 1)

5、执行结果：

Python实现抓取CSDN热门文章列表的更多相关文章

Python实现抓取CSDN博客首页文章列表
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn首页文章列表 http://blog.csdn.net/ 3.分析网站文章列表代码: 4.实现抓取代码: __a ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
[js高手之路]Node.js实现简易的爬虫-抓取博客文章列表信息
抓取目标:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要实现的功能: 抓取文章标题,超链接,文章摘要,发布时间需要用到的库: node.js自带的http库 ...
使用python抓取CSDN关注人的全部公布的文章
# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python Web抓取（一）[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...

随机推荐

git常用命令（转）
git常用命令: git init //初始化本地git环境 git clone XXX//克隆一份代码到本地仓库 git pull //把远程库的代码更新到工作台 git pull --rebase ...
JavaAppArguments示例
本实验要求编写一个程序,此程序从命令行接收多个数字,求和之后输出结果.一大难点是命令行参数都是字符串,必须先将其转化为数字,才能相加. 中心想法就是将求和数字转换为整型并依次相加. 程序流程图: pu ...
myql 服务启动不了怎么办
今天,不小心手动将mysql 服务停掉后,怎么也启动不了,后面查了半天 ,终于知道要先将任务管理器里的mysql.exe 先Kill掉,然后可以启动了,记录一下
UWP&WP8.1 基础控件——Image
Image是UWP和WP8.1中系统自带的图片展示器. 具有较强的性能,使用也是非常的简单. 使用方式分为在XAML中,在C#代码中. XAML中: 在XAML中使用方式非常简单. 常用XAML So ...
python之编辑器pycharm
在进行python开发的时候,习惯使用pycharm这个编辑器进行开发工作,总结一些常用到的功能点常用功能: 1. 打开当前文件所在的目录在文件右击 -> Show in Exploer ...
ubuntu - 14.04，该如何分区安装（初学者或不用它作为生成环境使用）？
ubuntu14.04,实际上现在它的安装很简单了,全图形界面,可以选择母语,但是实际使用起来如果分区不当,会让我们付出惨痛的代价,那么我们应该怎么分区安装呢? 如果我们并不是把它作为专业的服务器,或 ...
GuavaCache简介（一）
原文地址 http://blog.csdn.net/guozebo/article/details/51590517 前言在多线程高并发场景中往往是离不开cache的,需要根据不同的应用场景来需要选 ...
FlowLayout（流式布局）用法
https://blog.csdn.net/liujun13579/article/details/7771191
本地访问Vmware虚机Web网站
情况:公司是域环境,Vmware网络设置的是NAT连接模式,里外装的都是Windows,虚机网络IP地址是自动获取的. 查看: 1.虚机Ping本地的IP地址可以Ping通: 2.本地Ping虚机的I ...
N - 嘤嘤嘤（并查集+枚举）
Our lovely KK has a difficult Social problem. A big earthquake happened in his area. N(2≤N≤2000)N(2≤ ...

Python实现抓取CSDN热门文章列表

Python实现抓取CSDN热门文章列表的更多相关文章

随机推荐

热门专题