Python实现抓取CSDN博客首页文章列表

1、使用工具:

Python3.5

BeautifulSoup

2、抓取网站：

csdn首页文章列表 http://blog.csdn.net/

3、分析网站文章列表代码：

4、实现抓取代码：

__author__ = 'Administrator'

import urllib.request

import re

from bs4 import BeautifulSoup

########################################################

#

#              抓取csdn首页文章http://blog.csdn.net/?&page=1

#

#             参数baseUrl是要访问的网站地址

#

########################################################

class CsdnUtils(object):

    def __init__(self):

        user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

        self.headers ={'Cache-Control':'max-age=0',

                        'Connection':'keep-alive',

                        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

                        'User-Agent':user_agent,

                        }

        self.contentAll=set()

    def getPage(self,url=None):

        request=urllib.request.Request(url,headers=self.headers)

        response=urllib.request.urlopen(request)

        soup=BeautifulSoup(response.read(),"html.parser")

        #print(soup.prettify())

        return soup

    def parsePage(self,url=None,page_num=None):

        soup=self.getPage(url)

        itemBlog=soup.find_all('dl','blog_list clearfix')

        cnArticle=CsdnUtils

        print("========================第",page_num,"页======================================")

        for i,itemSingle in enumerate(itemBlog):

            cnArticle.num=i

            cnArticle.author=itemSingle.find('a','nickname').string

            cnArticle.postTime=itemSingle.find('label').string

            cnArticle.articleView=itemSingle.find('em').string

            cnArticle.title=itemSingle.find('h3',"tracking-ad").string

            cnArticle.url=itemSingle.find("h3").find("a").get("href")

            print("数据：",cnArticle.num+1,'\t',cnArticle.author,'\t',cnArticle.postTime,'\t',cnArticle.articleView,'\t',cnArticle.title,'\t',cnArticle.url)

#######     执行    ########

if __name__ =="__main__":

    #要抓取的网页地址'http://blog.csdn.net/?&page={}'.format(i+1),i+1)

    url = "http://blog.csdn.net"

    cnblog=CsdnUtils()

    for i in range(0,2):

        cnblog.parsePage(url,i+1)

5、执行结果：

Python实现抓取CSDN博客首页文章列表的更多相关文章

Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码, ...
第 3 篇：实现博客首页文章列表 API
作者:HelloGitHub-追梦人物文中所涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库此前在讨论基于模板引擎的开发方式和 django-rest-framework 开发 ...
Hello Python!用 Python 写一个抓取 CSDN 博客文章的简单爬虫
网络上一提到 Python,总会有一些不知道是黑还是粉的人大喊着:Python 是世界上最好的语言.最近利用业余时间体验了下 Python 语言,并写了个爬虫爬取我 csdn 上关注的几个大神的博客, ...
利用Python抓取CSDN博客
这两天发现了一篇好文章,陈皓写的makefile的教程,具体地址在这里<跟我一起写makefile> 这篇文章一共分成了14个部分,我看东西又习惯在kindle上面看,感觉一篇一篇地复制成 ...
python抓取51CTO博客的推荐博客的全部博文，对标题分词存入mongodb中
原文地址: python抓取51CTO博客的推荐博客的全部博文,对标题分词存入mongodb中
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
巨高兴，偶的文章 “如何在服务器上配置ODBC来访问本机DB2for Windows服务器”被推荐至CSDN博客首页
非常高兴,偶的文章 "如何在服务器上配置ODBC来访问本机DB2for Windows服务器"被推荐至CSDN博客首页,截图留念. 文章被推荐在C ...
python环境变量配置 - CSDN博客
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...

随机推荐

windows查看和杀死占用端口的进程
1.首先使用 netstat -ano查看占用端口的进程号 2.然后使用 taskkill /PID (进程号)杀死进程
win7系统电脑显示windows副本不是正版怎么办
win7系统电脑显示windows副本,可以:在开始输入框中输入cmd——以管理员权限运行——在命令行中输入SLMGR -REARM,——重启.
不值一提，却又不得不提的“CSS文本超出部分省略号代替”
偶然看到一篇类似css技巧与经验总结的文章,其中有一部分非常熟悉,那就是“css控制元素内文本超出部分使用省略号代替”,一般实际工作中, 很多产品经理会对页面UI有这样的要求.还记得,第一次做这个功能 ...
1.Java 程序工作原理
JVM:JAVA虚拟机,java程序运行在jvm上,jvm是java程序的运行环境. java程序的平台无关性:java编写的程序(.java)经过编译器变异成字节码文件(.class).这个字节码文 ...
SVN Unable to connect to a repository at URL 不知道这样的主机：问题解决
工具是eclipse Maven ,搭建好项目的框架后上传SVN出现如下错误: 不知道这样的主机. svn: Unable to connect to a repository at URL 'ht ...
SpringMVC的简单介绍及使用
一.简介 1.SpringMVC和Spring的关系: >软件开发的三层架构: web层[表示层.表现层]---->Service层---->Dao[DataBase Access ...
WebStorm ES6 语法支持设置和ES6语法的JS文件编译为ES5语法文件
ECMAScript 6是JavaScript语言的下一代标准,已经在2015年6月正式发布了.Mozilla公司将在这个标准的基础上,推出JavaScript 2.0.ES6的目标,是使得JavaS ...
ubuntu下安装谷歌浏览器
deb 是 Debian Linux 的安装格式,在 ubuntu 中同样可以使用.要安装 deb 安装包,需要使用 dpkg这个终端命令,命令格式如下: $ sudo dpkg -i <pac ...
Joi图标
刚开始浏览API的时候,旁边这个图片还真没明白是啥意思.现在才明白过来:),检测工具嘛,哈哈.
网络寻路（思维+vector的应用）-----------蓝桥备战系列
标题:网络寻路 X 国的一个网络使用若干条线路连接若干个节点.节点间的通信是双向的.某重要数据包,为了安全起见,必须恰好被转发两次到达目的地.该包可能在任意一个节点产生,我们需要知道该网络中一共有多少 ...

Python实现抓取CSDN博客首页文章列表

Python实现抓取CSDN博客首页文章列表的更多相关文章

随机推荐

热门专题