Python的爬虫框架主要可以分为以下五个部分:

爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;

URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)

网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页

网页解析器:负责网页信息的解析,这里是解析方式视具体需求来确定

信息采集器:负责将解析后的信息进行存储、显示等处理


代码示例是爬取CSDN博主下的所有文章为例,文章仅作为笔记使用,理论知识rarely

一、网页解析器简介

      解析器的工作就是按需求对网页进行解析,并将解析信息进行处理。

      解析器可以选择的工具有很多种,在这个博客里使用的时BeautifulSoup + 正则表达式进行信息的提取。BeautifulSoup使用起来比较方便(其他的目前还不会,没接触) ,因为不熟,所以不做技术说明,近将经过尝试的结果呈现。

二、网页解析器示例:(爬取CSDN博主下的所有文章

# author : sunzd
# date : 2019/3/22
# position: chengdu from bs4 import BeautifulSoup
from urllib import error
import re class HtmlParser(object):
def __init__(self):
# self.articles = {}
# self.articles_url = set()
# self.articles_title = set()
# self.articles_date = set()
self.url_page = None '''
print(link.parent.span) :
<span class="article-type type-1">原</span>
print(link.parent.span.text) :
节点span的内容:原
print(link.parent.get('href')) :
https://blog.csdn.net/s2603898260/article/details/85067018
https://blog.csdn.net/s2603898260/article/details/85020006
'''
'''
get_article_urls最后的结果只获取了文章的URL,其中大部分代码为调试记录,没删除
'''
def get_article_urls(self, page_url, soup):
# 1. 根据文章类型来确定文章信息
# links = soup.find_all('span', class_=re.compile(r"article-type type-[0-9]"))
# article_titles = soup.find_all('div', attrs={'class':"article-item-box csdn-tracking-statistics",'data-articleid':"\d+"})
# article_info = soup.find_all('div', class_="info-box d-flex align-content-center") '''
<div>
--< h4 >
--< p >
--< div >
links = soup.find_all('div', attrs={'class':"article-item-box csdn-tracking-statistics"})
# 获取文章标题信息
print(links[0].h4) # ok
# 获取文章简介信息
print(links[0].div.p)
# 获取文章发表时间、阅读量信息
for child in links[0].div.children:
if len(child) != 3: # 去除空的子标签
continue
print(child.span.text) # print(child.span)
if len(links) > 0:
for link in links:
print(link.next_sibling.next_sibling.next_sibling.next_sibling)
print(link)
print("-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-")
'''
articles_url = set()
links = soup.find_all('div', attrs={'class':"article-item-box csdn-tracking-statistics"})
if len(links) > 0:
for link in links:
try:
if link.attrs['style']: # 去除第一个不属于该博主的链接
continue
except KeyError as e:
articles_url.add(link.h4.a.get('href')) # ******文章链接******
# print(link.h4.a.attrs['href']) #get attrs在此等价
# tmp = link.h4.a.text
# tmp = tmp.replace("原", "")
# tmp = tmp.replace("转", "")
# tmp = tmp.replace("\n", "")
# self.articles_title.add(tmp.replace(" ", "")) # 文章标题
# for child in link.div.children:
# if len(child) != 3: # 去除空的子标签
# continue
# # print(child.span.text) # print(child.span)
# self.article_date.add() # self.articles = dict(zip(self.articles_url, self.articles_title)) 将两个列表合并为字典
# tmp = self.articles_url.pop()
# print(self.articles_url)
# print("-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-") return articles_url '''
第一页:
<li data-page="1" class="ui-pager focus">1</li>
<li class="js-page-next js-page-action ui-pager">下一页</li>
<li class="js-page-last js-page-action ui-pager"></li>
第二页:
<li data-page="2" class="ui-pager focus">2</li>
<li class="js-page-next js-page-action ui-pager ui-pager-disabled">下一页</li>
<li class="js-page-last js-page-action ui-pager ui-pager-disabled"></li>
'''
def get_page_url(self, page_url, soup):
if page_url is None or soup is None:
return None # https://blog.csdn.net/s2603898260/article/list/1?
# 获取当前页
cur_page = soup.find('li', attrs={'class':"ui-pager focus"}) #attrs={'class':"ui-pager focus"}
print(cur_page)
# 判断是否有下一页
# links = soup.find('li', class_=re.compile(r"js-page-last.+ui-pager-disabled"))
links = soup.find('li', class_="js-page-next js-page-action ui-pager ui-pager-disabled") if links is None or len(links) == 0:
self.url_page = None
return self.url_page
# 寻找下一页
# TODO: return self.url_page def parser(self, page_url, html):
if html is None or page_url is None:
print("html or page_url is None")
return None
soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')
articles = self.get_article_urls(page_url, soup)
#new_page = self.get_page_url(page_url, soup) return articles

三、上述代码用到的知识点:

1. BeautifulSoup Note:

soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')      # 将html转换为标记树的形式soup

使用find_all()寻找符合属性的所有节点信息:

article_titles = soup.find_all('div', attrs={'class':"article-item-box csdn-tracking-statistics",'data-articleid':"\d+"})

可以使用find()寻找符合属性的第一个节点信息,一般这个节点为大节点.(以下为假设)

 如博客的正文节点<div>,可以先通过find找到<div>, 然后在一次遍历其他的节点、寻找所有符合要求的图片等 
# find('div',attrs={}).find_all('p',attrs={})
# <div>
 # ----< h4 >
 # ----< p >
 # ----< div >  
# ---------< p >
# ---------< p >
# ---------< p > # 获取文章标题信息
print(links[0].h4) # ok
# 获取文章简介信息
print(links[0].div.p)
# 获取文章发表时间、阅读量信息
for child in links[0].div.children:
if len(child) != 3: # 去除空的子标签
continue
# print(child.span.text) #打印节点文本信息
# print(child.span) #打印整个节点信息

打印节点属性信息:

# print(link.h4.a.get('href'))    # 文章链接
# print(link.h4.a.attrs['href']) # 文章链接 两个等价

python3 爬虫五大模块之四:网页解析器的更多相关文章

  1. python3 爬虫五大模块之五:信息采集器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  2. python3 爬虫五大模块之三:网页下载器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  3. python3 爬虫五大模块之二:URL管理器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  4. python3 爬虫五大模块之一:爬虫调度器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  5. 第6章 网页解析器和BeautifulSoup第三方插件

    第一节 网页解析器简介作用:从网页中提取有价值数据的工具python有哪几种网页解析器?其实就是解析HTML页面正则表达式:模糊匹配结构化解析-DOM树:html.parserBeautiful So ...

  6. python 之网页解析器

    一.什么是网页解析器 1.网页解析器名词解释 首先让我们来了解下,什么是网页解析器,简单的说就是用来解析html网页的工具,准确的说:它是一个HTML网页信息提取工具,就是从html网页中解析提取出“ ...

  7. Python 网页解析器

    Python 有几种网页解析器? 1. 正则表达式 2.html.parser (Python自动) 3.BeautifulSoup(第三方)(功能比较强大) 是一个HTML/XML的解析器 4.lx ...

  8. 爬虫笔记(四)------关于BeautifulSoup4解析器与编码

    前言:本机环境配置:ubuntu 14.10,python 2.7,BeautifulSoup4 一.解析器概述 如同前几章笔记,当我们输入: soup=BeautifulSoup(response. ...

  9. Python模块:配置文件解析器configparser

    版权声明:本文为博主皮皮http://blog.csdn.net/pipisorry原创文章,未经博主同意不得转载. https://blog.csdn.net/pipisorry/article/d ...

随机推荐

  1. Hadoop 3.1.1 - 概述 - 集群安装

    Hadoop 集群安装 目标 本文描述了如何从少数节点到包含上千节点的大规模集群上安装和配置 Hadoop 集群.如果只是为了尝试,你可以先从单台机器上安装开始(参阅单节点安装). 本文并不包含诸如安 ...

  2. 开源与Saas,如何选择软件?

    随着云计算的发展和普及,在云上使用软件已经成为了主流,为了帮助广大用户理解,我在这里对云上软件的三种主要形态以及如何做出选择做一个简单的分析. 开源免费软件 绝大部分开源软件都是免费的,免费的出发点有 ...

  3. Discuz ML RCE漏洞

    1.漏洞描述 Discuz国际版漏洞存在于cookie的language可控并且没有严格过滤,导致可以远程代码执行. 2.产生原因:Discuz!ML 系统对cookie中的l接收的language参 ...

  4. 刷了无数大厂Android研发岗面试题,其实考的无非是这 3 点能力

    前言 发现一个有趣的现象,似乎程序员们对面试题总是抱有热情,多看几道面试题,自己的面试能力就可以提高一点. 作为一个研发工程师,看过很多公司的面试题,也参与过很多公司的面试,发现大厂的面试题更加具有代 ...

  5. HDFS中NameNode工作机制

    引言 NameNode: 存储元数据 管理整个HDFS集群 DataNode: 存储数据的block SecondaryNameNode: 辅助HDFS完成一些事情 NameNode和Secondar ...

  6. MySQL Utilities工具教程

    一.MySQL Utilities介绍 MySQL Utilities 提供一组命令行工具用于维护和管理 MySQL 服务器,包括: 管理工具 (克隆.复制.比较.差异.导出.导入)复制工具 (安装. ...

  7. JVM学习笔记-第七章-虚拟机类加载机制

    JVM学习笔记-第七章-虚拟机类加载机制 7.1 概述 Java虚拟机描述类的数据从Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这个过程被 ...

  8. SQL语法 - SELECT 语句

    SELECT 语句用于从数据库中选取数据. SQL SELECT 语句 SELECT 语句用于从数据库中选取数据. 结果被存储在一个结果表中,称为结果集. SQL SELECT 语法 SELECT c ...

  9. 陀螺仪、加速度计与MPU6050的关系

    文章目录 一.引言 二.陀螺仪 三.加速度计 四.MPU6050 一.引言 要开始做俩轮平衡小车了,所以需要补充一些关于平衡小车的知识,首先就是如何让小车保持平衡,这是要依据小车当前的三轴角度和平衡位 ...

  10. 题解 P3942 将军令

    题解 首先看到这题 \(k=1\) 时,就是一道 小胖守皇宫,那么由 \(k=1\) 联想到 \(k=2...20\) 发现可以树形 \(DP\) 但转移方程太难想,不太适合考场做. 考虑贪心: 对所 ...