Python的爬虫框架主要可以分为以下五个部分:

爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;

URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)

网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页

网页解析器:负责网页信息的解析,这里是解析方式视具体需求来确定

信息采集器:负责将解析后的信息进行存储、显示等处理


代码示例是爬取CSDN博主下的所有文章为例,文章仅作为笔记使用,理论知识rarely

一、信息采集器简介

       信息采集器的功能基本是将解析后的信息进行显示、存储到本地磁盘上。   

       信息采集器也许名字并不正确,自己突发奇想来的。我对解析器和采集器的区分不是很明确,在下面的示例中可能在采集器中依然进行了网页解析,主要原因在于对python的基本语法不熟,有些数据统一处理还不会,只能边解析边存储了。

二、信息采集器示例:(爬取CSDN博主下的所有文章

# author : s260389826
# date : 2019/3/22
# position: chengdu from fake_useragent import UserAgent
import urllib.request as request
from bs4 import BeautifulSoup
import urllib.parse
import os
import tomd class HtmlOutputer(object): # Replace deny char, used to name a directory.
def replace_deny_char(self, title):
deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', ':']
for char in deny_char:
title = title.replace(char, ' ')
print('Article\'title is: %s' % title)
return title def img_download(self, img_url, directory, n):
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', str(UserAgent().random))]
urllib.request.install_opener(opener)
try:
img_name = '%s\%s.jpg' % (directory, n)
if os.path.exists(img_name) is True:
return
request.urlretrieve(img_url, img_name)
print('图片%d下载操作完成' % n)
except Exception as e:
print(e) def collect(self, author, seq, html): soup = BeautifulSoup(html,'html.parser', from_encoding='utf-8') try:
# <h1 class="title-article">Windos下通过Wpcap抓包实现两个网卡桥接</h1>
article_title = soup.find('h1',attrs={'class': "title-article"}).text # 获取文章标题 print(soup.h1.text) # <span class="time">2018年12月18日 16:43:02</span>
# article_time = soup.find('span',attrs={'class': "time"}).text # 获取文章时间
# assert isinstance(article_time, object) # <span class="read-count">阅读数:104</span>
# article_readcnt= soup.find('span', attrs={'class': "read-count"}).text # 获取文章阅读量
# print(article_title, article_time, article_readcnt) except AttributeError as e:
#print(e.reason)
return article_title_convert = self.replace_deny_char(article_title)
directory = "F:\python\CSDN\\blog\%s\%d.%s" % (author, seq, article_title_convert)
if os.path.exists(directory) is False:
os.makedirs(directory) # download blog'imgs:
# <div id="article_content">
imgs = soup.find('div', attrs={'id' : "article_content"}).findAll('img') if len(imgs) > 0:
count = 0
for img in imgs:
count = count + 1
# print(img.attrs['src'])
self.img_download(img.attrs['src'], directory, count) # down blog's ariticles: 如果要保存文件,需要将注释打开
'''
article = soup.find('div', attrs={'id' : "article_content"})
md = tomd.convert(article.prettify())
try:
with open('%s\%s.md' % (directory, article_title_convert), 'w', encoding='utf-8') as f:
f.write(md)
except FileNotFoundError as e:
print("No such file or directory: %s\%s" % (directory, article_title_convert))
'''

三、上述代码用到的知识点:

1. 对系统目录及文件的处理:

directory = "F:\python\CSDN\\blog\s2603898260"
if os.path.exists(directory) is False: # 如果该目录不存在
os.makedirs(directory) # 则进行创建目录 file_name = "F:\python\CSDN\\blog\s2603898260\log.txt"
if os.path.exists(file_name) is True: # 如果该文件存在
return # 不需要重新下载,直接返回

2. 特殊字符不能做文件名处理:

    # Replace deny char, used to name a directory.
def replace_deny_char(self, title):
deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', ':']
for char in deny_char:
title = title.replace(char, ' ')
print('Article\'title is: %s' % title)
return title

3. 根据URL下载图片:

request.urlretrieve(img_url, img_name)  # 根据img_url 下载图片到本地img_name(完整目录+图片名.格式)

   def img_download(self, img_url, directory, n):
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', str(UserAgent().random))]
urllib.request.install_opener(opener)
try:
img_name = '%s\%s.jpg' % (directory, n)
if os.path.exists(img_name) is True:
return
request.urlretrieve(img_url, img_name)
print('图片%d下载操作完成' % n)
except Exception as e:
print(e)

4. tomd插件:

作用就是将html格式转换为td的格式。没理解错就是它:

不是很懂,我的下载转换效果也不是很好,

直接附链接:https://github.com/gaojiuli/tom

以及阅读td文件的链接:http://markdownpad.com/download.html

python3 爬虫五大模块之五:信息采集器的更多相关文章

  1. python3 爬虫五大模块之三:网页下载器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  2. python3 爬虫五大模块之二:URL管理器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  3. python3 爬虫五大模块之一:爬虫调度器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  4. python3 爬虫五大模块之四:网页解析器

    Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...

  5. python3爬虫lxml模块的安装

    1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...

  6. [实战演练]python3使用requests模块爬取页面内容

    本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

  7. Python3爬虫系列:理论+实验+爬取妹子图实战

    Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...

  8. python基础系列教程——Python3.x标准模块库目录

    python基础系列教程——Python3.x标准模块库目录 文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata ...

  9. Python3:Requests模块的异常值处理

    Python3:Requests模块的异常值处理 用Python的requests模块进行爬虫时,一个简单高效的模块就是requests模块,利用get()或者post()函数,发送请求. 但是在真正 ...

随机推荐

  1. 简单的Postman,还能玩出花?

    Postman是一款我们在工作中使用频率非常高的API调试工具,估计很多童鞋在使用它时也比较粗暴,填好接口地址.参数,直接send就完事了,估计大家要说了,这么简单的东西还能玩出什么花来.今天就和大家 ...

  2. 文本生成器(AC自动机+dp)

    F. 文本生成器 内存限制:512 MiB 时间限制:1000 ms 标准输入输出 题目类型:传统 评测方式:文本比较 题目描述 原题来自:JSOI 2007 JSOI 交给队员 ZYX 一个任务,编 ...

  3. awk文本

    目录 1.awk概念 2. 基本格式 3. 工作原理 4. 常见的内建变量(可直接用) 5. 按行输出文本 实例1:输出全部内容 实例2:输出第1到第3行的内容 实例3:输出第1行和第3行的内容,输出 ...

  4. Flutter 中的动画

    Flutter 中动画的创建有很多种, 需要根据具体的需求选择不同的动画.如果只是简单的布局等的动画直接使用最简单的隐式动画就可以了,因为隐式动画是由框架控制的,所以仅仅只需要更改变需要变化属性就可以 ...

  5. Java程序员的推荐阅读书籍

    作为Java程序员来说,最痛苦的事情莫过于可以选择的范围太广,可以读的书太多,往往容易无所适从.我想就我自己读过的技术书籍中挑选出来一些,按照学习的先后顺序,推荐给大家,特别是那些想不断提高自己技术水 ...

  6. Notes about WindowPadX

    WindowPadX乃一Autohotkey脚本,具有强大的单/多显示器窗口排布能力且易于配置.有了它,那些Pro版收费的.需要安装的DisplayFusion, MultiMon TaskBar, ...

  7. [数据结构]ODT(珂朵莉树)实现及其应用,带图

    [数据结构]ODT(珂朵莉树)实现及其应用,带图 本文只发布于博客园,其他地方若出现本文均是盗版 算法引入 需要一种这样的数据结构,需要支持区间的修改,区间不同值的分别操作. 一般的,我们会想到用线段 ...

  8. 计算机毕业设计项目-基于SSM的学生会管理系统-基于ssm的社团信息管理系统

    注意:该项目只展示部分功能,如需了解,评论区咨询即可. 1.开发环境 开发语言:Java 后台框架:SSM 前端技术:HTML+CSS+JavaScript+Bootstrap+jQuery 数据库: ...

  9. antd+vue3实现动态表单的自动校验

    由于vue3用的人还不多,所以有些问题博主踩了坑只能自己爬出来了,特此做个记录.如有错误,请大家指正. 回归正题,我所做的业务是,动态添加表单项,对每一项单独做校验,效果如下: 主要代码如下: 1 & ...

  10. MySQL-14-备份恢复

    备份类型 1 热备 在业务正常时,对数据库进行备份数据,并且能够一致性恢复(只能是innodb) 对业务影响非常小 2 温备 锁表备份,只能查询不能修改(myisam) 影响到写入操作 3 冷备 关闭 ...