python3 爬虫五大模块之五:信息采集器
Python的爬虫框架主要可以分为以下五个部分:
爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;
URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)
网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页
网页解析器:负责网页信息的解析,这里是解析方式视具体需求来确定
信息采集器:负责将解析后的信息进行存储、显示等处理
代码示例是爬取CSDN博主下的所有文章为例,文章仅作为笔记使用,理论知识rarely
一、信息采集器简介
信息采集器的功能基本是将解析后的信息进行显示、存储到本地磁盘上。
信息采集器也许名字并不正确,自己突发奇想来的。我对解析器和采集器的区分不是很明确,在下面的示例中可能在采集器中依然进行了网页解析,主要原因在于对python的基本语法不熟,有些数据统一处理还不会,只能边解析边存储了。
二、信息采集器示例:(爬取CSDN博主下的所有文章)
# author : s260389826
# date : 2019/3/22
# position: chengdu
from fake_useragent import UserAgent
import urllib.request as request
from bs4 import BeautifulSoup
import urllib.parse
import os
import tomd
class HtmlOutputer(object):
# Replace deny char, used to name a directory.
def replace_deny_char(self, title):
deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', ':']
for char in deny_char:
title = title.replace(char, ' ')
print('Article\'title is: %s' % title)
return title
def img_download(self, img_url, directory, n):
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', str(UserAgent().random))]
urllib.request.install_opener(opener)
try:
img_name = '%s\%s.jpg' % (directory, n)
if os.path.exists(img_name) is True:
return
request.urlretrieve(img_url, img_name)
print('图片%d下载操作完成' % n)
except Exception as e:
print(e)
def collect(self, author, seq, html):
soup = BeautifulSoup(html,'html.parser', from_encoding='utf-8')
try:
# <h1 class="title-article">Windos下通过Wpcap抓包实现两个网卡桥接</h1>
article_title = soup.find('h1',attrs={'class': "title-article"}).text # 获取文章标题 print(soup.h1.text)
# <span class="time">2018年12月18日 16:43:02</span>
# article_time = soup.find('span',attrs={'class': "time"}).text # 获取文章时间
# assert isinstance(article_time, object)
# <span class="read-count">阅读数:104</span>
# article_readcnt= soup.find('span', attrs={'class': "read-count"}).text # 获取文章阅读量
# print(article_title, article_time, article_readcnt)
except AttributeError as e:
#print(e.reason)
return
article_title_convert = self.replace_deny_char(article_title)
directory = "F:\python\CSDN\\blog\%s\%d.%s" % (author, seq, article_title_convert)
if os.path.exists(directory) is False:
os.makedirs(directory)
# download blog'imgs:
# <div id="article_content">
imgs = soup.find('div', attrs={'id' : "article_content"}).findAll('img')
if len(imgs) > 0:
count = 0
for img in imgs:
count = count + 1
# print(img.attrs['src'])
self.img_download(img.attrs['src'], directory, count)
# down blog's ariticles: 如果要保存文件,需要将注释打开
'''
article = soup.find('div', attrs={'id' : "article_content"})
md = tomd.convert(article.prettify())
try:
with open('%s\%s.md' % (directory, article_title_convert), 'w', encoding='utf-8') as f:
f.write(md)
except FileNotFoundError as e:
print("No such file or directory: %s\%s" % (directory, article_title_convert))
'''
三、上述代码用到的知识点:
1. 对系统目录及文件的处理:
directory = "F:\python\CSDN\\blog\s2603898260"
if os.path.exists(directory) is False: # 如果该目录不存在
os.makedirs(directory) # 则进行创建目录 file_name = "F:\python\CSDN\\blog\s2603898260\log.txt"
if os.path.exists(file_name) is True: # 如果该文件存在
return # 不需要重新下载,直接返回
2. 特殊字符不能做文件名处理:
# Replace deny char, used to name a directory.
def replace_deny_char(self, title):
deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', ':']
for char in deny_char:
title = title.replace(char, ' ')
print('Article\'title is: %s' % title)
return title
3. 根据URL下载图片:
request.urlretrieve(img_url, img_name) # 根据img_url 下载图片到本地img_name(完整目录+图片名.格式)
def img_download(self, img_url, directory, n):
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', str(UserAgent().random))]
urllib.request.install_opener(opener)
try:
img_name = '%s\%s.jpg' % (directory, n)
if os.path.exists(img_name) is True:
return
request.urlretrieve(img_url, img_name)
print('图片%d下载操作完成' % n)
except Exception as e:
print(e)
4. tomd插件:
作用就是将html格式转换为td的格式。没理解错就是它:

不是很懂,我的下载转换效果也不是很好,
直接附链接:https://github.com/gaojiuli/tom
以及阅读td文件的链接:http://markdownpad.com/download.html
python3 爬虫五大模块之五:信息采集器的更多相关文章
- python3 爬虫五大模块之三:网页下载器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
- python3 爬虫五大模块之二:URL管理器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
- python3 爬虫五大模块之一:爬虫调度器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
- python3 爬虫五大模块之四:网页解析器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
- python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
- [实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
- Python3爬虫系列:理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
- python基础系列教程——Python3.x标准模块库目录
python基础系列教程——Python3.x标准模块库目录 文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata ...
- Python3:Requests模块的异常值处理
Python3:Requests模块的异常值处理 用Python的requests模块进行爬虫时,一个简单高效的模块就是requests模块,利用get()或者post()函数,发送请求. 但是在真正 ...
随机推荐
- SQL SERVER获取某张表创建的索引
1 SELECT 索引名称=a.name 2 ,表名=c.name 3 ,索引字段名=d.name 4 ,索引字段位置=d.colid 5 FROM sysindexes a 6 JOIN sysin ...
- RHCSA_DAY05
计算机硬件组成部分 输入设备:键盘.鼠标.触控屏等 主机设备:主板.中央处理器(CPU).主存储器(内存).网卡.声卡.显示卡等 输出设备:屏幕.耳机.打印机.投影仪等 外部存储设备:硬盘.软盘.光盘 ...
- Windows协议 NTLM篇
NTLM 基础 介绍 LM Hash & NTLM Hash Windows本身是不会存储明文密码的,只保存密码的hash 其中本机用户的密码hash是放在本地的SAM文件里面,域内用户的密码 ...
- 编程熊讲解LeetCode算法《二叉树》
大家好,我是编程熊. 往期我们一起学习了<线性表>相关知识. 本期我们一起学习二叉树,二叉树的问题,大多以递归为基础,根据题目的要求,在递归过程中记录关键信息,进而解决问题. 如果还未学习 ...
- Linux统计文本中某个字符串出现的次数
常用的有如下两种方式: 1.VIM 用vim打开文件,然后输入: :%s/hello//gn 如下图: 图中的例子就是统计文本中"hello"字符串出现的次数 说明: %s/pat ...
- 题解 Emotional Flutter
传送门 因为一个等号挂掉了10pts 发现每个黑色段一定对应了一段不可行的出发区间 检查是否存在所有黑色段的并集的补集即可 具体来说,我们对于每个黑色段计算出一个(有的是两个)区间 \([l, r]\ ...
- 【微服务技术专题】Netflix动态化配置服务-微服务配置组件变色龙Archaius
前提介绍 如果要设计开发一套微服务基础架构,参数化配置是一个非常重要的点,而Netflix也开源了一个叫变色龙Archaius的配置中心客户端,而且Archaius可以说是比其他客户端具备更多生产级特 ...
- 转: SIFT原理解释
1.SIFT概述 SIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的.SIFT特征对旋转.尺度缩放.亮度变 ...
- Socket通信协议解析(文章摘要)
参考网址: https://zhuanlan.zhihu.com/p/84800923 在计算机通信领域,socket 被翻译为"套接字",它是计算机之间进行通信的一种约定或一种方 ...
- layui关闭弹出框
layer.close(index) - 关闭特定层 //当你想关闭当前页的某个层时 var index = layer.open(); var index = layer.alert(); var ...