python3 爬虫五大模块之五：信息采集器

Python的爬虫框架主要可以分为以下五个部分：

爬虫调度器：用于各个模块之间的通信，可以理解为爬虫的入口与核心（main函数），爬虫的执行策略在此模块进行定义；

URL管理器：负责URL的管理，包括带爬取和已爬取的URL、已经提供相应的接口函数（类似增删改查的函数）

网页下载器：负责通过URL将网页进行下载，主要是进行相应的伪装处理模拟浏览器访问、下载网页

网页解析器：负责网页信息的解析，这里是解析方式视具体需求来确定

信息采集器：负责将解析后的信息进行存储、显示等处理

代码示例是爬取CSDN博主下的所有文章为例，文章仅作为笔记使用，理论知识rarely

一、信息采集器简介

信息采集器的功能基本是将解析后的信息进行显示、存储到本地磁盘上。

信息采集器也许名字并不正确，自己突发奇想来的。我对解析器和采集器的区分不是很明确，在下面的示例中可能在采集器中依然进行了网页解析，主要原因在于对python的基本语法不熟，有些数据统一处理还不会，只能边解析边存储了。

二、信息采集器示例：（爬取CSDN博主下的所有文章）

# author : s260389826

# date : 2019/3/22

# position: chengdu

from fake_useragent import UserAgent

import urllib.request as request

from bs4 import BeautifulSoup

import urllib.parse

import os

import tomd

class HtmlOutputer(object):

    # Replace deny char, used to name a directory.

    def replace_deny_char(self, title):

        deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', '：']

        for char in deny_char:

            title = title.replace(char, ' ')

        print('Article\'title is: %s' % title)

        return title

    def img_download(self, img_url, directory, n):

        opener = urllib.request.build_opener()

        opener.addheaders = [('User-agent', str(UserAgent().random))]

        urllib.request.install_opener(opener)

        try:

            img_name = '%s\%s.jpg' % (directory, n)

            if os.path.exists(img_name) is True:

                return

            request.urlretrieve(img_url, img_name)

            print('图片%d下载操作完成' % n)

        except Exception as e:

            print(e)

    def collect(self, author, seq, html):

        soup = BeautifulSoup(html,'html.parser', from_encoding='utf-8')

        try:

            # <h1 class="title-article">Windos下通过Wpcap抓包实现两个网卡桥接</h1>

            article_title = soup.find('h1',attrs={'class': "title-article"}).text  # 获取文章标题 print(soup.h1.text)

            # <span class="time">2018年12月18日 16:43:02</span>

            # article_time = soup.find('span',attrs={'class': "time"}).text  # 获取文章时间

            # assert isinstance(article_time, object)

            # <span class="read-count">阅读数：104</span>

            # article_readcnt= soup.find('span', attrs={'class': "read-count"}).text  # 获取文章阅读量

            # print(article_title, article_time, article_readcnt)

        except AttributeError as e:

            #print(e.reason)

            return

        article_title_convert = self.replace_deny_char(article_title)

        directory = "F:\python\CSDN\\blog\%s\%d.%s" % (author, seq, article_title_convert)

        if os.path.exists(directory) is False:

            os.makedirs(directory)

        # download blog'imgs:

        # <div id="article_content">

        imgs = soup.find('div', attrs={'id' : "article_content"}).findAll('img')

        if len(imgs) > 0:

            count = 0

            for img in imgs:

                count = count + 1

                # print(img.attrs['src'])

                self.img_download(img.attrs['src'], directory, count)

        # down blog's ariticles:  如果要保存文件，需要将注释打开

        '''

        article = soup.find('div', attrs={'id' : "article_content"})

        md = tomd.convert(article.prettify())

        try:

            with open('%s\%s.md' % (directory, article_title_convert), 'w', encoding='utf-8') as f:

                f.write(md)

        except FileNotFoundError as e:

            print("No such file or directory: %s\%s" % (directory, article_title_convert))

        '''

三、上述代码用到的知识点：

1. 对系统目录及文件的处理：

directory = "F:\python\CSDN\\blog\s2603898260"

if os.path.exists(directory) is False:   # 如果该目录不存在

    os.makedirs(directory)               # 则进行创建目录

file_name = "F:\python\CSDN\\blog\s2603898260\log.txt"

if os.path.exists(file_name) is True:    # 如果该文件存在

    return                               # 不需要重新下载，直接返回

2. 特殊字符不能做文件名处理：

    # Replace deny char, used to name a directory.

    def replace_deny_char(self, title):

        deny_char = ['\\', '/', ':', '*', '?', '\"', '<', '>', '|', '：']

        for char in deny_char:

            title = title.replace(char, ' ')

        print('Article\'title is: %s' % title)

        return title

3. 根据URL下载图片：

request.urlretrieve(img_url, img_name) # 根据img_url 下载图片到本地img_name(完整目录+图片名.格式)

   def img_download(self, img_url, directory, n):

        opener = urllib.request.build_opener()

        opener.addheaders = [('User-agent', str(UserAgent().random))]

        urllib.request.install_opener(opener)

        try:

            img_name = '%s\%s.jpg' % (directory, n)

            if os.path.exists(img_name) is True:

                return

            request.urlretrieve(img_url, img_name)

            print('图片%d下载操作完成' % n)

        except Exception as e:

            print(e)

4. tomd插件：

作用就是将html格式转换为td的格式。没理解错就是它：

不是很懂，我的下载转换效果也不是很好，

直接附链接：https://github.com/gaojiuli/tom

以及阅读td文件的链接：http://markdownpad.com/download.html

python3 爬虫五大模块之五：信息采集器的更多相关文章

python3 爬虫五大模块之三：网页下载器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之二：URL管理器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之一：爬虫调度器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之四：网页解析器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
python基础系列教程——Python3.x标准模块库目录
python基础系列教程——Python3.x标准模块库目录文本 string:通用字符串操作 re:正则表达式操作 difflib:差异计算工具 textwrap:文本填充 unicodedata ...
Python3：Requests模块的异常值处理
Python3:Requests模块的异常值处理用Python的requests模块进行爬虫时,一个简单高效的模块就是requests模块,利用get()或者post()函数,发送请求. 但是在真正 ...

随机推荐

BSTestRunner增加历史执行记录展示和重试功能
之前对于用例的失败重试,和用例的历史测试记录存储展示做了很多的描述呢,但是都是基于各个项目呢,不方便使用,为了更好的使用,我们对这里进行抽离,抽离出来一个单独的模块,集成到BSTestRunner中, ...
Centos8部署jdk、mysql8、tomcat，并部署项目到tomcat中
目录 Linux系统的学习与使用(Centos8) Linux系统的介绍为什么要选择Linux作为服务器运行的操作系统目录结构使Linux系统能够联网(登录root用户) 常用命令 cd命令(用 ...
一文彻底搞清 Gradle 依赖【转】
来源:曾是放牛娃 www.jianshu.com/p/59fd653a54d2 转自:https://mp.weixin.qq.com/s?__biz=MzA3MDMyMjkzNg==&mid ...
Bugku-web-秋名山老司机
计算式子的值然后使用post方法传值.直接脚本跑. import requestsimport reurl = "http://123.206.87.240:8002/qiumingshan ...
内置函数字符串的复制 strcpy
1 #include<stdio.h> 2 #include<stdlib.h> 3 #include<string.h> 4 5 6 void main() 7 ...
Flutter 中的动画
Flutter 中动画的创建有很多种, 需要根据具体的需求选择不同的动画.如果只是简单的布局等的动画直接使用最简单的隐式动画就可以了,因为隐式动画是由框架控制的,所以仅仅只需要更改变需要变化属性就可以 ...
记一次 .NET 某WMS仓储打单系统内存暴涨分析
一:背景 1. 讲故事七月中旬有一位朋友加wx求助,他的程序在生产上跑着跑着内存就飙起来了,貌似没有回头的趋势,询问如何解决,截图如下: 和这位朋友聊下来,感觉像是自己在小县城当了个小老板,规律的生 ...
基于Java和Bytemd用120行代码实现一个桌面版Markdown编辑器
前提某一天点开掘金的写作界面的时候,发现了内置Markdown编辑器有一个Github的图标,点进去就是一个开源的Markdown编辑器项目bytemd(https://github.com/byt ...
UNIX环境高级编程APUE练习4.6-实现类似cp(1)的程序，保留文件中的空洞
1 题面编写类似cp(1)的程序,它复制包含空洞的文件,但是不将字节0写到输出文件中去. 2 基本思路首先要搞清楚空洞的性质以判断一个文件是否有空洞,以及空洞的位置知道了空洞的位置之后,读到源文 ...
Python脚本文件中使用中文
Python做图形用户界面(GUI)开发时经常要在界面上显示中文,需要做如下处理(详见[1]和[2]2.3节): 在py文件的首行写上:# -- coding:utf-8 -- 保存py文件时要存为u ...

python3 爬虫五大模块之五：信息采集器

python3 爬虫五大模块之五：信息采集器的更多相关文章

随机推荐

热门专题