开发环境

基础语法那章的内容我是在Docker容器中玩的，但是真正做项目的时候，没有IDE的强大辅助功能来协助的话是很累人的一件事。因此本文中，我选择使用Jetbrain的Pycharm这个IDE来开发、调试代码。IDE的好处多多，比如：

强大的智能提示
强大的断点调试
性能追踪
方便好用的各种插件
各种自定义配置

需求

为了实践Python，最先想到的就是要完成一个爬虫程序，大概需求如下：

实施

可配置化我本身是计划通过DI（Dependency Injection）这个技术来完成，不过查了下资料，由于Python和其他语言不太一样，Python是可以多父类继承，并且遵循Duck Typing原则，因此DI在Python中并不实用（Python也是没有Interface概念的）。但可以通过如下方式实现类似的逻辑：

# 假设a-class-name这个类包含在xxx.py文件中，首先引入这个文件中的内容

from xxx import *

# 然后执行以下这行代码，这将初始化一个a-class-name类的实例

(lambda x: globals()[x])('a-class-name')

入口程序文件main.py

main.py主要有几个功能：

通过交互让用户输入：项目名称、网站首页、线程数三个初始化变量
初始化数据库访问对象
初始化爬虫对象
初始化线程池
执行程序

核心代码如下：

from db_queue import *

...

def execute():

    ...

    (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)(home_page, project_name + '_pages')

    Spider(project_name, home_page, DomainHelpers.get_domain_name(home_page), project_settings.HTML_RESOLVER_NAME)

    worker = Worker(thread_count, project_name)

    worker.create_threads()

    worker.crawl()

execute()

逻辑解释：

(lambda x: globals()[x])(project_settings.DB_CLASS_NAME)(home_page, project_name + '_pages')，本例中DB_CLASS_NAME = 'MongoDbQueue'，因此Python将在当前页面的应用中查找名为MongoDbQueue的类来执行初始化并传入构造函数的参数：home_page和project_name + '_pages'
初始化Spider类，以便在线程中执行爬取页面
初始化指定数量的现成作为线程池以备后续使用，main.py执行完毕，线程将被自动回收
开始执行爬虫程序

线程创建类worker.py文件

from db_queue import *

class Worker:

    ...

	def __init__(self, thread_count, project_name):

        Worker.DB = (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)

        ...

    def create_threads(self):

        for _ in range(self.thread_count):

            t = threading.Thread(target=self.__run_thread)

            t.daemon = True

            t.start()

    def __run_thread(self):

        while True:

            url = self.queue.get()

            Spider.crawl_page(threading.current_thread().name, url)

            self.queue.task_done()

    def __create_jobs(self):

        for link in Worker.DB.get_pending_queue():

            self.queue.put(link)

        self.queue.join()

        self.crawl()

    def crawl(self):

        urls = Worker.DB.get_pending_queue()

        if len(urls) > 0:

            self.__create_jobs()

逻辑解释：

__init__中将数据库连接类保存到全局变量DB中
create_threads将初始化指定数量的线程数，设置为datmon=true以便线程被创建之后一直存在，随时可以被调用
crawl将获取待爬列表之后，将其放入Spider所需的待爬队列中
self.queue.join()是用来阻塞队列，这样队列中的每一项都将只被调用一次
__run_thread和__create_jobs这两个方法是Worker内部调用的方法，不需要公开给其他人，因此加上前缀__（两个下划线）

数据库操作基础类

由于需要将数据库操作做成可替换，因此必须实现数据库操作的接口，而Python没有Interface，但是可以使用abc(Abstract Based Class)来实现类似于Interface所需的功能。

代码如下：

from abc import ABCMeta, abstractmethod

class DbBase(metaclass=ABCMeta):

    @abstractmethod

    def __init__(self, file_name):

        pass

    @staticmethod

    @abstractmethod

    def get_pending_queue():

        pass

    @staticmethod

    @abstractmethod

    def is_page_in_queue():

        pass

    @staticmethod

    @abstractmethod

    def save_pending_queue():

        pass

    @staticmethod

    @abstractmethod

    def set_page_crawled():

        pass

逻辑解释：

class DbBase(metaclass=ABCMeta)表示DbBase类的元类为ABCMeta
@abstractmethod则表明该方法在继承了DbBase的类中必须被实现，如果没有被实现，执行时将会报错：TypeError: Can't instantiate abstract class XXXX with abstract methods xxxx

数据库存储操作db_queue.py文件

from pymongo import *

from abc_base.db_base import DbBase

...

class MongoDbQueue(DbBase):

    def __init__(self, home_page, tbl_name='pages'):

		...

        MongoDbQueue.db = MongoClient(project_settings.DB_CONNECTION_STRING)[project_settings.DB_REPOSITORY_NAME]

      	...

        # create unique index

        MongoDbQueue.db[MongoDbQueue.tbl_name].create_index('url', unique=True)

    @staticmethod

    def get_pending_queue():

        ...

    @staticmethod

    def is_page_in_queue(url):

        ...

    @staticmethod

    def save_pending_queue(urls):

        ...

    @staticmethod

    def set_page_crawled(url):

        ...

逻辑解释：

class MongoDbQueue(DbBase):表示该类继承了DbBase，因此必须实现DbBase中定义的几个方法__init__、get_pending_queue、is_page_in_queue、save_pending_queue及set_page_crawled
为了确保相同的url绝对不会重复，在数据库层也增加一个Unique Index以便从数据库层面也做好验证
get_pending_queue将所有未被爬过的页面列表返回
is_page_in_queue判断是否页面在待爬列表中
save_pending_queue，这个方法是在爬取某个页面，抓取了该页面上所有新的代码链接之后，将数据库中不存在的连接保存为待爬页面
set_page_crawled，这个方法将数据库中已存在，且状态为未爬过的页面，设置为已爬，该方法将在爬虫爬好某个页面之后被调用

爬虫文件spider.py文件

...

class Spider:

	...

    def __init__(self, base_url, domain_name, html_resolver):

        ...

        Spider.crawl_page('First spider', Spider.BASE_URL)

    @staticmethod

    def crawl_page(thread_name, page_url):

        if Spider.DB.is_page_in_queue(page_url):

            ...

            urls = Spider.add_links_to_queue(Spider.gather_links(page_url))

            Spider.DB.save_pending_queue(urls)

            Spider.DB.set_page_crawled(page_url)

    @staticmethod

    def gather_links(page_url):

        html_string = ''

		...

		# to make self-signed ssl works, pass variable 'context' to function 'urlopen'

		context = ssl._create_unverified_context()

		response = urlopen(page_url, context=context)

		...

		finder = (lambda x: globals()[x])(Spider.HTML_RESOLVER)(Spider.BASE_URL, page_url)

        return finder.page_links()

    @staticmethod

    def add_links_to_queue(urls):

        ...

        for url in urls:

            if Spider.DOMAIN_NAME != DomainHelpers.get_domain_name(url):

                continue

		...

逻辑解释：

Spider.DB = (lambda x: globals()[x])(project_settings.DB_CLASS_NAME)这一行依然是动态初始化数据库操作类
context = ssl._create_unverified_context()，有时候有些自签名ssl证书，执行urlopen方法时会报错，需要创建这个context变量来避免这个错误产生
finder = (lambda x: globals()[x])(Spider.HTML_RESOLVER)(Spider.BASE_URL, page_url)这行也是通过动态初始化的方式，按照配置文件中指定的解析类来解析html内容，如果想自定义解析内容，只要重新实现一个解析类即可
add_links_to_queue 这个方法是确保只会将当前域名相关的页面保存起来以便后续继续爬，如果不加这个判断，一旦页面上有一个www.weibo.com这样的链接的话，那爬虫估计会把整个互联网上的内容都爬一遍。。。

html解析html_resolver.py文件

class HtmlResolver(HTMLParser):

	...

    def handle_starttag(self, tag, attrs):

        if tag == 'a':

            for (attribute, value) in attrs:

                if attribute == 'href':

                    url = parse.urljoin(self.base_url, value)

                    self.links.add(url)

    ...

这个类决定了我们爬取页面的逻辑，这里我们只抓去链接（也就是a标签）中的href属性中的内容。

执行过程动图

附录

本Demo完整代码已经放到Github上： https://github.com/fisherdan/crawler。

本文在博客园和我的个人博客www.fujiabin.com上同步发布。转载请注明来源。

Python3学习笔记2：简易Web爬虫的更多相关文章

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
ASP.NET MVC Web API 学习笔记---第一个Web API程序
http://www.cnblogs.com/qingyuan/archive/2012/10/12/2720824.html GetListAll /api/Contact GetListBySex ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
Python3学习笔记 - 准备环境
前言最近乘着项目不忙想赶一波时髦学习一下Python3.由于正好学习了Docker,并深深迷上了Docker,所以必须趁热打铁的用它来创建我们的Python3的开发测试环境.Python3的中文教程 ...
python3学习笔记(7)_listComprehensions-列表生成式
#python3 学习笔记17/07/11 # !/usr/bin/env python3 # -*- conding:utf-8 -*- #通过列表生成式可以生成格式各样的list,这种list 一 ...
python3学习笔记(6)_iteration
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #类似其他语言的for循环,但是比for抽象程度更高 # f ...
python3学习笔记(5)_slice
#python3 学习笔记17/07/10 # !/usr/bin/env python3 # -*- coding:utf-8 -*- #切片slice 大大简化对于指定索引的操作 fruits ...
Spring实战第八章学习笔记————使用Spring Web Flow
Spring实战第八章学习笔记----使用Spring Web Flow Spring Web Flow是一个Web框架,它适用于元素按规定流程运行的程序. 其实我们可以使用任何WEB框架写流程化的应 ...
Spring实战第五章学习笔记————构建Spring Web应用程序
Spring实战第五章学习笔记----构建Spring Web应用程序 Spring MVC基于模型-视图-控制器(Model-View-Controller)模式实现,它能够构建像Spring框架那 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

随机推荐

在Windows上搭建PhoneGAP（crodova）的开发环境
PhoneGAP是一个可以将web应用打包成移动应用的开源框架,使用它可以迅速的将HTML.CSS和JavaScript开发的web应用打包成跨平台的移动应用程序,而Apache Cordova是Ph ...
swift 之SnapKit 动画
这个问题纠结了我挺长时间的.一直以为把约束直接添加到动画里面就可以了.但是并没那么简单.-.-其实还是挺简 class ViewController: UIViewController { @IBOu ...
用BroadcastReceiver监听手机网络状态变化
android--解决方案--用BroadcastReceiver监听手机网络状态变化标签: android网络状态监听方案 2015-01-20 15:23 1294人阅读评论(3) 收藏举报 ...
Linux学习（四）单用户模式、救援模式、虚拟机克隆、linux互连（包括密匙登录）
一.单用户模式忘记root密码后,找回密码有两种方法: 单用户(grub没有加密的情况下可以使用) 救援模式这一节我们先讲单用户模式 1.先重启(3种方法) reboot init 6 sho ...
Lua中metatable和__index的联系
Lua中metatable和__index的联系可以参考 http://blog.csdn.net/xenyinzen/article/details/3536708 来源 http://blog. ...
cookie 子域名可以读父域名中的cookie
cookie 子域名可以读父域名中的cookie 如在 .ping.com域下注入cookie,则该子域下的网页如p1.ping.com.p2.ping.com 都能读取到cookie信息 path的 ...
Java多线程Future模式
Java多线程Future模式有些类似于Ajax的异步请求Future模式的核心在于:去除了主函数的等待时间,并使得原本需要等待的时间段可以用于处理其他业务逻辑假设服务器的处理某个业务,该业务可以分 ...
linux中安装Python3.x
首先了解几句Linux命令是必须的.例如 ls, vi, wget, rm, mv, cd, su, sudo, chmod, tar等等一些常用的语句命令是有必要知道它的用法的. 安装Python3 ...
Mysql 删除重复记录，只保留最小的一条
delete from `jb_postcontent` where id not in(select min(id) from (select * from `jb_postcontent`) as ...
struts2中struts.xml配置文件详解
struts.xml的常用配置 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE struts ...

Python3学习笔记2：简易Web爬虫

开发环境

需求

实施

入口程序文件main.py

线程创建类worker.py文件

数据库操作基础类

数据库存储操作db_queue.py文件

爬虫文件spider.py文件

html解析html_resolver.py文件

执行过程动图

附录

Python3学习笔记2：简易Web爬虫的更多相关文章

随机推荐

热门专题