简单爬虫框架实现

框架流程

调度器
url管理器

网页下载器

网页解析器

数据处理器

具体演示效果

框架流程

调度器

#导入模块

import Url_Manager

import parser_html

import html_output

import download

class SpiderMain(object):

    def __init__(self):

        #实例化:url管理器,网页下载器，网页解析器，数据输出

        self.urls=Url_Manager.UrlManager()

        self.parser=parser_html.Htmlparser()

        self.download = download.download()

        self.outputer=html_output.HtmlOutputer()

    def craw(self,root_url):

        count=1

        #向列表里面添加新的单个url

        self.urls.add_new_url(root_url)

        #判断待爬取的url列表里面有没有新的url

        while self.urls.has_new_url():

            try:

                #如果待爬取的url列表不为空，则取一个url出来

                new_url=self.urls.get_new_url()

                print('craw %d:%s' % (count,new_url))

                #下载网页

                html_cont=self.download.download(new_url)

                #解析网页

                #解析获得两个数据：新的url，以及我们要获取的数据

                new_urls,new_data=self.parser.parse(new_url,html_cont)

                #获取的url添加到待爬取的url列表

                self.urls.add_new_urls(new_urls)

                #保存数据

                self.outputer.collect_data(new_data)

                #如果下载的url页面达到50个，结束当前循环

                if count ==50:

                    break

                count=count+1

            except:

                print('craw failed')

        #输出数据

        self.outputer.output_html()

if __name__ == '__main__':
　　#开始爬取的url

    url = "http://www.dili360.com/gallery/"

    root_url=url

    #实例化

    obj_spider=SpiderMain()

    obj_spider.craw(root_url)

url管理器

#url管理器需要四个方法：

#add_new_url:向管理器添加单个url

#add_new_url:向管理器添加批量的url

#has_new_url:判断管理器里面是否有新的在爬取的url

#get_new_url:在管理器中获取一个正在爬取的url

#url管理器需要维护两个列表：待爬取的url，已经爬取的url

class UrlManager(object):

    def __init__(self):

        #待爬取的url列表

        self.new_urls=set()

        #已经爬取的url列表

        self.old_urls=set()

    #向管理器添加单个url

    def add_new_url(self,url):

        #首先判断url是否为空

        if url is None:

            return

        #如果这个url既不在待爬取的url里面也没有在已经爬取的url里面，则说明这是一个新url

        if url  not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    # 向管理器添加批量的url

    def add_new_urls(self,urls):

        if urls is None or len(urls) ==0:

            return

        for url in urls:

            self.add_new_url(url)

    #判断管理器里面是否有新的在爬取的url

    def has_new_url(self):

        return len(self.new_urls) != 0

    # 获取一个正在爬取的url

    def get_new_url(self):

        new_url = self.new_urls.pop()

        self.old_urls.add(new_url)

        return new_url

网页下载器

import requests

class download(object):

    def download(self,url):

        if url is None:

            return None

        else:

            response = requests.get(url)

            if response.status_code !=200:

                return None

            return response.text

网页解析器

from urllib.parse import urljoin

from bs4 import BeautifulSoup

class Htmlparser(object):

    def _get_new_urls(self,page_url,soup):

        new_urls = set()
#这里可以加上正则表达式，对url进行过滤

        links=soup.find_all('a')

        for link in links:

            #补全url,添加到列表里面

            new_url=link['href']

            new_full_url=urljoin(page_url,new_url)

            new_urls.add(new_full_url)

        return new_urls

    def _get_new_data(self,page_url,soup):

        #解析数据,由用户来编写

        new_datas=set()

        imgs=soup.find_all('img')

        for img in imgs:

            new_data=img['src']

            new_full_data=new_data

            new_datas.add(new_full_data)

        return new_datas

    #需要解析出新的url和数据

    def parse(self,page_url,html_cont):

        if page_url is None or html_cont is None:

            return

        soup=BeautifulSoup(html_cont,'html.parser')

        #调用两个本地方法：解析新的url以及解析数据

        new_urls=self._get_new_urls(page_url,soup)

        new_data = self._get_new_data(page_url,soup)

        return new_urls,new_data

# 报错：

# UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.

# 解决方法：

# soup = BeautifulSoup(html_doc,"html.parser")

# 这一句中删除【from_encoding="utf-8"】

# 原因：

# python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉，去掉【from_encoding="utf-8"】这一个好了

数据处理器

使用文档保存文本信息

使用文件保存图片，视频文件等，可进行扩展

class HtmlOutputer(object):

    def __init__(self):

        self.datas=[]

    def collect_data(self,data):

        if data is None:

            return

        self.datas.append(data)

    def output_html(self):

        fout=open('output','a+')

        for data in self.datas:

            for da in data:

                fout.write(str(da)+'\n')

        fout.close()

具体演示效果

演示url：http://www.dili360.com/gallery/

演示过程：

数据处理：

Python爬虫之简单爬虫框架实现的更多相关文章

【Python项目】简单爬虫批量获取资源网站的下载链接
简单爬虫批量获取资源网站的下载链接项目链接:https://github.com/RealIvyWong/GotDownloadURL 1 由来自己在收集剧集资源的时候,这些网站的下载链接还要手动 ...
[python]做一个简单爬虫
为什么选择python,它强大的库可以让你专注在爬虫这一件事上而不是更底层的更繁杂的事爬虫说简单很简单,说麻烦也很麻烦,完全取决于你的需求是什么以及你爬的网站所决定的,遇到的第一个简单的例子是pas ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
【Python数据分析】简单爬虫爬取知乎神回复
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到 ...
第一次用python 写的简单爬虫记录在自己的博客
#python.py from bs4 import BeautifulSoup import urllib.request from MySqlite import MySqlite global ...
python bs4 + requests4 简单爬虫
参考链接: bs4和requests的使用:https://www.cnblogs.com/baojinjin/p/6819389.html 安装pip:https://blog.csdn.net/z ...
洗礼灵魂，修炼python（72）--爬虫篇—爬虫框架：Scrapy
题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿然后当我开始写博文 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
Python 爬虫（1）基础知识和简单爬虫
Python上手很容易,免费开源,跨平台不受限制,面向对象,框架和库很丰富. Python :Monty Python's Flying Circus (Python的名字来源,和蟒蛇其实无关). 通 ...

随机推荐

前端开发中的Error以及异常捕获
本文首发于公众号:符合预期的CoyPan 写在前面在前端项目中,由于JavaScript本身是一个弱类型语言,加上浏览器环境的复杂性,网络问题等等,很容易发生错误.做好网页错误监控,不断优化代码,提 ...
tab切换效果网站中的图片自动切换
网站中的图片自动切换今天上一套tab切换效果的代码动图就自己实现吧! 下面贴HTML代码,大体分两部分,图片div和按钮div,代码很容易看懂~ <!DOCTYPE html> < ...
简单配置 docker swarm
#准备三台CentOS7 #IP划分 192.168.1.201 virtualBox1 192168.1.202 virtualBox2 192168.1.204 ...
Selenium 2自动化测试实战22（处理HTML5的视频播放）
一.处理HTML5的视频播放大多数浏览器使用控件(如Flash)来播放视频,但是,不同的浏览器需要使用不同的插件.HTML5定义了一个新的元素<video>,指定了一个标准的方式来嵌入电 ...
vue中html、js、vue文件之间的简单引用与关系
有关vue文件记录:index.html在html中运用组件 <body> <app></app> <!-- 此处app的组件为入口js main.js中定义 ...
进程,虚拟环境,Mysql主从
进程查看进程 ps(类似windows任务管理器) man 1 ps # 查看命令文档 ps[options] 1 UNIX options, which may be grouped and mu ...
ubuntu安装dockers和images：dvwa
docker安装安装前需要更新系统 apt-get update apt-get upgrade apt-get install docker.io 安装完之后就可以试下: docker docke ...
调用百度api的原理流程
1.为了实现酒店地址的定位 2.使用可视化便捷的百度地图API生成器:设置公司的地址和地图等级 3.设置地图的滚轮.缩放功能 4.获取代码,拷贝到html页面中 5.申请秘钥,在html中引用地图AP ...
【Python开发】python集成开发环境IDE搭建
http://blog.csdn.net/pipisorry/article/details/39854707 使用的系统及软件 Ubuntu / windows Python 2.7 / pytho ...
Django2.2 会话技术cookie session token的区别以及实例介绍
一.区别: 本人见解:使用自定义数据项进行加密,作为唯一身份识别,登陆时写入cookie(session基于这个).在显示相关数据 1.cookie 属于客户端会话技术(数据存储在客户端) 默认的Co ...

Python爬虫之简单爬虫框架实现

简单爬虫框架实现

框架流程

调度器

url管理器

网页下载器

网页解析器

数据处理器

具体演示效果

Python爬虫之简单爬虫框架实现的更多相关文章

随机推荐

热门专题