Spider_基础总结7_爬虫基本模板（3个类）

# 第四章内容--处理不同的网站布局：

# 我们想在功能类似的网站上抓取类似内容时，往往这些网站的内容可能布局不一样（相同内容的标签可能不同），由于通常我们爬取的网站数量有限，

# 我们没有必要去开发比较一套统一的复杂的的算法或机器学习来识别页面上的哪些文字看起来像标题或段落，只需要手动的去检查网页元素，分别对

# 不同的网站采用不同的方式去爬取就好了：

# 示例 1：书上的例子，不翻墙没法跑通。

import requests

class Content:

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

def getPage(url):

    req = requests.get(url)

    return BeautifulSoup(req.text, 'html.parser')

def scrapeNYTimes(url):

    bs = getPage(url)

    title = bs.find('h1').text

    lines = bs.select('div.StoryBodyCompanionColumn div p')  # nytime独有的布局

    body = '\n'.join([line.text for line in lines])

    return Content(url, title, body)

def scrapeBrookings(url):

    bs = getPage(url)

    title = bs.find('h1').text

    body = bs.find('div', {'class', 'post-body'}).text       # brookings独有的布局

    return Content(url, title, body)

url = 'https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/'

content = scrapeBrookings(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

url = 'https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html'

content = scrapeNYTimes(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

# 示例 2： 修改的示例 1

import requests

from bs4 import BeautifulSoup

class Content:

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

def getPage(url):

    html = requests.get(url)

    return BeautifulSoup(html.content,'html.parser')  # 注，此处使用 html.text时将会导致乱码

def scrapeGushidaquan(url):

    bs = getPage(url)

    title = bs.find('h2').text

    body = bs.find('div', {'class', 'tsrtInfo'}).text                              # Gushidaquan独有的布局

    return Content(url, title, body)

def scrapeRensheng5(url):

    bs = getPage(url)

    title = bs.find('h1').text

    body = bs.find_all('p')[0].text # 段落    NavigableString对象.text为 string     # Rensheng5独有的布局

    return Content(url, title, body)

url = 'https://www.gushidaquan.cc/'

content = scrapeGushidaquan(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

print("-"*15)

url = 'http://www.rensheng5.com/zx/onduzhe/'

content = scrapeRensheng5(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

Title: 故事大全

URL: https://www.gushidaquan.cc/

 　　小三，是通过互联网流行起来的一个词，是对第三者的蔑称。是爱情小说及家庭伦理故事恒久的元素，也是当前不可否认的社会现象。在民间还有狐狸精、邪花等贬称。

今天故事大全小编给您推荐几篇关于小三的精彩故事。有的故事比较长，建议您边看边收藏哦。...

---------------

Title: 读者在线阅读

URL: http://www.rensheng5.com/zx/onduzhe/

　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

# 我们还是有办法来处理针对不同网页布局的爬取的，即把 各网站的不同点：name,url,css选择器等信息作为参数传递给

# bs.find()或 bs.find_all()的 tag/tag_list,attribues_dict参数 ,或传递给 bs.select() 来定义网站的结构及目标数据的位置。

# 总结：

# 3个类：

# content--用来存储所获取的数据的相关信息

# Website--用类来存储目标数据所在网页的 name,url,titleTag，structure等信息

# Crawler--用来爬取数据:获取 bs,解析bs 获取 title，body对象，存储数据信息到 content对象。

# 有一点不明白： url为什么单独给，而不使用 website对象里的 url？

class Content:

    """

    用来存储所获取的数据的相关信息

    """

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

    def print(self):  # 将 打印或数据持久化的工作封装到函数里。

        """

        Flexible printing function controls output

        """

        print('URL: {}'.format(self.url))

        print('TITLE: {}'.format(self.title))

        print('BODY:\n{}'.format(self.body))

class Website:

    """

    用类来存储目标数据所在网页的 name,url,titleTag，structure等信息

    """

    def __init__(self, name, url, titleTag, bodyTag):

        self.name = name

        self.url = url

        self.titleTag = titleTag

        self.bodyTag = bodyTag

import requests

from bs4 import BeautifulSoup

class Crawler:

    # 获取 bs

    def getPage(self, url):

        try:

            html = requests.get(url)

        except requests.exceptions.RequestException:

            return None

#         return BeautifulSoup(html.text, 'html.parser')

        return BeautifulSoup(html.content, 'html.parser')

    # 解析 bs获取 tag对象

    def safeGet(self, pageObj, selector):

        """

        Utilty function used to get a content string from a Beautiful Soup object and a selector.

        Returns an empty string if no objectis found for the given selector

        """

        selectedElems = pageObj.select(selector)

        if selectedElems is not None and len(selectedElems) > 0:

            return '\n'.join([elem.get_text() for elem in selectedElems])

        return ''

    #  调用上面两个方法，并将获得的 tag对象 实例化存储到 Content对象里。

    def parse(self, site_obj, url):

        """

        调用 getPage()获取包含目标数据的 bs对象，使用 safeGet()解析 bs对象的 title和 body,非空时存储到 content里

        """

        bs = self.getPage(url)

        if bs is not None:

            title = self.safeGet(bs, site_obj.titleTag)

            body = self.safeGet(bs, site_obj.bodyTag)

            if title != '' and body != '':

                content = Content(url, title, body)

                content.print()  # 调用封装后的 print()

if __name__=='__main__':

#     # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：

#     siteData = [

#         ['O\'Reilly Media', 'http://oreilly.com', 'h1', 'section#product-description'],

#         ['Reuters', 'http://reuters.com', 'h1', 'div.StandardArticleBody_body_1gnLA'],

#         ['Brookings', 'http://www.brookings.edu', 'h1', 'div.post-body'],

#         ['New York Times', 'http://nytimes.com', 'h1', 'div.StoryBodyCompanionColumn div p']

#     ]

#     # 将上述信息实例化成 website对象：

#     websites = []

#     for site in siteData:

#         site_obj=Website(site[0], site[1], site[2], site[3])

#         websites.append(site_obj)

#     crawler = Crawler()

#     crawler.parse(websites[0], 'http://shop.oreilly.com/product/0636920028154.do')

#     crawler.parse(websites[1], 'http://www.reuters.com/article/us-usa-epa-pruitt-idUSKBN19W2D0')

#     crawler.parse(websites[2], 'https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/')

#     crawler.parse(websites[3], 'https://www.nytimes.com/2018/01/28/business/energy-environment/oil-boom.html')

    # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：

    siteData = [

        ['故事大全', 'http://www.brookings.edu', 'h2', 'div.bigtit'],

        ['人生故事', 'http://nytimes.com', 'p', 'div.zzinfo']

    ]

    # 将上述信息实例化成 website对象：

    websites = []

    for site in siteData:

        site_obj=Website(site[0], site[1], site[2], site[3])

        websites.append(site_obj)

    crawler = Crawler()

    crawler.parse(websites[0], 'https://www.gushidaquan.cc/')

    crawler.parse(websites[1], 'http://www.rensheng5.com/zx/onduzhe/')

URL: https://www.gushidaquan.cc/

TITLE: 故事大全

每日

故事

爱情故事

鬼故事

故事会

奇谈怪事

民间故事

幽默故事

传奇故事

哲理故事

人生故事

范文

情话大全

健康资讯

BODY:

故事大全

上网看故事，首选故事大全，阅读量排名第一的故事网站！

URL: http://www.rensheng5.com/zx/onduzhe/

TITLE: 　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

读者在线阅读_读者文摘在线阅读

Copyright  人生屋 版权所有

BODY:

读者在线阅读

　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

[人生]

声名20-06-24

有原则的人生最幸福20-06-23

父亲的墨水20-06-22

与母亲相守50天20-06-22

你不是世界的中心20-06-22

海上的父亲20-06-22

[人物]

三老道喜图20-06-22

俯首甘为孺子牛20-06-22

靛蓝商人20-06-22

塬下写作20-06-22

我的小说有辣子和葱20-06-21

见客记20-06-20

[文苑]

海明威的红笔20-06-22

温柔的讲述者20-06-22

我在等你啊20-06-22

春天等不来20-06-21

生有时，寐有时20-06-21

我的目光清澈20-06-20

[社会]

经济学何为20-06-24

给跳蚤穿靴子20-06-24

科技智人20-06-24

常态化偏见20-06-24

相见恨晚20-06-24

帮助别人才是文明的起点20-06-24

[生活]

我的命运是一座花园20-06-24

夜航船20-06-22

当特色菜遇上口味菜20-06-22

为什么看过的电纸书容易忘20-06-22

三泡茶20-06-22

被疫情改变的习惯20-06-22

[文明]

宋画里的医者日常20-06-22

饭不厌诈20-06-22

孤独的52赫兹20-06-20

用人之策20-06-20

“卫生”之起源20-05-22

绘画中的食物20-05-22

[点滴]

蛇与仙鹤20-06-24

真痴20-06-24

山的意义20-06-24

欲望20-06-21

傻气与福气20-06-21

鞋子20-06-21

Spider_基础总结7_爬虫基本模板（3个类）的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python基础整理6——爬虫基础知识点
爬虫基础什么是爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...
C++ 类模板一（类模板的定义）
//类模版语法 #include<iostream> using namespace std; /* 类模板和函数模板深入理解 1.编译器并不是把函数模板处理成能处理任何类型的函数 2.编 ...
CI 模板解析器类
模板解析器类可以解析你的视图文件中的伪变量.它可以解析简单的变量或者以变量作为标签的结构.如果你以前没有用过模板引擎,那么伪变量如下所示: <html><head><ti ...
读书笔记 effective c++ Item 43 了解如何访问模板化基类中的名字
1. 问题的引入——派生类不会发现模板基类中的名字假设我们需要写一个应用,使用它可以为不同的公司发送消息.消息可以以加密或者明文(未加密)的方式被发送.如果在编译阶段我们有足够的信息来确定哪个信息会 ...
【C++】模板简述(三):类模板
上文简述了C++模板中的函数模板的格式.实例.形参.重载.特化及参数推演,本文主要介绍类模板. 一.类模板格式类模板也是C++中模板的一种,其格式如下: template<class 形参名1 ...
C++入门经典-例9.3-类模板，简单类模板
1:使用template关键字不但可以定义函数模板,而且可以定义类模板.类模板代表一族类,它是用来描述通用数据类型或处理方法的机制,它使类中的一些数据成员和成员函数的参数或返回值可以取任意数据类型.类 ...
C++——模板、数组类
1.函数模板:可以用来创建一个通用功能的函数,以支持多种不同形参,进一步简化重载函数的函数体设计. 声明方法:template<typename 标识符> 函数声明求绝对值的模板 #in ...
来点基础的练习题吧，看见CSDN这类基础的代码不多
来点基础的练习题吧,看见CSDN这类基础的代码不多 //正三角形 void ex03(){ int i,k=0, rows, space; printf("请输入三角形的层次:") ...

随机推荐

为了省钱，我用1天时间把PHP学了！
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言你在通往架构师的路上吗? 程序员这个行业就像是在不断的打怪升级,突破每一阶段的瓶颈期 ...
Pycharm开发环境配置与调试
在Windows宿主机上搭建Ubuntu虚拟机的Pycharm开发环境,Ubuntu开启Samba服务,使用网络映射将Ununtu下Python项目工程路径映射到Windows下创建Pycharm工 ...
多测师浅谈学员实现价值就是我们的幸福_高级讲师肖sir
学员实现价值就是我们的幸福作为一名资深的IT高级讲师,在传统的行业IT薪资基本都是过万,作为一名IT培训教师,培养出在不同领域的测试,并且接触各种各样的产品,目前市场流行的比如银行业务系统,语音类系 ...
vs code 编译python 输出到调试控制台
如图所示,在debug菜单中点击齿轮按钮,进入launch.json,更改console选项的值(有三种) "console": "internalConsole&quo ...
.net 手动建DataTable 获取DataTable列名修改DataTable 列的顺序
//创建表 DataTable tables = new DataTable(); //添加创建列 //第一列 DataColumn cums = new DataColumn(); cums. ...
【C语言教程】双向链表学习总结和C语言代码实现！值得学习~
双向链表定义我们一开始学习的链表中各节点中都只包含一个指针(游标),且都统一指向直接后继节点,通常称这类链表为单向链表. 虽然使用单向链表能 100% 解决逻辑关系为 "一对一" ...
P2340 [USACO03FALL]Cow Exhibition G题解
新的奇巧淫技原题传送门众所周知,模拟退火是一种很强大的算法,DP很强,但我模拟退火也不虚,很多题你如果不会的话基本可以拿来水很多分.比如这道题,我用模拟退火可以轻松水过(虽然我是足足交了两页才过) ...
canal 整合RabbitMQ
环境如下: canal: 1.15-alpha-1 mysql 5.6.49 rabbitmq 3.7.14 Erlang 21.3 canal 安装和启动见上篇文章 canal快速安装启动但是 ...
linux设置系统变量
[root@localhost test]# export AUTHOR=brady [root@localhost test]# echo $AUTHOR brady [root@localhost ...
C# 面试前的准备_基础知识点的回顾_04
1.Session和Cookie的使用区别很容易回答的就是Session在服务器端,存储的数据可以较大容量,比如我们存一个Table,上千条数据. Cookie保存在客户端,安全系数低,不能放重要的 ...

Spider_基础总结7_爬虫基本模板（3个类）

Spider_基础总结7_爬虫基本模板（3个类）的更多相关文章

随机推荐

热门专题