Spider_基础总结7_爬虫基本模板（3个类）

# 第四章内容--处理不同的网站布局：

# 我们想在功能类似的网站上抓取类似内容时，往往这些网站的内容可能布局不一样（相同内容的标签可能不同），由于通常我们爬取的网站数量有限，

# 我们没有必要去开发比较一套统一的复杂的的算法或机器学习来识别页面上的哪些文字看起来像标题或段落，只需要手动的去检查网页元素，分别对

# 不同的网站采用不同的方式去爬取就好了：

# 示例 1：书上的例子，不翻墙没法跑通。

import requests

class Content:

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

def getPage(url):

    req = requests.get(url)

    return BeautifulSoup(req.text, 'html.parser')

def scrapeNYTimes(url):

    bs = getPage(url)

    title = bs.find('h1').text

    lines = bs.select('div.StoryBodyCompanionColumn div p')  # nytime独有的布局

    body = '\n'.join([line.text for line in lines])

    return Content(url, title, body)

def scrapeBrookings(url):

    bs = getPage(url)

    title = bs.find('h1').text

    body = bs.find('div', {'class', 'post-body'}).text       # brookings独有的布局

    return Content(url, title, body)

url = 'https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/'

content = scrapeBrookings(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

url = 'https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html'

content = scrapeNYTimes(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

# 示例 2： 修改的示例 1

import requests

from bs4 import BeautifulSoup

class Content:

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

def getPage(url):

    html = requests.get(url)

    return BeautifulSoup(html.content,'html.parser')  # 注，此处使用 html.text时将会导致乱码

def scrapeGushidaquan(url):

    bs = getPage(url)

    title = bs.find('h2').text

    body = bs.find('div', {'class', 'tsrtInfo'}).text                              # Gushidaquan独有的布局

    return Content(url, title, body)

def scrapeRensheng5(url):

    bs = getPage(url)

    title = bs.find('h1').text

    body = bs.find_all('p')[0].text # 段落    NavigableString对象.text为 string     # Rensheng5独有的布局

    return Content(url, title, body)

url = 'https://www.gushidaquan.cc/'

content = scrapeGushidaquan(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

print("-"*15)

url = 'http://www.rensheng5.com/zx/onduzhe/'

content = scrapeRensheng5(url)

print('Title: {}'.format(content.title))

print('URL: {}\n'.format(content.url))

print(content.body)

Title: 故事大全

URL: https://www.gushidaquan.cc/

 　　小三，是通过互联网流行起来的一个词，是对第三者的蔑称。是爱情小说及家庭伦理故事恒久的元素，也是当前不可否认的社会现象。在民间还有狐狸精、邪花等贬称。

今天故事大全小编给您推荐几篇关于小三的精彩故事。有的故事比较长，建议您边看边收藏哦。...

---------------

Title: 读者在线阅读

URL: http://www.rensheng5.com/zx/onduzhe/

　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

# 我们还是有办法来处理针对不同网页布局的爬取的，即把 各网站的不同点：name,url,css选择器等信息作为参数传递给

# bs.find()或 bs.find_all()的 tag/tag_list,attribues_dict参数 ,或传递给 bs.select() 来定义网站的结构及目标数据的位置。

# 总结：

# 3个类：

# content--用来存储所获取的数据的相关信息

# Website--用类来存储目标数据所在网页的 name,url,titleTag，structure等信息

# Crawler--用来爬取数据:获取 bs,解析bs 获取 title，body对象，存储数据信息到 content对象。

# 有一点不明白： url为什么单独给，而不使用 website对象里的 url？

class Content:

    """

    用来存储所获取的数据的相关信息

    """

    def __init__(self, url, title, body):

        self.url = url

        self.title = title

        self.body = body

    def print(self):  # 将 打印或数据持久化的工作封装到函数里。

        """

        Flexible printing function controls output

        """

        print('URL: {}'.format(self.url))

        print('TITLE: {}'.format(self.title))

        print('BODY:\n{}'.format(self.body))

class Website:

    """

    用类来存储目标数据所在网页的 name,url,titleTag，structure等信息

    """

    def __init__(self, name, url, titleTag, bodyTag):

        self.name = name

        self.url = url

        self.titleTag = titleTag

        self.bodyTag = bodyTag

import requests

from bs4 import BeautifulSoup

class Crawler:

    # 获取 bs

    def getPage(self, url):

        try:

            html = requests.get(url)

        except requests.exceptions.RequestException:

            return None

#         return BeautifulSoup(html.text, 'html.parser')

        return BeautifulSoup(html.content, 'html.parser')

    # 解析 bs获取 tag对象

    def safeGet(self, pageObj, selector):

        """

        Utilty function used to get a content string from a Beautiful Soup object and a selector.

        Returns an empty string if no objectis found for the given selector

        """

        selectedElems = pageObj.select(selector)

        if selectedElems is not None and len(selectedElems) > 0:

            return '\n'.join([elem.get_text() for elem in selectedElems])

        return ''

    #  调用上面两个方法，并将获得的 tag对象 实例化存储到 Content对象里。

    def parse(self, site_obj, url):

        """

        调用 getPage()获取包含目标数据的 bs对象，使用 safeGet()解析 bs对象的 title和 body,非空时存储到 content里

        """

        bs = self.getPage(url)

        if bs is not None:

            title = self.safeGet(bs, site_obj.titleTag)

            body = self.safeGet(bs, site_obj.bodyTag)

            if title != '' and body != '':

                content = Content(url, title, body)

                content.print()  # 调用封装后的 print()

if __name__=='__main__':

#     # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：

#     siteData = [

#         ['O\'Reilly Media', 'http://oreilly.com', 'h1', 'section#product-description'],

#         ['Reuters', 'http://reuters.com', 'h1', 'div.StandardArticleBody_body_1gnLA'],

#         ['Brookings', 'http://www.brookings.edu', 'h1', 'div.post-body'],

#         ['New York Times', 'http://nytimes.com', 'h1', 'div.StoryBodyCompanionColumn div p']

#     ]

#     # 将上述信息实例化成 website对象：

#     websites = []

#     for site in siteData:

#         site_obj=Website(site[0], site[1], site[2], site[3])

#         websites.append(site_obj)

#     crawler = Crawler()

#     crawler.parse(websites[0], 'http://shop.oreilly.com/product/0636920028154.do')

#     crawler.parse(websites[1], 'http://www.reuters.com/article/us-usa-epa-pruitt-idUSKBN19W2D0')

#     crawler.parse(websites[2], 'https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/')

#     crawler.parse(websites[3], 'https://www.nytimes.com/2018/01/28/business/energy-environment/oil-boom.html')

    # 将要爬取的目标网页的 name,url,tag,cssselector等信息存储在嵌套列表里：

    siteData = [

        ['故事大全', 'http://www.brookings.edu', 'h2', 'div.bigtit'],

        ['人生故事', 'http://nytimes.com', 'p', 'div.zzinfo']

    ]

    # 将上述信息实例化成 website对象：

    websites = []

    for site in siteData:

        site_obj=Website(site[0], site[1], site[2], site[3])

        websites.append(site_obj)

    crawler = Crawler()

    crawler.parse(websites[0], 'https://www.gushidaquan.cc/')

    crawler.parse(websites[1], 'http://www.rensheng5.com/zx/onduzhe/')

URL: https://www.gushidaquan.cc/

TITLE: 故事大全

每日

故事

爱情故事

鬼故事

故事会

奇谈怪事

民间故事

幽默故事

传奇故事

哲理故事

人生故事

范文

情话大全

健康资讯

BODY:

故事大全

上网看故事，首选故事大全，阅读量排名第一的故事网站！

URL: http://www.rensheng5.com/zx/onduzhe/

TITLE: 　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

读者在线阅读_读者文摘在线阅读

Copyright  人生屋 版权所有

BODY:

读者在线阅读

　　《读者》是甘肃人民出版社主办的一份综合类文摘杂志，原名《读者文摘》。　　《读者》杂志多年以来始终以弘扬人类优秀文化为己任，坚持“博采中外、荟萃精华、启迪思想、开阔眼界”的办刊宗旨，赢得了各个年龄段和不同阶层读者的喜爱与拥护。　　《读者》被誉为“中国人的心灵读本”、“中国期刊第一品牌”。　　>>> 读者文摘在线阅读---欢迎您。

[人生]

声名20-06-24

有原则的人生最幸福20-06-23

父亲的墨水20-06-22

与母亲相守50天20-06-22

你不是世界的中心20-06-22

海上的父亲20-06-22

[人物]

三老道喜图20-06-22

俯首甘为孺子牛20-06-22

靛蓝商人20-06-22

塬下写作20-06-22

我的小说有辣子和葱20-06-21

见客记20-06-20

[文苑]

海明威的红笔20-06-22

温柔的讲述者20-06-22

我在等你啊20-06-22

春天等不来20-06-21

生有时，寐有时20-06-21

我的目光清澈20-06-20

[社会]

经济学何为20-06-24

给跳蚤穿靴子20-06-24

科技智人20-06-24

常态化偏见20-06-24

相见恨晚20-06-24

帮助别人才是文明的起点20-06-24

[生活]

我的命运是一座花园20-06-24

夜航船20-06-22

当特色菜遇上口味菜20-06-22

为什么看过的电纸书容易忘20-06-22

三泡茶20-06-22

被疫情改变的习惯20-06-22

[文明]

宋画里的医者日常20-06-22

饭不厌诈20-06-22

孤独的52赫兹20-06-20

用人之策20-06-20

“卫生”之起源20-05-22

绘画中的食物20-05-22

[点滴]

蛇与仙鹤20-06-24

真痴20-06-24

山的意义20-06-24

欲望20-06-21

傻气与福气20-06-21

鞋子20-06-21

Spider_基础总结7_爬虫基本模板（3个类）的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python基础整理6——爬虫基础知识点
爬虫基础什么是爬虫: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁. ...
C++ 类模板一（类模板的定义）
//类模版语法 #include<iostream> using namespace std; /* 类模板和函数模板深入理解 1.编译器并不是把函数模板处理成能处理任何类型的函数 2.编 ...
CI 模板解析器类
模板解析器类可以解析你的视图文件中的伪变量.它可以解析简单的变量或者以变量作为标签的结构.如果你以前没有用过模板引擎,那么伪变量如下所示: <html><head><ti ...
读书笔记 effective c++ Item 43 了解如何访问模板化基类中的名字
1. 问题的引入——派生类不会发现模板基类中的名字假设我们需要写一个应用,使用它可以为不同的公司发送消息.消息可以以加密或者明文(未加密)的方式被发送.如果在编译阶段我们有足够的信息来确定哪个信息会 ...
【C++】模板简述(三):类模板
上文简述了C++模板中的函数模板的格式.实例.形参.重载.特化及参数推演,本文主要介绍类模板. 一.类模板格式类模板也是C++中模板的一种,其格式如下: template<class 形参名1 ...
C++入门经典-例9.3-类模板，简单类模板
1:使用template关键字不但可以定义函数模板,而且可以定义类模板.类模板代表一族类,它是用来描述通用数据类型或处理方法的机制,它使类中的一些数据成员和成员函数的参数或返回值可以取任意数据类型.类 ...
C++——模板、数组类
1.函数模板:可以用来创建一个通用功能的函数,以支持多种不同形参,进一步简化重载函数的函数体设计. 声明方法:template<typename 标识符> 函数声明求绝对值的模板 #in ...
来点基础的练习题吧，看见CSDN这类基础的代码不多
来点基础的练习题吧,看见CSDN这类基础的代码不多 //正三角形 void ex03(){ int i,k=0, rows, space; printf("请输入三角形的层次:") ...

随机推荐

配置DVWA漏洞环境
web萌新,因为在别人的环境上练习总有点不舒服,所以在本地搭建了网站:下面记录一下搭建的步骤 DVWA:是一个漏洞环境包,可以用phpstudy或者wamp解析:所以要想配置这个环境,就必须有这两个软 ...
HTTPS证书知识扫盲
1. 前言现在搞网站域名不加个HTTPS就显得不专业,特别在使用JWT进行认证的接口一定要加HTTPS为你的接口增加一层安全屏障.今天就来聊聊配置HTTPS的关键SSL证书,也被称为CA证书. 2. ...
windows搭建SVN服务
下载`TortoiseSVN 官网下载址:https://www.visualsvn.com/visualsvn/download/tortoisesvn/ 根据自己系统环境选择安装Tortoise ...
Python之tuple元组详解
元组:有序,一级元素不可以修改.不能被增加或删除(元组是可迭代对象) 一般写法括号内最后面加个英文逗号用来区分: test = (,) test1 = (11,22,) 例: test = (12 ...
痞子衡嵌入式：MCUBootUtility v2.4发布，轻松更换Flashloader文件
-- 痞子衡维护的NXP-MCUBootUtility工具距离上一个版本(v2.3.1)发布过去2个月了,这一次痞子衡为大家带来了版本升级v2.4.0,这个版本主要有一个非常重要的更新需要跟大家特别说 ...
ServletContext使用介绍
ServletContext是一个容器(域对象)可以存储键值对数据(String key,Object value),保存在ServletContext中的数据不仅可以提供给所有的servlet使用, ...
CSS动画菜鸡记录板
Transition 过渡属性: (background 1s linear 0s) 缓动函数 linear,在 easings.net 可找到相应的功能若想要多次不同执行,用逗号隔开 Animat ...
010_Markdown学习
目录 Markdown学习标题三级标题四级标题五级标题六级标题字体引用分割线图片超链接列表表格代码 Markdown学习标题三级标题四级标题五级标题六级标题字体 ...
关于linux epoll的了解
使用select/poll模型假设一台服务器需要支持100w的并发连接,在_FD_SETSIZE为1024时,则至少需要1k个进程除了进程间的上下文切换的时间消耗外,从内核/用户空间,大量的无脑内存 ...
将书法字体制作成pcb库文件，并使用该字体作为logo印制在自己设计的电路板上。
本文主要介绍,如何将写在纸张上的书法制作成pcb库文件,以达到如下效果: 形成具有镂空效果的标记,印制在PCB电路板上,一图logo位于top overlayer,是镂空丝印,二图位于top laye ...

Spider_基础总结7_爬虫基本模板（3个类）

Spider_基础总结7_爬虫基本模板（3个类）的更多相关文章

随机推荐

热门专题