一、爬虫协议

　　与其它爬虫不同，全站爬虫意图爬取网站所有页面，由于爬虫对网页的爬取速度比人工浏览快几百倍，对网站服务器来说压力山大，很容易造成网站崩溃。为了避免双输的场面，大家约定，如果网站建设者不愿意爬虫访问某些页面，他就按照约定的格式，把这些页面添加到 robots.txt 文件中，爬虫应该主动避免访问这些页面。除此之外，作为爬虫编写者也应该主动控制爬虫访问速度。

　　访问 robots 协议的方式是：网站域名＋'/robots.txt'。

二、处理爬虫协议

import urllib.robotparser

url = 'https://ai.baidu.com'

rp = urllib.robotparser.RobotFileParser()

rp.set_url(url + '/robots.txt')

rp.read()

info = rp.can_fetch("*", 'https://ai.baidu.com/product/minos')

print(info)

三、全站爬虫的基本架构

　　爬虫从一个 URL 开始访问，通常是网站的域名，并将获得网页中的链接提取出来，去重后放入待访问列表。重复此操作，知道访问完网站内全部网页。

　　需要注意的是，全站爬虫通常只爬取网站的内部链接

四、网页链接提取

from requests_html import HTMLSession

session = HTMLSession()

origin = 'https://ai.baidu.com'

r = session.get(origin)

print(r.html.links)

五、链接过滤

　　使用 urllib 库过滤所有非内部链接，继续运行下面的代码，观察结果：

from urllib.parse import urlparse

from requests_html import HTMLSession

session = HTMLSession()

origin = 'https://ai.baidu.com'

r = session.get(origin)

print(r.html.links)

domain = 'ai.baidu.com'

def is_inner_link(link):

    netloc = urlparse(link).netloc

    return (not netloc) or (netloc == domain)

for link in r.html.links:

    print(is_inner_link(link), link)

　　除了过滤非内部链接外，还需要把已经访问过的链接、爬虫协议不允许的链接和你不想访问的链接都过滤掉。

六、百度AI爬虫实现

from requests_html import HTMLSession

import urllib.robotparser

from urllib.parse import urlparse

session=HTMLSession()

origin= 'https://www.xuexi.cn/'

domain=urlparse(origin).netloc

def is_inner_link(link):

    netloc=urlparse(link).netloc

    return (not netloc) or (netloc==domain)

visited = []  # 已访问链接列表

unvisited = [origin]  # 待访问链接列表

# 解析爬虫协议

rp = urllib.robotparser.RobotFileParser()

rp.set_url(origin + '/robots.txt')

rp.read()

def add_unvisited(link):

    # 过滤1：判断爬虫协议是否允许

    allow = rp.can_fetch('*', link)

    if not allow:

        return

    # 过滤2：判断是否为内链

    if not is_inner_link(link):

        return

    # 过滤3：去掉非法链接

    path = urlparse(link).path

    if not path.startswith('/'):

        return

    # 过滤4：自定义过滤

    if urlparse(link).path.startswith(('/file', '/docs', '/support', '/forum', '/broad', '/paddlepaddle', '/market',

                                       '/download', '/facekit', '/sdk', '/customer', '/easydl', '//')):

        return

    # 将 /tech/123 转换为 https://ai.baidu.com/tech/123 的形式

    if link.startswith('/'):

        link = origin + link

    # 过滤5：判断是否访问过，或已经添加到待访问列表

    if (link in visited) or (link in unvisited):

        return

    unvisited.append(link)

while len(unvisited):

    link=unvisited.pop()    #用于移除列表中的一个元素

    r=session.get(link)

    visited.append(link)

    if r.html and r.html.links and len(r.html.links):

        for url in r.html.links:

            add_unvisited(url)

    if r.html.find('head title')[0]:

        print(r.html.find('head title')[0].text,link)

print('共爬取{}个链接'.format(len(visited)))

百度AI搜索引擎的更多相关文章

百度AI认为最漂亮的中国女星是----范冰冰
一.程序说明 1.1 程序说明之前写调用百度AI接口的程序,然后刷到了两条明星的新闻,就想到了写个给明星颜值排下名的程序. 程序的关键点是两个,第一个是百度AI接口的调用这点其实直接使用早前实现的类 ...
百度AI开放平台- API实战调用
百度AI开放平台- API实战调用一. 前言首先说一下项目需求. 两个用户,分别上传了两段不同的文字,要计算两段文字相似度有多少,匹配数据库中的符合条件的数据,初步估计列出来会有60-1 ...
百度AI技术QQ群
百度语音QQ群 648968704 视频分析QQ群 632473158 DuerOSQQ群 604592023 图像识别QQ群 649285136 文字识别QQ群 631977213 理解与交互技术U ...
初探机器学习之使用百度AI服务实现图片识别与相似图片
一.百度云AI服务最近在调研一些云服务平台的AI(人工智能)服务,了解了一下阿里云.腾讯云和百度云.其中,百度云提供了图像识别及图像搜索,而且还细分地提供了相似图片这项服务,比较符合我的需求,且百度 ...
基于百度AI开放平台的人脸识别及语音合成
基于百度AI的人脸识别及语音合成课题课题需求 (1)人脸识别在Web界面上传人的照片,后台使用Java技术接收图片,然后对图片进行解码,调用云平台接口识别人脸特征,接收平台返回的人员年龄.性别.颜 ...
人工智能-调百度AI接口+图灵机器人
1.登陆百度AI的官网 1.注册:没有账号注册 2.创建应用 3.创建应用 4.查看应用的ID 5.Python代码 from aip import AipSpeech APP_ID = " ...
PHP百度AI的OCR图片文字识别
第一步可定要获取百度的三个东西要到百度AI网站(http://ai.baidu.com/)去注册然后获得 -const APP_ID = '请填写你的appid'; -const API_KEY ...
Python通过百度Ai识别图片中的文字
版本:python3.7 工作中有需要识别图片中的汗字,查看了半天大神们的博客,但没找到完全可以用的源码,经过自己的实践,以下源码可以实现: 创建应用首先你需要登录百度AI,选择文字识别,创建一个应 ...
java通过百度AI开发平台提取身份证图片中的文字信息
废话不多说,直接上代码... IdCardDemo.java package com.wulss.baidubce; import java.io.BufferedReader; import jav ...

随机推荐

zhenya moves from parents
Zhenya moved from his parents' home to study in other city. He didn't take any cash with him, he onl ...
有趣的JavaScript隐式类型转换
JavaScript的数据类型是非常弱的(不然不会叫它做弱类型语言了)!在使用算术运算符时,运算符两边的数据类型可以是任意的,比如,一个字符串可以和数字相加.之所以不同的数据类型之间可以做运算,是因为 ...
七牛 qshell 全命令实践
七牛API服务的命名行测试工具,参考文档七牛开发者中心命令行工具(qshell) 实践目的安装 account 设置ak.sk stat 查看文件状态 buckets/listbucket/do ...
26.webpack 入门
webpack 官方: https://webpack.js.org/ http://webpack.github.io/ 中文: https://www.webpackjs.com/ 资料: htt ...
Python学习之旅（二十一）
Python基础知识(20):错误.调试和测试一.错误处理在运行程序的过程中有可能会出错,一般我们会在添加一段代码在可能出错的地方,返回约定的值,就可以知道会不会出错以及出错的原因 1.使用try ...
Codeforces 1100 - A/B/C/D/E/F - (Undone)
链接:https://codeforces.com/contest/1100 A - Roman and Browser - [暴力枚举] 题意:浏览器有 $n$ 个网页,编号 $1 \sim n$, ...
Mybatis 使用了哪些设计模式？
https://mp.weixin.qq.com/s/ZTh4a-YST5RdIipHykWpPQ
nginx配置框架问题
1.框架源文件没有引入 2.nginx fastcgi.conf配置允许访问上级目录地址 3.使用autoindex on;参数
[httpd] httpd server 在低负载的情况下对SYN无响应
如题: 两台client通过load balance访问httpd server.两个client交互访问.load balance处于fullnat模式. server在低负载情况下,常常对某一个c ...
最全的MonkeyRunner自动化测试从入门到精通（3）
一.eclipse的下载安装与配置成安卓开发环境步骤一:在官网上面进行下载eclipse,官网的网址:https://www.eclipse.org/downloads/ 步骤二:下载完成后可以在你 ...

百度AI搜索引擎