Spider-Python爬虫之聚焦爬虫与通用爬虫的区别

为什么要学习爬虫？

学习爬虫，可以私人订制一个搜索引擎。

大数据时代，要进行数据分析，首先要有数据源。

对于很多SEO从业者来说，从而可以更好地进行搜索引擎优化。

什么是网络爬虫？

模拟客户端发送网络请求，接收请求对应的数据，按照一定的规则，自动抓取互联网信息的程序。

只要是客户端(浏览器)能做的的事情，原则上，爬虫都能做。意思就是，只要人类能够访问的网页，爬虫在具备铜等资源的情况下就一定可以抓取。

爬虫的用途

主要用：途数据采集

其他用途：12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器

爬虫数据的用途

1.金融          金融新闻/数据            制定投资策略，进行量化交易

2.旅游          各类信息                优化出行策略

3.电商          商品信息                比价系统

4.游戏          游戏论坛                调整游戏运营

5.银行          个人交易信息             征信系统/贷款评级

6.招聘          职位信息                岗位信息

7.舆情          各大论坛                社会群体感知，舆论导向

通用爬虫

通用爬虫：搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

目标：

就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

抓取流程：

首先选取一部分URL，把这些URL放到待爬取队列。

从队列取出URL，然后解析DNS得到主机IP，然后保存这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本级服务器，之后把这个爬过的url放入已爬过的队列。

分析这些网页内容，找出网页里其他的URL链接，继续执行第二步，知道爬取结束

搜索引擎如何获取一个新网站的URL：

a)主动向搜索引擎提交网站

B)在其他网站里设置外联

C)索引擎会和DNS服务商服务商进行合作，可以快速收录新的网站

DNS把域名解析成IP的一种技术。

通用爬虫并不是万物皆可爬取，他也要遵循规则：

Robots协议：协议会指明通用爬虫可以爬取网页的权限(告诉搜索引擎那些可以抓取，那些不可以抓取)

Robots.txt 并不是所有的爬虫都遵守，一般只有大型的搜索引擎爬虫才会遵守

存在位置:robots.txt文件应该放置在网站根目录下

例如：https://www.taobao.com/robots.txt

通用爬虫工作流程：

爬取网页 存储数据 内容处理 提供检索/排名服务

搜索引擎排名：

1.PageRank值：根据网站的流量(点击量/浏览量/人气)统计，流量越高，网站排名越靠前。

2.竞价排名：谁给的钱多，谁排名就高。

通用爬虫的缺点：

1.只能提供和文本相关的内容(HTML、Word、PDF)等等，但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)

2.提供的结果千篇一律，不等针对不同背景领域的人提供不同的搜索结果

3.不能提供人类语义上的检索

通用搜索引擎的局限性

1.通用搜索引擎所返回的网页里90%的内容无用。

2.中文搜索引擎自然语言检索理解困难

3.信息占有量和覆盖率存在局限。

4.搜索引擎最主要的还是以关键字搜索为主，对于图片、数据库、音频、视频多媒体的内容通用搜索引擎无能为力。

5.搜索引擎的社区化和个性化不好，大多数搜索引擎没有考虑人的地域，性别，年龄的差别

6.搜索引擎抓取动态网页效果不好

  解决通用爬虫的缺点，聚焦爬虫出现了。

聚焦爬虫

聚焦爬虫：爬虫程序员写的针对某种内容爬虫。

面向主题爬虫、面向需求爬虫：会针对某种特定的能容去爬取信息，而且保证内容需求尽可能相关。

1.积累式爬虫：从开始到结束，不断爬取，过程中会进行重复操作。

2.增量式爬虫：已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页爬虫

3.Deep web爬虫：不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的web页面

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别的更多相关文章

(Python爬虫04)了解通用爬虫和聚焦爬虫,还是理论知识.快速入门可以略过的
如果现在的你返回N年前去重新学习一门技能,你会咋做? 我会这么干: ...哦,原来这个本事学完可以成为恋爱大神啊, 我要掌握精髓需要这么几个要点一二三四..... 具体的学习步骤是这样的一二三.... ...
Python通用爬虫，聚焦爬虫概念理解
通用爬虫:百度.360.搜狐.谷歌.必应....... 原理: (1)抓取网页 (2)采集数据 (3)数据处理 (4)提供检索服务百度爬虫:Baiduspider 通用爬虫如何抓取新网站? (1)主 ...
Python 教你 4 行代码开发新闻网站通用爬虫
\ GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容.标题.作者.发布时间.正文中的图片地址和正文所在的标签源代码.G ...
python爬虫王者荣耀高清皮肤大图背景故事通用爬虫
wzry-spider python通用爬虫-通用爬虫爬取静态网页,面向小白基本上纯python语法切片索引,少用到第三方爬虫网络库这是一只小巧方便,强大的爬虫,由python编写主要实现了: ...
Python 通用爬虫和讯博客 scrapy
目标站点需求分析通用爬虫,获取和讯博客所有博文涉及的库 scrapy,re,requests,mysql URL RULE 解析单页源码保存到数据库结果
python scrapy 入门,10分钟完成一个爬虫
在TensorFlow热起来之前,很多人学习python的原因是因为想写爬虫.的确,有着丰富第三方库的python很适合干这种工作. Scrapy是一个易学易用的爬虫框架,尽管因为互联网多变的复杂性仍 ...
爬虫(十八)：Scrapy框架(五) Scrapy通用爬虫
1. Scrapy通用爬虫通过Scrapy,我们可以轻松地完成一个站点爬虫的编写.但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个Spider则可能包含很多重复代码. 如果我们将各个站点的 ...
PHP, Python, Node.js 哪个比较适合写爬虫？
PHP, Python, Node.js 哪个比较适合写爬虫? 1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢.比如:python+ ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

随机推荐

《windows核心编程系列》四谈谈进程的建立和终止
第二部分:工作机理第一章:进程上一章介绍了内核对象,这一节开始就要不断接触各种内核对象了.首先要给大家介绍的是进程内核对象.进程大家都不陌生,它是资源和分配的基本单位,而进程内核对象就是与进程相关 ...
C#---数据库访问通用类、Access数据库操作类、mysql类 .[转]
原文链接 //C# 数据库访问通用类 (ADO.NET)using System;using System.Collections.Generic;using System.Text;using Sy ...
【转】JAVA的静态变量、静态方法、静态类
转自:http://blog.csdn.net/zhandoushi1982/article/details/8453522/ 静态变量和静态方法都属于静态对象,它与非静态对象的差别需要做个说明. ( ...
vim快捷键参考
一. 移动: h,j,k,l: 左,下,上,右. w: 下一个词的词首.W:下一个单词(不含标点). e:下一个词的词尾.E:不含标点. b:上一个词的词首.B:不含标点. <>: v 模 ...
Uediter的引用和取值
页面应用Uediter控件,代码如下: <tr> <td align="center" class="xwnr_j"> <asp: ...
写给W小姐的一封信
生活琐碎 Hallo,Preaty.对于跟人说话,我很不擅长如何开头.我不知道什么样的开头是符合我在别人心目中我应有的形象.我不知道什么样的开头符合别人预想中与我相匹配的内容.或者说什么的开头才是一 ...
【Hibernate】多对多关系的表达
User.hbm.xml <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE hibernate ...
Spring Cloud是什么？
[学习笔记] 3)Spring Cloud是什么?马克-to-win@马克java社区:i)Spring Cloud是一个微服务框架,Spring Cloud基于微服务基础框架Netflix进行了up ...
Hadoop YARN学习之重要术语总结（6）
Hadoop YARN学习之重要术语总结(6) - SLA服务等级 - RM(ResourceManager) - AM(ApplicationMaster) - NM(NodeMaster) - M ...
Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari（5）
Hadoop YARN学习监控JVM和实时监控Ganglia.Ambari(5) 1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分. jstat工具,在JDK的bin目录 ...

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别

Spider-Python爬虫之聚焦爬虫与通用爬虫的区别的更多相关文章

随机推荐

热门专题