java网络爬虫基础学习（一）

芒果绿 2024-10-17 01:48:39 原文

　刚开始接触java爬虫，在这里是搜索网上做一些理论知识的总结

　　主要参考文章：gitchat 的java 网络爬虫基础入门，好像要付费，也不贵，感觉内容对新手很友好。

　　一、爬虫介绍

　　网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网下载网页，是搜索引擎的重要组成部分。

　　传统爬虫：

　　获得URL -》放入队列 -》抓取网页，分析信息 -》新的URL -》放入队列 -》抓取网页，分析信息... -》满足一定条件，停止。

　　聚焦爬虫：

　　根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。再进一步根据搜索策略从队列中选择下一步的URL，重复..直到满足一定条件停止。除此之外，被爬虫抓取的网页将会被系统存储，进行一定的分析、过滤，并建立索引，以便之后的查询和减少。

　　相对于通用网络爬虫，聚焦爬虫还需解决三个问题：

对抓取目标的描述或定义。
对网页或数据的分析与过滤。
对URL的搜索策略。

　网络爬虫设计的领域有很多，需要我们掌握一门基础编程语言（最好是已经具备成熟API的语言），需要了解HTTP协议、了解网络服务器、数据库、前端知识、网络安全等...

　分类：　

　　按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等。

　　通用网络爬虫：爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。

　　聚焦网络爬虫：又称主体网络爬虫，是指选择性地爬那些与预定义好的主题相关的页面，和通用爬虫比具体上面已经介绍过了。

　　增量网络爬虫：对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化页面的爬虫，它能够在一定程度上保证爬行的页面是尽可能新的页面，历史已经采集过的页面不重复采集。

　　常见案例：论坛订单评论数据的采集（评论数据只采集最近几天或者最近几月的用户所发的评论）

　　Deep Web爬虫：指大部分内容不能通过静态链接获取，而大部分我们需要的数据都是在网页的动态链接产生的页面，即Deep Web信息，Deep Web也是一个爬虫框架，在此暂时不深究。

　网络爬虫的爬行策略

　　深度优先搜索策略、广度优先搜索策略。

　　

java网络爬虫基础学习（一）的更多相关文章

java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
java网络爬虫基础学习（四）
jsoup的使用 jsoup介绍 jsoup是一款Java的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,css以及类似于Jquery的操作方 ...
java网络爬虫基础学习（二）
正则表达式正则表达式写法含义 \d 代表0-9的任意数字 \D 代表任何非数字字符 \s 代表空格类字符 \S 代表非空格类字符 \p{Lower} 代表小写字母[a-z] \p{Upper} 代 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
Java网络编程基础(Netty预备知识)
今天在家休息,闲来无事,写篇博客,陶冶下情操~~~ =================我是分割线================ 最近在重新学习Java网络编程基础,以便后续进行Netty的学习. 整 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
Java网络编程和NIO详解开篇：Java网络编程基础
Java网络编程和NIO详解开篇:Java网络编程基础计算机网络编程基础转自:https://mp.weixin.qq.com/s/XXMz5uAFSsPdg38bth2jAA 我们是幸运的,因为 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...

随机推荐

(办公)springboot配置aop处理请求.
最近项目用到springboot,就是需要配置一些东西.比如用aop处理请求.方法前通知获取url,method,ip,类方法,参数,方法后通知,返回参数,而且还可以记录一下日志.下面是操作的代码. ...
E: 无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/)，是否有其他进程正占用它？
使用sudo apt-get install nginx 时提示错误: 问题描述: E: 无法获得锁 /: 资源暂时不可用) E: 无法锁定管理目录(/var/lib/dpkg/),是否有其他进程正占 ...
Elasticsearch安装配置
文档地址: https://www.elastic.co/guide/en/elasticsearch/reference/6.5/setup.html 官方页面提供自0.9版本以来的说明文档,由于我 ...
MSSQL2008 R2 数据库展开报错:值不能为空参数名:viewInfo
打开数据库时报错,提示应用程序组件中发生了无法处理的异常.如果单击“继续”,应用程序将忽略此错误并尝试继续. 针对此类问题的解决办法是:将路径C:\Documentsand Settings\Admi ...
App瘦身、性能优化总结
App瘦身资源瘦身使用tinypng压缩PNG图片.视频可以通过 Final cut等软件进行分辨率压缩.音频则降低码率即可. 非必须资源文件可以放到自己服务器上启动图使用 LaunchScre ...
Java笔试题库之选题题篇【141-210题】
141.Struts框架可以支持以下哪种程序开发语言? A.C B.C++ C.Java D.C# 解答:C 142.在Servlet处理请求的方式为. A.以进程的方式 B.以程序的方式 C.以线程 ...
Javascript高级编程学习笔记（91）—— Canvas(8) 阴影
阴影 2D上下文将会根据以下属性为形状或路径绘制阴影 shadowColor: 用于设置阴影颜色,默认为黑色 shadowOffsetX: 形状或路径X方向的阴影偏移量,默认为0 shadowOffs ...
JavaFX技术简要总结
最近,做一个桌面应用程序的项目,需要考察相关技术,对于经常使用Java的我们来说,很自然的找Java的桌面程序开发技术,发现JavaFX是比较合适的,简单熟悉了一下,写出来给大家做个参考. 一 Jav ...
PermissionDialog【权限申请提示对话框】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言随着Android6.0的普及,权限申请也变成了我们开发中必写的一段代码.比如sd卡权限.定位权限.拍照权限,这些几乎都是每个app ...
Netty源码服务端的启动
最近一直在看netty,看完之后就想做点笔记.可是实在是太忙了,挤了还要几个晚上终于挤出来了上图是服务端的实例代码.大致的流程先梳理一遍. 首先会执行用于创建两个线程组,boosGroup用于接受 ...