详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2]网络爬虫的介绍 (一)搜索引擎的开发一般可分为以下三大部分 1.数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2.数据分析处理层:将从互联网上获取到的数据进行提取归类.分词.语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3.视图层:也用户的交互界面,如…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827 本版本完成以下功能: (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)的数据结…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827   本版本完成以下功能:   (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)…
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码 或 https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94 或 http://download.csdn.net/detail/jediael_lu/7402827   本版本完成以下功能:   (1)创建用于保存种子URL的配置文件及其数据结构 (2)创建用于保存Todo信息(未下载URL)…
关于HtmpParser的基本内容请见 HtmlParser基础教程 本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filte…
本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.downloadpage; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.io.PrintWriter; import java.io.Writer;…
1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. WHOIS whois是用来查询域名的IP以及所有者等信息的传输协议.简单说,whois就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人.域名注册商). 1.3.1 检查robots.txt crawler英…
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页至本地文件 下一步需要完成的功能: 1.创建用于保存种子URL的配置文件及其数据结构 2.创建用于保存Todo信息(未下载URL)的数据结构 3.创建用于保存Visited信息(已下载的URL)的数据结构 4.下载网页时同步更新Tode与Visited. 5.从上述第3步下载的网页抽取链接并继续下载…
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页至本地文件 下一步需要完成的功能: 1.创建用于保存种子URL的配置文件及其数据结构 2.创建用于保存Todo信息(未下载URL)的数据结构 3.创建用于保存Visited信息(已下载的URL)的数据结构 4.下载网页时同步更新Tode与Visited. 5.从上述第3步下载的网页抽取链接并继续下载…
前言   Windows上mingw32版本的openssl的编译是属于比较棘手的,OpenSSL本身不提供支持..   OpenSSL 介绍   OpenSSL是一个开放源代码的软件库包,应用程序可以使用这个包来进行安全通信,避免窃听,同时确认另一端连接者的身份.这个包广泛被应用在互联网的网页服务器上.  SSL是Secure Sockets Layer(安全套接层协议)的缩写,可以在Internet上提供秘密性传输.Netscape公司在推出第一个Web浏览器的同时,提出了SSL协议标准.其…