WebCollector爬取百度搜索引擎样例

使用WebCollector来爬取百度搜索引擎依照关键字搜索的结果页面，解析规则可能会随百度搜索的改版而失效。

代码例如以下：

package com.wjd.baidukey.crawler;

import java.io.ByteArrayInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.net.URLEncoder;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import java.sql.Statement;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.HashMap;

import java.util.TimeZone;

import org.apache.poi.poifs.filesystem.DirectoryEntry;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import cn.edu.hfut.dmic.contentextractor.ContentExtractor;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;

import cn.edu.hfut.dmic.webcollector.model.Page;

import cn.edu.hfut.dmic.webcollector.plugin.ram.RamCrawler;

public class BdiduKeywordCrawler extends RamCrawler{

	private Connection connection;

	private PreparedStatement pstatement;

	// 连接MySql数据库。用户名root，密码mahao

	String url = "jdbc:mysql://localhost:3306/wjd";

	String username = "root";

	String password = "mahao";

	//保存抽取到的数据

	StringBuilder result = new StringBuilder();

	public BdiduKeywordCrawler(String keyword, int maxPageNum) throws Exception {

		for (int pageNum = 1; pageNum <= maxPageNum; pageNum++) {

			String url = createUrl(keyword, pageNum);

			CrawlDatum datum = new CrawlDatum(url)

					.putMetaData("keyword", keyword)

					.putMetaData("pageNum", pageNum + "")

					.putMetaData("pageType", "searchEngine")

					.putMetaData("depth", "1");

			addSeed(datum);

		}

	}

	@Override

	public void visit(Page page, CrawlDatums next) {

		String keyword = page.getMetaData("keyword");

		String pageType = page.getMetaData("pageType");

		int depth = Integer.valueOf(page.getMetaData("depth"));

		if (pageType.equals("searchEngine")) {

			int pageNum = Integer.valueOf(page.getMetaData("pageNum"));

			System.out.println("成功抓取关键词" + keyword + "的第" + pageNum + "页搜索结果");

			// || div[class=result-op c-container xpath-log ]>h3>a

			Elements results = page.select("div[class=result c-container ]>h3>a");

		//	Elements results1 = page.select("div[class=result-op c-container xpath-log]>h3>a");//,div[id=result-op c-container xpath-log]>h3>a

			//System.out.println(results1.get(0));

			//results.add(results1.get(0));

			for (int rank = 0; rank < results.size(); rank++) {

				Element result = results.get(rank);

				/*

				 * 我们希望继续爬取每条搜索结果指向的网页，这里统称为外链。

* 我们希望在訪问外链时仍然能够知道外链处于搜索引擎的第几页、第几条，

				 * 所以将页号和排序信息放入兴许的CrawlDatum中，为了能够区分外链和

				 * 搜索引擎结果页面，我们将其pageType设置为outlink，这里的值全然由 用户定义。能够设置一个随意的值

				 * 在经典爬虫中，每一个网页都有一个refer信息。表示当前网页的链接来源。

* 比如我们首先訪问新浪首页。然后从新浪首页中解析出了新的新闻链接，

				 * 则这些网页的refer值都是新浪首页。WebCollector不直接保存refer值，

				 * 但我们能够通过以下的方式，将refer信息保存在metaData中。达到相同的效果。

				 * 经典爬虫中锚文本的存储也能够通过以下方式实现。

* 在一些需求中。希望得到当前页面在遍历树中的深度。利用metaData非常easy实现

				 * 这个功能，在将CrawlDatum加入到next中时，将其depth设置为当前訪问页面 的depth+1就可以。

*/

				CrawlDatum datum = new CrawlDatum(result.attr("abs:href"))

						.putMetaData("keyword", keyword)

						.putMetaData("pageNum", pageNum + "")

						.putMetaData("rank", rank + "")

						.putMetaData("pageType", "outlink")

						.putMetaData("depth", (depth + 1) + "")

						.putMetaData("refer", page.getUrl());

				next.add(datum);

			}

		} else if (pageType.equals("outlink")) {

			/*int pageNum = Integer.valueOf(page.getMetaData("pageNum"));

			int rank = Integer.valueOf(page.getMetaData("rank"));

			String refer = page.getMetaData("refer");*/

			try {

				String content = ContentExtractor.getContentByUrl(page.getUrl());

				/*String line = String.format(

						"第%s页第%s个结果:标题:%s(%s字节)\tdepth=%s\trefer=%s", pageNum,

						rank + 1, page.getDoc().title(), content,

						depth, refer);*/

				String line = String.format("标题：%s\n来源：%s\n正文：%s", page.getDoc().title(),page.getUrl(),content);

				HashMap<String, String> data = new HashMap<String,String>();

				Date currentDate = new java.util.Date();

				SimpleDateFormat myFmt = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");

				TimeZone timeZoneChina = TimeZone.getTimeZone("Asia/Shanghai");// 获取中国的时区

				myFmt.setTimeZone(timeZoneChina);// 设置系统时区

				String grabTime = myFmt.format(currentDate);// new Date()为获取当前系统时间

				data.put("title", page.getDoc().title());

				data.put("from", page.getUrl());

				data.put("content", content);

				data.put("grabTime", grabTime);

				//String line = String.format("标题：%s\n", page.getDoc().title());

				//持久化到word文档中

				//是否为线程安全？？？

				//synchronized(this) {

					String destFile = "D:\\"+"Result"+keyword+".doc";

					result.append(line);

					//将result写到doc文件里

					write2File(destFile,result.toString());

					//加入到数据库中

					addResultData(data);

				//}

				System.out.println(line);

			} catch (Exception e) {

				//e.printStackTrace();

				System.out.println("链接"+page.getUrl()+"失效");

			}

		}

	}

       //将数据保存到mysql数据库中

	private void addResultData(HashMap<String, String> data) {

		String title = data.get("title");

		String source_url = data.get("from");

		String content = data.get("content").replaceAll("\\?{2,}", "");//去掉字符串中出现的多个连续问号。

//抓取时间

		String grabTime = data.get("grabTime");

		/*SimpleDateFormat format = new SimpleDateFormat("yyyy年MM月dd日 HH:mm:ss");

		Date date = null;

		try {

			date = format.parse(grabTime);

		} catch (Exception e) {

			e.printStackTrace();

		}*/

		//System.out.println("抓取时间"+grabTime);

		try {

			connection = DriverManager.getConnection(url, username,	password);

			String sql = "INSERT INTO wjd_keyword_search_table(TITLE,GRAP_TIME,CONTENT,SOURCE_URL) VALUES(?,?,?

,?

)";

			String checkSql = "select 1 from wjd_keyword_search_table where TITLE='" + title + "'";

			Statement statement = connection.prepareStatement(checkSql);

			ResultSet result = statement.executeQuery(checkSql);

			if (!result.next()) {

				// 假设数据库中不存在该记录，则加入到数据库中

				pstatement = connection.prepareStatement(sql);

				pstatement.setString(1, title);

				//pstatement.setString(2, date);

				pstatement.setString(2,grabTime);

				pstatement.setString(3, content);

				pstatement.setString(4, source_url);

				pstatement.executeUpdate();

			}

		} catch (SQLException e) {

			e.printStackTrace();

		}

	}

	/**

	 * 将数据持久化到本地doc文件里

	 * @param destFile

	 * @param line

	 */

	private void write2File(String destFile, String line) {

		try {

            //doc content

            ByteArrayInputStream bais = new ByteArrayInputStream(line.getBytes());

            POIFSFileSystem fs = new POIFSFileSystem();

            DirectoryEntry directory = fs.getRoot();

            directory.createDocument("WordDocument", bais);

            FileOutputStream ostream = new FileOutputStream(destFile);

            fs.writeFilesystem(ostream);

            bais.close();

            ostream.close();

        } catch (IOException e) {

            e.printStackTrace();

        }

	}

	public static void main(String[] args) throws Exception {

		String[] keywordsList = {"网络爬虫","搜索引擎"};

		int pageToal =5;

		for (String keyword : keywordsList) {

			BdiduKeywordCrawler crawler = new BdiduKeywordCrawler(keyword, pageToal);

			crawler.start();

		}

	}

	/**

	 * 依据关键词和页号拼接百度搜索相应的URL

	 */

	public static String createUrl(String keyword, int pageNum)

			throws Exception {

		int first = (pageNum-1) * 10;

		keyword = URLEncoder.encode(keyword, "utf-8");

		return String.format("https://www.baidu.com/s?

wd=%s&pn=%s",

				keyword, first);

	}

}

WebCollector爬取百度搜索引擎样例的更多相关文章

用WebCollector爬取新浪微博数据
教程已转移:http://datahref.com/archives/28 WebCollector爬取新浪微博等完整演示样例project可加群250108697或345054141从群文件里下载. ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
用WebCollector爬取站点的图片
用WebCollector爬取整站图片,仅仅须要遍历整站页面.然后将URL为.jpg.gif的页面(文件)保存到本地就可以. 比如我们爬取一个美食站点,获取里面全部的图片: import cn.edu ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
Ajax数据的爬取（淘女郎为例）
mmtao Ajax数据的爬取(淘女郎为例) 如有疑问,转到 Wiki 淘女郎模特抓取教程网址:https://0x9.me/xrh6z 判断一个页面是不是 Ajax 加载的方法: 查看网页源代码, ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...

随机推荐

创建一个Spring的HelloWorld程序
Spring IOC IOC指的是控制反转,把对象的创建.初始化.销毁等工作都交给Spring容器.由spring容器来控制对象的生命周期.下图能够说明我们传统创建类的方式和使用Spring之后的差别 ...
js html 事件冒泡
<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content ...
学习bootstrap
菜鸟教程 bootstrap开发框架伍华聪 Bootstrap——一款超好用的前端框架
MDNS的漏洞报告——mdns的最大问题是允许广域网的mdns单播查询，这会暴露设备信息，或者被利用用于dns放大攻击
Vulnerability Note VU#550620 Multicast DNS (mDNS) implementations may respond to unicast queries ori ...
福建省赛-- Common Tangents(数学几何)
Problem B Common Tangents Accept: 191 Submit: 608 Time Limit: 1000 mSec Memory Limit : 32768 K ...
86.express里面的app.configure作用
以下摘自 express 3.0 的文档 app.configure([env], callback) Conditionally invoke callback when env matches ...
jsp输出金字塔
<% String str = ""; for(int i = 1; i <= 5; i++){ for(int j = 1; j <= 5-i; j++){ s ...
安装vue时使用npm install 报错
npm ERR! Darwin 14.3.0 npm ERR! argv "/usr/local/Cellar/node/6.4.0/bin/node" "/usr/lo ...
UVa 202 Repeating Decimals【模拟】
题意:输入整数a和b,输出a/b的循环小数以及循环节的长度学习的这一篇 http://blog.csdn.net/mobius_strip/article/details/39870555 因为n% ...
文本域内容在div中带换行显示
function ReplaceSeperator(mobiles) { var i; var result = ""; var c; for (i = 0; i < mob ...

WebCollector爬取百度搜索引擎样例

WebCollector爬取百度搜索引擎样例的更多相关文章

随机推荐

热门专题