java开发爬虫Deno

java开发爬虫Deno

　　　　身为一个程序员不会两三手爬虫怎么能在行业里立足啊，这是开发中自己写的一个java爬虫的Demo，供大家参考。

　　　　java爬虫的开发依赖于jsoup.jar

　　　　直接上代码

public static void main(String[] args) {

		HttpClient client = new DefaultHttpClient();

		HttpGet httpGet = new HttpGet();

		Map map = new HashMap();

		try {

			//百度百科999感冒灵连接

			String url = "http://baike.baidu.com/link?url=c95Y4QJym_d_wFKGmcibRTI_KIyj-X_tOjnlOGJS9qekgO1tmWaWnrn7QyAjqvZX8At7LbI1XIa69IBZWejiCXDVM0jkSBMnVZKKu4jeg-ef4TJkKCXEXWcGJ8DRGTuHxW4qWB3pNNU7Y0KdrbNvGK";

			// get请求获取页面信息

			String bb = doget(url);

			Document doc;

			//用jsoup接收页面信息

			doc = Jsoup.parse(bb);

			// 选择所有div的class为para的标签

			Elements news = doc.select("div[class=para]");

			for (Element result : news) {

				//获取标签的内容并打印

				String str=result.text();

				System.out.println(str);

			}

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

	public static String doget(String path) {

		InputStream is = null;

		ByteArrayOutputStream baos = null;

		try {

			// 伪造referer 绕过防盗链设置

			URL url = new URL(path.trim());

			HttpURLConnection conn = (HttpURLConnection) url.openConnection();

			if (200 == conn.getResponseCode()) {

				byte[] buff = new byte[4096];

				int count;

				ByteArrayOutputStream out = new ByteArrayOutputStream(4096);

				InputStream in = conn.getInputStream();

				while ((count = in.read(buff)) != -1) {

					out.write(buff, 0, count);

				}

				conn.disconnect();

				return out.toString("UTF-8");

			}

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			if (baos != null) {

				try {

					baos.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

			if (is != null) {

				try {

					is.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

		return null;

	}

转载注明引用

java开发爬虫Deno的更多相关文章

Java开发搜索引擎爬虫
package com.peidon.html; import java.io.BufferedReader; import java.io.File; import java.io.FileOutp ...
Java开发、网络爬虫、自然语言处理、数据挖掘简介
一.java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好. (2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系 ...
开源的49款Java 网络爬虫软件
参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting, ...
【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
阿里巴巴Java开发规范手册
Java开发手册版本号制定团队更新日期备注 1.0.0 阿里巴巴集团技术部 2016.12.7 首次向Java业界公开一.编程规约 (一) 命名规约 1. [强制]所有编程相关命 ...
Java简单爬虫(一)
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
阿里巴巴 JAVA 开发手册
阿里巴巴 JAVA 开发手册 1.0.0 阿里巴巴集团技术部 2016.12.7 首次向 Java 业界公开一. 编程规约(一) 命名规约1. [强制]所有编程相关命名均不能以下划线或美元符号开始, ...
java网络爬虫爬虫小栗子
简要介绍: 使用java开发的爬虫小栗子,存储到由zookeeper协调的hbase中主要过程是模拟Post请求和get请求,html解析,hbase存储源码:https://github.com ...
基于java开发的在线题库系统tamguo
简介探果网(简称tamguo)是基于java开发的在线题库系统,包括在线访问后台运营会员中心书籍中心管理员账号:system 密码:123456 因为线上数据和测试数据没有做到隔离,作者已 ...

随机推荐

Java 利用递归删除文件以及文件夹
直接上代码: /** * 递归删除文件/文件夹 * * @param file */ public static void deleteFile(File file) { System.out.pr ...
基于HTTPS的中间人攻击-BaseProxy
前言在上一篇文章BaseProxy:异步http/https代理中,我介绍了自己的开源项目BaseProxy,这个项目的初衷其实是为了渗透测试,抓包改包.在知识星球中,有很多朋友问我这个项目的原理及 ...
Jq_SetTimeOut
倒计时 59 秒: var t function timedCount() { document.getElementById('txt').value=c ){ c--; }else{ clearT ...
linux chroot 命令
chroot,即 change root directory (更改 root 目录).在 linux 系统中,系统默认的目录结构都是以 /,即以根 (root) 开始的.而在使用 chroot 之后 ...
tcp ,http .udp
三次握手,四次挥手要知道,记住. 计算机协议常见面试题,学会了,记住.会运用.
Notepad++常用插件
Notepad++常用插件 1.CCompletion 进行文本的方法查找的工具. 会点击Ccompletion中的CCompletion菜单,就会出现菜单选择框 2.Compare 进行文本比较的工 ...
java 软件开发面试宝典
一. Java 基础部分........................................................................................ ...
C语言 -- 字符串详解
字符串是一种非常重要的数据类型,但是C语言不存在显式的字符串类型,C语言中的字符串都以字符串常量的形式出现或存储在字符数组中.同时,C 语言提供了一系列库函数来对操作字符串,这些库函数都包含在头文件 ...
【zigbee 】2.4G信号发放器 AT2401C PA功放
概述 AT2401C 是一款面向Zigbee,无线传感网络以及其他2.4GHz 频段无线系统的全集成射频功能的射频前端单芯片.AT2401C 是采用 CMOS 工艺实现的单芯片器件,其内部集成了功率 ...
20135220谈愈敏Blog5_系统调用（下）
系统调用(下) 谈愈敏原创作品转载请注明出处 <Linux内核分析>MOOC课程 http://mooc.study.163.com/course/USTC-1000029000 给Me ...

java开发爬虫Deno

java开发爬虫Deno的更多相关文章

随机推荐

热门专题