java开发爬虫Deno

java开发爬虫Deno

　　　　身为一个程序员不会两三手爬虫怎么能在行业里立足啊，这是开发中自己写的一个java爬虫的Demo，供大家参考。

　　　　java爬虫的开发依赖于jsoup.jar

　　　　直接上代码

public static void main(String[] args) {

		HttpClient client = new DefaultHttpClient();

		HttpGet httpGet = new HttpGet();

		Map map = new HashMap();

		try {

			//百度百科999感冒灵连接

			String url = "http://baike.baidu.com/link?url=c95Y4QJym_d_wFKGmcibRTI_KIyj-X_tOjnlOGJS9qekgO1tmWaWnrn7QyAjqvZX8At7LbI1XIa69IBZWejiCXDVM0jkSBMnVZKKu4jeg-ef4TJkKCXEXWcGJ8DRGTuHxW4qWB3pNNU7Y0KdrbNvGK";

			// get请求获取页面信息

			String bb = doget(url);

			Document doc;

			//用jsoup接收页面信息

			doc = Jsoup.parse(bb);

			// 选择所有div的class为para的标签

			Elements news = doc.select("div[class=para]");

			for (Element result : news) {

				//获取标签的内容并打印

				String str=result.text();

				System.out.println(str);

			}

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

	public static String doget(String path) {

		InputStream is = null;

		ByteArrayOutputStream baos = null;

		try {

			// 伪造referer 绕过防盗链设置

			URL url = new URL(path.trim());

			HttpURLConnection conn = (HttpURLConnection) url.openConnection();

			if (200 == conn.getResponseCode()) {

				byte[] buff = new byte[4096];

				int count;

				ByteArrayOutputStream out = new ByteArrayOutputStream(4096);

				InputStream in = conn.getInputStream();

				while ((count = in.read(buff)) != -1) {

					out.write(buff, 0, count);

				}

				conn.disconnect();

				return out.toString("UTF-8");

			}

		} catch (Exception e) {

			e.printStackTrace();

		} finally {

			if (baos != null) {

				try {

					baos.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

			if (is != null) {

				try {

					is.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

		return null;

	}

转载注明引用

java开发爬虫Deno的更多相关文章

Java开发搜索引擎爬虫
package com.peidon.html; import java.io.BufferedReader; import java.io.File; import java.io.FileOutp ...
Java开发、网络爬虫、自然语言处理、数据挖掘简介
一.java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好. (2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系 ...
开源的49款Java 网络爬虫软件
参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting, ...
【转】44款Java 网络爬虫开源软件
原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页 ...
阿里巴巴Java开发规范手册
Java开发手册版本号制定团队更新日期备注 1.0.0 阿里巴巴集团技术部 2016.12.7 首次向Java业界公开一.编程规约 (一) 命名规约 1. [强制]所有编程相关命 ...
Java简单爬虫(一)
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
阿里巴巴 JAVA 开发手册
阿里巴巴 JAVA 开发手册 1.0.0 阿里巴巴集团技术部 2016.12.7 首次向 Java 业界公开一. 编程规约(一) 命名规约1. [强制]所有编程相关命名均不能以下划线或美元符号开始, ...
java网络爬虫爬虫小栗子
简要介绍: 使用java开发的爬虫小栗子,存储到由zookeeper协调的hbase中主要过程是模拟Post请求和get请求,html解析,hbase存储源码:https://github.com ...
基于java开发的在线题库系统tamguo
简介探果网(简称tamguo)是基于java开发的在线题库系统,包括在线访问后台运营会员中心书籍中心管理员账号:system 密码:123456 因为线上数据和测试数据没有做到隔离,作者已 ...

随机推荐

Exp1 逆向与bof基础
20155332<网络对抗>Exp1 逆向与bof基础 1.实验目的本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:main调用foo函数,foo函数会简 ...
[CF1019C]Sergey's problem[构造]
题意找出一个集合 \(Q\),使得其中的点两两之间没有连边,且集合中的点可以走不超过两步到达其他所有不在集合中的点.输出任意一组解. \(n\leq 10^6\) 分析考虑构造,先从 \(1\) ...
PowerBI开发第十二篇：钻取
钻取是指沿着层次结构(维度的层次)查看数据,钻取可以变换分析数据的粒度.钻取分为下钻(Drill-down)和上钻(Drill-up),上钻是沿着数据的维度结构向上聚合数据,在更大的粒度上查看数据的统 ...
一步一步来熟悉Akka.Net(一）
一步一步来熟悉Akka.Net(一) 标签(空格分隔): .netcore 分布式一.不利flag 好久没写过文章了,翻开前几年写的博客,看到有两个目标"代码生成器"和&qu ...
redis安装启动和数据操作
redis安装和启动 1.安装包下载地址 >> redis基本数据类型 string(字符串和数值) .list(列表/队列).hashmap(哈希表[键唯一]). set(集合[值唯一] ...
EF Core 新特性——Owned Entity Types
Owned Entity Types 首先owned entity type是EF Core 2.0的新特性. 至于什么是owned entity types,可以先把他理解为EF Core官方支持的 ...
Jmeter(十八)_Ubuntu部署jmeter与ant
Docker部署接口自动化持续集成环境第三步,容器化Jmeter与ant! 接上文:Docker_容器化jenkins 为了整合接口自动化的持续集成工具,我将jmeter与ant都部署在了Jenkin ...
Asp.Net_<asp:RadioButtonList
<asp:RadioButtonList runat="server" ID="RadioButtonList1" RepeatDirection ...
HTML 样式 (style) 实例
77.HTML 样式 (style) 实例HTML 的 style 属性style 属性的作用: 提供了一种改变所有 HTML 元素的样式的通用方法. 样式是 HTML 4 引入的,它是一种新的首选的 ...
树莓派3b安装Nginx和php7和百度语音合成模块
1.安装sox系统mp3音频播放模块(项目需要) sudo apt-get install lame sudo apt-get install sox sudo apt-get install lib ...

java开发爬虫Deno

java开发爬虫Deno的更多相关文章

随机推荐

热门专题