网络爬虫之JSOUP

JSOUP中文文档：http://www.open-open.com/jsoup/
推荐博客：http://www.cnblogs.com/jycboy/p/jsoupdoc.html

从一个URL加载一个Document

Document doc = Jsoup.connect("http://example.com")

  .data("query", "Java")

  .userAgent("Mozilla")

  .cookie("auth", "token")

  .timeout(3000)

  .post();

使用DOM方法来遍历一个文档

File input = new File("/tmp/input.html");

Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

    String linkHref = link.attr("href");

    String linkText = link.text();

}

查找元素

getElementById(String id)

getElementsByTag(String tag)

getElementsByClass(String className)

getElementsByAttribute(String key) (and related methods

元素数据

attr(String key)获取属性attr(String key, String value)设置属性

attributes()获取所有属性

id(), className() and classNames()

text()获取文本内容text(String value) 设置文本内容

html()获取元素内HTMLhtml(String value)设置元素内的HTML内容

使用选择器语法来查找元素

Elements links = doc.select("a[href]"); //带有href属性的a元素

Elements pngs = doc.select("img[src$=.png]");//扩展名为.png的图片

Element masthead = doc.select("div.masthead").first(); //class等于masthead的div标签

Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素

如何找到优酷网视频的URL的连接地址？
视频的下面有“ 分享 ”或 “站外引用 ”或是贴到博客或BBS ，如果有点下，然后复制FALSH地址，在空间里写日志，点插入flash选项，加入flash的地址就可以了。
代码示例:
功能：使用JSoup爬取连接地址

import java.io.IOException;

import java.io.UnsupportedEncodingException;

import java.net.URLEncoder;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class OnlineProductDownload {

	public void demo1() {

		// 从优酷下载包含视频结果的html

		Document doc = getHtmlByName("冷然之天秤");

		try {

			//选择第一个结果

			Element element = doc.select("div.s_inform").first();

			// 获取播放源，不是优酷本站的返回（优酷可能会跳转到其他网站，如：爱奇艺）

			Element playSource = element.select("div.pos_area span").first();

			if (playSource.text() != "优酷") {

				return;

			}

			//每个li一集（海贼王：第一集、第二集）

			Elements li_Elements = element.select("ul.clearfix li");

			for (Element li : li_Elements) {

				// 获取第几集

				Element span = li.getElementsByTag("span").first();

				String text = span.text();

				// 获取每集详情的url（并不是视频的真实url）

				Element a = li.getElementsByTag("a").first();

				String href = a.attr("href");

				// 根据href获取详情网页文本

				doc = getHtmlTextByUrl(href);

				//查找实际结果标签

				Element sourceLi = doc.select("ul.fn-share-code li").first();

				// 根据doc获取播放插件. 如：

				// <iframe src='http://player.youku.com/embed/XMzUwNjM1OTA0MA=='></iframe>

				Element input = sourceLi.getElementsByTag("input").first();

				String value = input.attr("value");

				System.out.println(text + value);

			}

			// http://v.youku.com/v_show/id_XMzUwNjM1OTA0MA==.html

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

	// 功能：使用优酷的搜库来搜索视频，并根据名称获取网页文本 如：海贼王

	public Document getHtmlByName(String name) {

		if (name.isEmpty() || name.length() <= 0) {

			return null;

		}

		// 拼接URL 优酷搜索形式：http://www.soku.com/search_video/q_海贼王

		String url = "http://www.soku.com/search_video/q_";

		try {

			//url编码：%E6%B5%B7%E8%B4%BC%E7%8E%8B=海贼王

			String encodeStr = URLEncoder.encode(name, "utf-8");

			url = url + encodeStr;

		} catch (UnsupportedEncodingException e1) {

			e1.printStackTrace();

		}

		// 通过url获取html

		try {

			Document doc = Jsoup.connect(url).get();

			return doc;

		} catch (IOException e) {

			e.printStackTrace();

		}

		return null;

	}

	// 根据url从网络获取网页文本

	public Document getHtmlTextByUrl(String url) {

		Document doc = null;

		try {

			//拼接成完整的路径

			String str = "http:";

			str = str + url;

			doc = Jsoup.connect(str).get();

		} catch (IOException e) {

			e.printStackTrace();

		}

		return doc;

	}

}

网络爬虫之JSOUP的更多相关文章

网络爬虫技术Jsoup——爬到一切你想要的（转）
转自:http://blog.csdn.net/ccg_201216323/article/details/53576654 本文由我的微信公众号(bruce常)原创首发, 并同步发表到csdn博客, ...
网络爬虫技术Jsoup
Jsoup介绍:Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址.HTML文本内容 Jsoup主要有以下功能: 1. 从一个URL,文件或字符串中解析HTML 2. 使用D ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
Atitit 网络爬虫与数据采集器的原理与实践attilax著 v2
Atitit 网络爬虫与数据采集器的原理与实践attilax著 v2 1. 数据采集1 1.1. http lib1 1.2. HTML Parsers,1 1.3. 第8章 web爬取199 1 2 ...
Java开发、网络爬虫、自然语言处理、数据挖掘简介
一.java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好. (2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系 ...
开源的49款Java 网络爬虫软件
参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting, ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
crawler4j：轻量级多线程网络爬虫实例
crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 下面实例结合jsoup(中文版API),javacvs 爬取自如租房网(http://sh ...

随机推荐

HY中考游记
回首三年荏苒,还是有许多忘不了,有始有终,最后以一篇游记来记录落幕吧 Day -inf 为了准备中考从机(颓)房回到学校了,停课这么久,也该好好备考了希望能回到以前的文化课水平QAQ Day -? ...
ArrayList，Vector ，LinkedList的存储性能和特性
ArrayList,Vector,LinkedList : 两者都采用数组元素方式存储数据,此数组元素数大于实际存储的数据(以便于增加和插入元素),允许直接按照序号索引元素,但是插入元素涉及数组元素移 ...
D. Print a 1337-string...
D. Print a 1337-string... 输出一个字符串里面包含n个子序列 1337 #include<bits/stdc++.h> using namespace std; ...
HTTPS协议详解(一)：HTTPS基础知识
HTTPS基础知识:HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议,是一个安全通信通道,它基于HTTP开发用于在客户计算机和服务器之间交换信息. ...
vue 自己写的一个日历
样式: //quanbu全部代码 <template> <div class="priceListContent clearfix"> <!-- 顶部 ...
Make jQuery throw error when it doesn't match an element
Make jQuery throw error when it doesn't match an element 解答1 You could make a plugin to use to ensur ...
Python 使用Qt进行开发（三）
下面我们实现日期时间框的添加,表示日期时间的文本框可以使用QtWidgets控件下的 QDateEdit() , QTimeEdit() , QDateTime() 三个方法实现. 1,使用QDate ...
在SOUI3.0中使用数值动画
上一篇介绍了插值动画,插值动画是直接作用于窗口对象的. 数值动画则可以作用于任何对象. SOUI内置了3种数值类型的动画,分别是SIntAnimator, SFloatAnimator, SColor ...
JavaScript函数、BOM
[函数的声明和调用] 1.>>>函数声明的格式:形参可以不用var声明使用function关键字声明: function 函数名 (参数1,参数2,......){ //函数体 r ...
hashMap与 hashTable , ArrayList与linkedList 的区别（详细）
ArrayList 采用的是数组形式来保存对象的,这种方式将对象放在连续的位置中,所以最大的缺点就是插入删除时非常麻烦LinkedList 采用的将对象存放在独立的空间中,而且在每个空间中还保存下一个 ...

网络爬虫之JSOUP

网络爬虫之JSOUP的更多相关文章

随机推荐

热门专题