jsoup获取文档类示例
import java.io.IOException; import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements; public class WyCrawler {
public static void main(String[] args) {
try {
Document document = Jsoup.connect("http://某网页").timeout(3000).get();
String selector = "li>div[class=titleBar clearfix]>h3>a";
Elements elements = document.select(selector);
for(Element element:elements){
// System.out.println(element.text());
String url = element.absUrl("href");
Document document2 = Jsoup.connect(url).get();
Elements elements2 = document2.select("#endText");
for(Element element2:elements2){
System.out.println(element2.text());
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
上面是如何爬取超链接里的内容,下面的比较简单
import java.io.IOException; import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements; public class Test {
public static void main(String[] args) {
try {
Document document = Jsoup.connect("http://www.某网页.com/").get();
//获取内容
// String selector = "div[class=panel panel20 post-item post-box]>div[class=item-detail]>div[class=item-content]";
// Elements elements = document.select(selector);
// for(Element element:elements){
// System.out.println(element.text());
// } //获取标题
// String selector2 = "div[class=panel panel20 post-item post-box]>div[class=item-detail]>h2[class=item-title]";
// Elements elements = document.select(selector2);
// for(Element element:elements){
// System.out.println(element.text());
// } //综合写法,标题内容一起获取
String selector = "div[class=panel panel20 post-item post-box]>div[class=item-detail]";
Elements elements = document.select(selector);
for(Element element:elements){
Elements titles = element.select("div[class=item-title]");
Elements content = element.select("h2[class=item-content]");
System.out.println(titles.text()+"\n"+content.text());
} } catch (IOException e) {
e.printStackTrace();
}
}
}
jsoup获取文档类示例的更多相关文章
- VS2010 MFC中 在FormView派生类里获取文档类指针的方法
		
经过苦苦调试,今晚终于解决了一个大问题. 我想要实现的是:在一个FormView的派生类里获取到文档类的指针. 但是出现问题:试了很多办法,始终无法获取到. 终于,此问题在我不懈地调试加尝试下解决了. ...
 - Java解析word,获取文档中图片位置
		
前言(背景介绍): Apache POI是Apache基金会下一个开源的项目,用来处理office系列的文档,能够创建和解析word.excel.ppt格式的文档. 其中对word文档的处理有两个技术 ...
 - 如何通过AS3加载外部SWF文件,调用外部文件文档类的方法?
		
一个Flash中通过AS3代码的Loader对象加载另一个SWF文件,并访问其中的文档类中的方法. 简单示例: 主文件:Main.fla, Main.as 被调用的文件:called.swf, Cal ...
 - MFC框架类、文档类、视图类相互访问的方法
		
1.获取应用程序指针 CMyApp* pApp=(CMyApp*)AfxGetApp(); 2.获取主框架指针 CWinApp 中的公有成员变量 m_pMainWnd 就是主框架的指针 CMainFr ...
 - day049--jQuery文档操作示例
		
DOM操作(CRUD增改查删) 创建元素 $('span') // 创建一个span标签 后置插入操作 append(), appendTo() <!DOCTYPE html> < ...
 - C++MFC编程笔记day05 文档类-单文档和多文档应用程序
		
文档类 1 相关类 CDocument类-父类是CCmdTarget类,所以,文档类也能够处理菜单等 命令消息. 作用保存和管理数据. 注意事项:怎样解决断言错 ...
 - SharePoint 2013 通过审计获取文档下载次数
		
1.创建一个文档库,进入库设置,找到”Information management policy settings”,点进去,如下图: 2.分别设置”Document”.”Folder”两个,如下图: ...
 - jquery获取文档高度和窗口高度的例子
		
jquery获取文档高度和窗口高度,$(document).height().$(window).height() $(document).height():整个网页的文档高度 $(window).h ...
 - jsoup -- xml文档解析
		
jsoup -- xml文档解析 修改 https://jsoup.org/cookbook/modifying-data/set-attributes https://jsoup.org/cookb ...
 
随机推荐
- Ubuntu安装SSH服务器故障分析及解决办法(错误1:E:软件包 openssh-server 还没有可供安装的候选者,错误2:E: 无法修正错误,因为您要求某些软件包保持现状,就是它们破坏了软件包间的依赖关系)
			
• 微博: 小样儿老师2015 Windows下做Linux开发需要SSH强大功能的支持.安装SSH的过程会出现了很多问题,看完这篇文章可以让你少走些弯路,PS:折腾一下午的成果. Ubuntu ...
 - 【CQOI2011】动态逆序对 BZOJ3295
			
Description 对于序列A,它的逆序对数定义为满足i<j,且Ai>Aj的数对(i,j)的个数.给1到n的一个排列,按照某种顺序依次删除m个元素,你的任务是在每次删除一个元素之前统计 ...
 - Django  (2)
			
一.Django基本 程序编写 a. url.py /index/ -> func b. views.py def func(request): # 包含所有 ...
 - c++拷贝构造和编译优化
			
#include <iostream> using namespace std; class MyClass { public: MyClass(); MyClass(int i); My ...
 - log4j使用总结
			
1.不同包的日志,记录到不同文件 log4j.logger.com.gyoung.service.impl=INFO,Doc log4j.appender.Doc=com.gyoung.logger. ...
 - nodeJS(express4.x)+vue(vue-cli)构建前后端分离详细教程(带跨域)
			
好想再回到大学宿舍,当时床虽小,房随小,但是心确是满的 ----致 西安工程大学a-114舍友们 转载请注明出处:水车:http://www.cnblogs.com/xuange306/p/6185 ...
 - 3ds max 渲染模型
			
有的模型因为法线方向问题,渲染的时候有的面缺失,只需要强制双面,如下图,就能把所有的面都渲染出来.
 - android面试宝典
			
一.listview的优化: 首先要知道getview实际就是个for循环. 我们重写的getview方法中本身有一个convertview,因为只需要保留能够显示的最大个数的view即可,所以: 第 ...
 - python笔记:windows 下安装 python lxml
			
原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...
 - OC推箱子
			
#include<stdio.h> #include<stdlib.h> int main(void) { char sr;//存储用户输入的指令 //绘制地图 char a[ ...