Java使用Jsoup获得新闻联播所有文字稿
Jsoup的maven坐标:
		<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
		<dependency>
		    <groupId>org.jsoup</groupId>
		    <artifactId>jsoup</artifactId>
		    <version>1.11.3</version>
		</dependency>
Java代码:
package com.zifeiy.test;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.ArrayList;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class XinwenGetter {
	private static List<String> urlList = new ArrayList<String>();
	private static OutputStreamWriter out;
	private static void getUrlList() throws IOException {
		for (int i = 1; i <= 44; i ++) {
			String url = null;
			if (i == 0) {
				url = "http://www.xwlbo.com/txt.html";
			} else {
				url = "http://www.xwlbo.com/txt_" + i + ".html";
			}
			Document doc = Jsoup.connect(url).get();
			Elements xwlistElements = doc.getElementsByClass("xwlist");
			Elements aElements = xwlistElements.get(0).select("a");
			for (Element element : aElements) {
				String resUrl = element.attr("href");
				urlList.add(resUrl);
			}
		}
	}
	private static void solve(String url) throws IOException {
		Document doc = Jsoup.connect(url).get();
		System.out.println("handling " + doc.title() + " ...");
		out.write("<h3>" + doc.title() + "</h3>\r\n");
		Elements textElements = doc.getElementsByClass("text_content");
		Elements pElements = textElements.get(0).select("p");
		for (Element pElement : pElements) {
//			System.out.println(pElement);
			out.write(pElement.toString() + "\r\n");
		}
		out.write("<hr>\r\n");
	}
	public static void main(String[] args) throws IOException {
		getUrlList();
		File file = new File("D:/新闻联播大全.html");
		if (file.exists() == true) file.delete();
		out = new OutputStreamWriter(new FileOutputStream(file, true), "UTF-8");
		for (String url: urlList) {
			solve(url);
		}
        out.close();
	}
}
Java使用Jsoup获得新闻联播所有文字稿的更多相关文章
- CSDN Androidclient开展(两):基于如何详细解释Java使用Jsoup爬行动物HTML数据
		文章引用鸿扬大大的链接具体介绍怎样使用Jsoup包抓取HTML数据,是一个纯javaproject,并将其打包成jar包.希望了解怎样用java语言爬虫网页的能够看下. 杂家前文就又介绍用HTTP訪问 ... 
- java爬虫--jsoup简单的表单抓取案例
		分析需求: 某农产品网站的农产品价格抓取 网站链接:点击打开链接 页面展示如上: 标签展示如上: 分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据. ... 
- java 利用jsoup 爬取知乎首页问题
		今天学了下java的爬虫,首先要下载jsoup的包,然后导入,导入过程:首先右击工程:Build Path ->configure Build Path,再点击Add External JARS ... 
- Java错误:结束的字符文字
		编译器为NetBeans 在学习java的时候突然出现了以下错误 错误代码是: Gen <Integer ,String> a = new Gen <Integer, String& ... 
- 【图片识别】Java中使用tess4J进行图片文字识别(支持中文)(转)
		http://blog.csdn.net/wsk1103/article/details/54173282 java中识别文字比较简单,使用的软件是tesseractocr(使用的版本是3.02,3以 ... 
- Java使用Jsoup之爬取博客数据应用实例
		导入Maven依赖 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <g ... 
- (java)Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页
		Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出 职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 import java.io.I ... 
- (java)Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息
		Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息 此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取: import org.jsoup.Jsou ... 
- Java使用Jsoup简单解析页面
		jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出 ... 
随机推荐
- oracle+mybatis报错:BindingException("Invalid bound statement (not found): ")
			oracle+mybatis报错:BindingException("Invalid bound statement (not found): ") 从mysql转到oracle数 ... 
- js原型和原型链的问题
			<script> //js原型和原型链的概念 functionperson(name){ this.name=name; } person.prototype.age=18; person ... 
- pyy整队 线段树
			pyy整队 线段树 问题描述: 众所周知pyy当了班长,服务于民.一天体育课,趁体育老师还没来,pyy让班里n个同学先排好 队.老师不在,同学们开始玩起了手机.站在队伍前端玩手机,前面的人少了,谁都顶 ... 
- Processing中和值域相关的函数
			今天在群里有人问了个问题:请教下啊,群里能有高手讲讲norm(), lerp(), map()么,英文的实在是没看懂呀?鉴于很多人初学Processing都没弄明白这3个函数的用法,我这里简单介绍一下 ... 
- PHP chmod() 函数
			chmod() 函数改变文件模式. 如果成功则返回 TRUE,否则返回 FALSE. 例子 <?php // 所有者可读写,其他人没有任何权限 chmod(); // 所有者可读写,其他人可读 ... 
- 23种C#设计模式,源码在GitHub ( 具体代码 , 优缺点 , 相关网址) 希望对大家有所帮助
			点击 进入Github 地址 
- Tkinter 之记事本项目实战
			一.效果图 二.文件 链接:https://pan.baidu.com/s/1CUkfWpfH8t2GSJyy5hYv-A 提取码:5yvn 后续可能做一些功能扩展,有需要源码的可以评论联系我!!! 
- sass登陆页面实例
			sass登陆页面实例 一.总结 一句话总结: sass使用非常方便:使用就是将sass转化为css引入,并且动态监听让sass转化为css,可以很方便的所见即所得 1.sass安装? npm就可以按照 ... 
- 类别不平衡问题之SMOTE算法(Python imblearn极简实现)
			类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题 ... 
- git 代码版本回退
			1.查看 commit id 2.git reset --hard "dfdfdfdf" // commit id 3.git push -f -u origin 2.1.0 // ... 
