java爬虫查找四川大学所有学院的网站的网址中的通知和新闻——以计算机学院为例
- 需求:查找四川大学所有学院的网站的网址中的通知和新闻——以计算机学院为例
- 流程图

3. 具体步骤
(1) 学院的主页为:http://cs.scu.edu.cn/ 获取该页面的所有内容(本文只获取新闻的具体内容,通知的只需要更改下正则表达式)

/**
* 获取要抓取页面的所有内容
* @param url 网页地址
* @return
*/
public static String sendGet(String url) { BufferedReader in = null;
String result = "";
// 通过HttpClientBuilder创建HttpClient
HttpClientBuilder httpClientBuilder = HttpClientBuilder.create();
CloseableHttpClient client = httpClientBuilder.build(); HttpGet httpGet = new HttpGet(url);
// 设置请求和传输超时时间
RequestConfig requestConfig = RequestConfig.custom()
.setConnectTimeout(5000).build();
httpGet.setConfig(requestConfig); System.out.println(httpGet.getRequestLine()); try {
HttpResponse httpResponse = client.execute(httpGet); int statusCode = httpResponse.getStatusLine().getStatusCode(); // 响应状态
System.out.println("status:" + statusCode);
if (statusCode == HttpStatus.SC_OK) {
// 获取响应的消息实体
HttpEntity entity = httpResponse.getEntity(); // 判断实体是否为空
if (entity != null) {
System.out.println("contentEncoding:"
+ entity.getContentLength()); in = new BufferedReader(new InputStreamReader(
entity.getContent(), "GBK")); String line;
while ((line = in.readLine()) != null) {
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
}
}
} catch (Exception e) { e.printStackTrace();
} finally {
try {
client.close();
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
(2) 使用正则表达式提取通知页面和新闻页面的地址
指向新闻页的地址源码为:<MAP name=Map3><AREA shape=RECT target=_blank coords=498,27,539,37 href="/cs/xyxw/H9501index_1.htm">
所以正则表达式为:coords=498,27,539,37 href=\"(.+?)\">
指向通知页的地址源码为:<MAP name=Map6><AREA shape=RECT target=_blank coords=498,11,538,23 href="/cs/xytz/H9502index_1.htm"></MAP>
所以正则表达式可以为:coords=498,11,538,23 href=\"(.+?)\">
/**
* 查找主页中的新闻和通知的URL
* @param context 主页内容
* @param type 查找类型
* @return
*/
public static String getURL(String context, int type) { Pattern pattern;
Matcher matcher; if (type == 0) {// 当type=0时,查找新闻
// 创建Pattern对象
pattern = Pattern.compile("coords=498,27,539,37 href=\"(.+?)\">");
// 创建Matcher对象,并匹配
matcher = pattern.matcher(context); if (matcher.find()) {// 查看是否找到,找到返回
return "http://cs.scu.edu.cn" + matcher.group(1);
}
} else if (type == 1) {// 当type=1时,查找通知
pattern = Pattern.compile("coords=498,11,538,23 href=\"(.+?)\">");
matcher = pattern.matcher(context);
if (matcher.find()) {
return "http://cs.scu.edu.cn" + matcher.group(1);
}
} else {
return "输入的type不正确";
}
return null;
}
得到新闻和通知地址:
a) 新闻页面地址为 http://cs.scu.edu.cn/cs/xyxw/H9501index_1.htm

b) 通知页面地址为 http://cs.scu.edu.cn/cs/xytz/H9502index_1.htm

(3)获取所有新闻的URL:(以新闻为例)
新闻的具体内容的地址在源码中的表示:
<A href=/cs/xyxw/webinfo/2016/06/1466645005004306.htm target=_blank>计算机学院(软件学院)第三届第六次双代会圆满举行</A></TD></TD><TD><DIV align=right><FONT size=2>[2016-06-30]
所以正则匹配表达式为:<A href=/cs/xyxw/webinfo(.+?) target=_blank>
/**
* 查询具体新闻所在页面的所有URL
* @param url
* @return
*/
public static List<String> getRealURL(String url) { // 存储URL地址
List<String> list = new ArrayList<>();
// 获取的主页内容
String context = sendGet(url);
System.out.println(context);
// 匹配新闻地址的正则表达式
Pattern pattern = Pattern
.compile("<A href=/cs/xyxw/webinfo(.+?) target=_blank>");
Matcher matcher = pattern.matcher(context); // 匹配url中的数字2(2表示页数,可以通过观察地址得出) :
// http://cs.scu.edu.cn/cs/xyxw/H9501index_2.htm
// http://cs.scu.edu.cn/cs/xyxw/H9501index_3.htm
Pattern patternNext = Pattern.compile("index_(.+?).htm");
Matcher matcherNext = patternNext.matcher(url); int i = 0;
if (matcherNext.find()) {
System.out.println(matcherNext.group(1));
// 设置i为当前页数
i = Integer.parseInt(matcherNext.group(1));
} boolean isFind = matcher.find(); while (isFind) {
while (isFind) {// 遍历当前页的所有新闻的URL
// 将获取的URL存储到list中
list.add("http://cs.scu.edu.cn/cs/xyxw/webinfo"
+ matcher.group(1));
isFind = matcher.find();
} i++;
// 下一页地址
String nextUrl = "http://cs.scu.edu.cn/cs/xyxw/H9501index_" + i + ".htm";
context = sendGet(nextUrl);
// 匹配新页面
matcher = pattern.matcher(context);
isFind = matcher.find();
}
return list;
}
得到结果:

(4)获取具体新闻页的信息:
a)使用封装类:
package com.huang.domain;
import java.util.Date;
public class Message {
private String type; //类型是新闻还是通知
private String title; //信息标题
private Date date; //信息发布时间
private String pic; //相关图片
private String context; //具体信息内容
public String getPic() {
return pic;
}
public void setPic(String pic) {
this.pic = pic;
}
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public String getContext() {
return context;
}
public void setContext(String context) {
this.context = context;
}
public Date getDate() {
return date;
}
public void setDate(Date date) {
this.date = date;
}
public String getType() {
return type;
}
public void setType(String type) {
this.type = type;
}
@Override
public String toString() {
return "Message [title=" + title + ", date=" + date + ", pic=" + pic
+ ", context=" + context + "]";
}
}
(b)获取新闻具体页的信息:

/**
* 获取所有新闻页和通知页具体信息
* @param listUrl
* @return
*/
public static List<Message> getAllInformation(List<String> listUrl) { Pattern pattern;
Matcher matcher;
// 存储查到的每条新闻
List<Message> list = new ArrayList<>(); // 根据前面获取的所有页面的url,遍历所有的信息主页,获取相关信息
for (String url : listUrl) { Message message = new Message();
// 获取当页信息的全部信息
String context = sendGet(url);
// 获取标题
pattern = Pattern.compile("<DIV align=center> (.+?)</DIV>");
matcher = pattern.matcher(context);
if (matcher.find()) {// 设置标题
message.setTitle(matcher.group(1));
}
// 获取日期
pattern = Pattern.compile("</SPAN> ([0-9].+?)<SPAN class=hangjc "
+ "style=\"LINE-HEIGHT: 30px\" valign=\"bottom\">");
matcher = pattern.matcher(context);
if (matcher.find()) {// 设置日期
SimpleDateFormat format = new SimpleDateFormat(
"yyyy-MM-dd HH:mm");//设置日期格式
try {
//将字符串转换成date类型
Date date = format.parse(matcher.group(1));
message.setDate(date);
} catch (ParseException e) {
System.out.println("日期格式不正确");
e.printStackTrace();
}
}
//获取图片
pattern = Pattern.compile("align=center src=\"(.+?).jpg\"");
matcher = pattern.matcher(context);
if (matcher.find()) {//设置图片
message.setPic("http://cs.scu.edu.cn/" + matcher.group(1)
+ ".jpg");
}
//获取内容
pattern = Pattern.compile("<DIV id=BodyLabel>.+?</DIV>");
matcher = pattern.matcher(context);
if (matcher.find()) {//设置内容
String result = matcher.group(0);
//过滤一些内容中的标签
result = result.replaceAll(" ", " ");
result = result.replaceAll("<br>", "\r\n");
result = result.replaceAll("<.*?>", "");
message.setContext(result);
}
//将查询到的新闻添加到list中
list.add(message);
}
return list;
}
(5)测试代码:
public static void main(String[] args) {
//获取计算机学院主页中的所有信息
String context = Spider.sendGet("http://cs.scu.edu.cn/");
System.out.println(context);
//获取新闻所在页的地址
String newsUrl = Spider.getURL(context, 0);
//查找每个新闻的地址
List<String> listUrl = Spider.getRealURL(newsUrl);
System.out.println(listUrl);
//查到出每个新闻的内容
List<Message> messages = Spider.getAllInformation(listUrl);
System.out.println(messages);
}
(java正则知识可以参考:http://www.runoob.com/java/java-regular-expressions.html)
java爬虫查找四川大学所有学院的网站的网址中的通知和新闻——以计算机学院为例的更多相关文章
- java爬虫爬取https协议的网站时,SSL报错, java.lang.IllegalArgumentException TSLv1.2 报错
目前在广州一家小公司实习,这里的学习环境还是挺好的,今天公司从业十几年的大佬让我检查一下几年前的爬虫程序是否还能使用…… 我从myeclipse上check out了大佬的程序,放到workspace ...
- 转:【Java并发编程】之十一:线程间通信中notify通知的遗漏(含代码)
转载请注明出处:http://blog.csdn.net/ns_code/article/details/17228213 notify通知的遗漏很容易理解,即threadA还没开始wait的时候,t ...
- 【Java并发编程】之十一:线程间通信中notify通知的遗漏
notify通知的遗漏很容易理解,即threadA还没开始wait的时候,threadB已经notify了,这样,threadB通知是没有任何响应的,当threadB退出synchronized代码块 ...
- Java爬虫系列二:使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
- Java 爬虫遇到需要登录的网站,该怎么办?
这是 Java 网络爬虫系列博文的第二篇,在上一篇 Java 网络爬虫,就是这么的简单 中,我们简单的学习了一下如何利用 Java 进行网络爬虫.在这一篇中我们将简单的聊一聊在网络爬虫时,遇到需要登录 ...
- Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
- (java)selenium webdriver爬虫学习--爬取阿里指数网站的每个分类的top50 相关数据;
主题:java 爬虫--爬取'阿里指数'网站的每个分类的top50 相关数据: 网站网址为:http://index.1688.com/alizs/top.htm?curType=offer& ...
- webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
- 爬虫6:多页面增量Java爬虫-sina主页
之前写过很多单页面python爬虫,感觉python还是很好用的,这里用java总结一个多页面的爬虫,迭代爬取种子页面的所有链接的页面,全部保存在tmp路径下. 1 序言 实现这个爬虫需要两个数据结构 ...
随机推荐
- Spring EL中的类操作符
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns:xsi="http://ww ...
- C++中的Traits技法
Traits广泛应用于标准程序库.Traits classes使得"类型相关信息"在编译期可用. 认真读完下面的示例,你应该就懂了Traits技法,其实并不难. #include ...
- iOS 图片压缩方法
iOS 图片压缩方法 两种图片压缩方法 两种压缩图片的方法:压缩图片质量(Quality),压缩图片尺寸(Size). 压缩图片质量 NSData *data = UIImageJPEGReprese ...
- 【开源.NET】 分享一个前后端分离的轻量级内容管理框架
开发框架要考虑的面太多了:安全.稳定.性能.效率.扩展.整洁,还要经得起实践的考验,从零开发一个可用的框架,是很耗时费神的工作.网上很多开源的框架,为何还要自己开发?我是基于以下两点: 没找到合适的: ...
- ArcGIS 网络分析[1] 介绍与博文目录【更新中】
网络分析是个热点,理论上是属于计算机图形学和数据结构的,GIS以此为基础做出应用. 以下列举本人在学习中遇到的网络分析问题与经验总结. 平台:Windows 10操作系统,ArcGIS for Des ...
- 第七届蓝桥杯javaB组真题解析-生日蜡烛(第二题)
题目 /* 生日蜡烛 某君从某年开始每年都举办一次生日party,并且每次都要吹熄与年龄相同根数的蜡烛. 现在算起来,他一共吹熄了236根蜡烛. 请问,他从多少岁开始过生日party的? 请填写他开始 ...
- Python学习--16 正则表达式
正则表达式是一种描述性的语言,用来匹配字符串.凡是符合规则的字符串,我们认为就是匹配了. 正则表达式并非Python独有的,它与语言无关.很多语言都支持正则表达式. 我们经常用正则表达式来匹配电子邮件 ...
- (@WhiteTaken)设计模式学习——工厂方法模式
这个工厂方法模式,是简单工厂的延伸,不同点在于,将某个具体的类继续细分,将核心部分抽象成一个接口.而简单工厂,把核心写在了一个类上,不利于拓展. 举个例子,简单工厂中有苹果类,香蕉类,我们创建了一个F ...
- Spring实战——Profile
看到Profile这个关键字,或许你从来没有正眼瞧过他,又或者脑海中有些模糊的印象,比如除了这里Springmvc中的Profile,maven中也有Profile的标签. 从字面意思来看,Profi ...
- UIApplication 和 Appdelegate-----iOS
正文 一 UIApplication 1.一个UIApplication代表是一个应用程序,而且是单例的.一个程序也只能有一个UIApplication对象 2.获取UIApplication对象: ...