java实现抓取某公司官网新闻

　　做项目时，并没有合作公司的获取新闻的接口，但是项目又急着上线，所以总监就让我来做一个简单的抓取，现将主要的工具类NewsUtil.java贴出来供大家参考。

NewsUtil.java

 package org.news.util;

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStream;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.net.URLConnection;

 import java.util.ArrayList;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 /**

  * 抓取新闻内容的辅助类

  * @author geenkDC

  * @time 2015-07-28 15:15:04

  */

 public class NewsUtil {

     /**

      * 通过提交的URL来抓取出新闻的链接

      * @param url

      * @return

      * @throws Exception

      */

     public static ArrayList<String> findUrlByUrl(String url) throws Exception

     {

         URL url0=new URL(url);

         ArrayList<String> urlList=new ArrayList<String>();

         URLConnection con;

         BufferedReader br=null;

         try {

             con = url0.openConnection();

             InputStream in=con.getInputStream();

             br=new BufferedReader(new InputStreamReader(in));

             String str="";

             while((str=br.readLine())!=null)

             {

                 urlList.addAll(findUrl(str));

             }

         } catch (IOException e) {

             throw new RuntimeException("URL读写错误:"+e.getMessage());

         }

         if(br!=null)

         {

             try {

                 br.close();

             } catch (IOException e) {

                 throw new RuntimeException("URL流关闭异常:"+e.getMessage());

             }

         }

         return urlList;

     }

     /**抓取新闻URL的真正实现类

      * @param str

      * @return

      */

     public static ArrayList<String> findUrl(String str)

     {

         ArrayList<String> urlList=new ArrayList<String>();

         //匹配新闻的URL

         String regex="http://[a-zA-Z0-9_\\.:\\d/?=&%]+\\.jhtml";

         Pattern p=Pattern.compile(regex);

         Matcher m=p.matcher(str);

         //找符合正则匹配的字串

         while(m.find())

         {

             String subStr=m.group().substring(m.group().lastIndexOf("/")+1, m.group().lastIndexOf(".jhtml"));

             try {

                 if (subStr.matches("[0-9]*")) {

                     urlList.add(m.group());

                 }

             } catch (Exception e) {

                 throw new RuntimeException("匹配新闻URL出错:"+e.getMessage());

             }

         }

         return urlList;

     }

     /**

      * 根据URL找到其的新闻内容

      * @param url

      * @return

      * @throws Exception

      */

     public static ArrayList<String> findContentByUrl(String url) throws Exception {

         URL url1=new URL(url);

         ArrayList<String> conList=new ArrayList<String>();

         URLConnection con;

         BufferedReader br=null;

         try {

             con = url1.openConnection();

             InputStream in=con.getInputStream();

             InputStreamReader isr=new InputStreamReader(in, "utf-8");

             br=new BufferedReader(isr);

             String str="";

             StringBuffer sb=new StringBuffer();

             while((str=br.readLine())!=null)

             {

                 sb.append(str);

             }

             conList.addAll(findContent(sb.toString()));

         } catch (IOException e) {

             throw new RuntimeException("URL读写错误:"+e.getMessage());

         }

         if(br!=null)

         {

             try {

                 br.close();

             } catch (IOException e) {

                 throw new RuntimeException("URL流关闭异常:"+e.getMessage());

             }

         }

         return conList;

     }

     /**

      * 抓取新闻内容的真正实现类

      * @param str

      * @return

      */

     public static ArrayList<String> findContent(String str) {

         ArrayList<String> strList=new ArrayList<String>();

         //匹配新闻内容div

         String regex="<div class=\"con_box\">([\\s\\S]*)</div>([\\s\\S]*)<div class=\"left_con\">";

         Pattern p=Pattern.compile(regex);

         Matcher m=p.matcher(str);

         //找符合正则匹配的字串

         while(m.find())

         {

             try {

                 strList.add(new String(m.group()));

             } catch (Exception e) {

                 throw new RuntimeException("抓取新闻内容出错:"+e.getMessage());

             }

         }

         return strList;

     }

 }

功能简单说明：

　　只要输入网站首页的url，程序会自动获取匹配的新闻条目的url,再根据每个新闻条目的url抓取该新闻的左右内容。

java实现抓取某公司官网新闻的更多相关文章

iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
如何使用JAVA语言抓取某个网页中的邮箱地址
现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址实现思路如下: 1.使用Java.n ...
如何从sun公司官网下载java API文档（转载）
相信很多同人和我一样,想去官网下载一份纯英文的java API文档,可使sun公司的网站让我实在很头疼,很乱,全是英文!所以就在网上下载了别人提供的下载!可是还是不甘心!其实多去看看这些英文的技术网站 ...
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
Java数据抓取经验【转载】
本人担任职友集的java工程师五年,其中抓取数据占主要的一部分,抓取的信息只要有两部分,职位和简历,其中职位的抓取量为日均插入量为30万,更新量为60万,抓取全国300多个人才网站.职友集(现在改名 ...
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
java爬虫抓取腾讯漫画评论
package com.eteclab.wodm.utils; import java.io.BufferedWriter; import java.io.File; import java.io.F ...
网络爬虫Java实现抓取网页内容
package 抓取网页; import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream; ...

随机推荐

图表框架HelloCharts（3）饼状图
1 效果图 2 xml文件 activity_pie_chart.xml <FrameLayout xmlns:android="http://schemas.android.com/ ...
UVA 10801 Lift Hopping 电梯换乘（最短路，变形）
题意: 有n<6部电梯,给出每部电梯可以停的一些特定的楼层,要求从0层到达第k层出来,每次换乘需要60秒,每部电梯经过每层所耗时不同,具体按层数*电梯速度来算.问经过多少秒到达k层(k可以为 ...
HelloX操作系统与中国移动OneNET物联网平台成功完成对接
HelloX成功与中国移动物联网平台对接经过HelloX项目组同仁的努力,尤其是Tywin(@飓风)的努力下,HelloX最新版本V1.78已成功与中国移动OneNET(open.iot.10086 ...
30道Linux面试题
1.linux如何挂在windows下的共享目录 mount.cifs //192.168.1.3/server /mnt/server -o user=administrator,pass=1234 ...
PL/Sql 中创建、调试、调用存储过程
存储过程的详细建立方法 1.先建存储过程左边的浏览窗口选择 procedures ,会列出所有的存储过程,右击文件夹procedures单击菜单"new",弹出 template ...
FTP文件上传与下载
实现FTP文件上传与下载可以通过以下两种种方式实现(不知道还有没有其他方式),分别为:1.通过JDK自带的API实现:2.通过Apache提供的API是实现. 第一种方式:使用jdk中的ftpClie ...
《C++ primer》--第10章
习题10.21 解释map和set容器的差别,以及他们各自适用的情况. 解答: map容器和set容器的差别在于: map容器是键-值对的集合,而set容器只是键的集合: map类型适用于需要了解键与 ...
Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
【Android】如何使用安卓的logcat『整理』
logcat是Android中一个命令行工具,可以用于得到程序的log信息.开发调试和测试定位bug都挺有用哒有两种方式可以达到查看log的目的. 一 Eclipse集成DDMS插件 1 安装ecl ...
codeforces 682C Alyona and the Tree DFS
这个题就是在dfs的过程中记录到根的前缀和,以及前缀和的最小值 #include <cstdio> #include <iostream> #include <ctime ...

java实现抓取某公司官网新闻

java实现抓取某公司官网新闻的更多相关文章

随机推荐

热门专题