Java抓取网页数据

http://ayang1588.github.io/blog/2013/04/08/catchdata/

最近处于离职状态，正赶清闲，开始着手自己的毕业设计，课题定的是JavaWeb购物平台，打算用SpringMVC+MyBatis实现，打算添加缓存服务器，用什么还没有想好，依赖用Maven管理，数据库用MySql，IDE就用Inetllij IDEA。

　　购物平台业务都差不多，平时经常使用，业务大家都比较熟悉，我打算模拟当当网，所以昨天直接把数据库设计好，并建了起来，今天打算准备数据，可是product表和book表的字段稍微有点多，如果上网一个一个的摘录，肯定是不行事儿的，也不是coder做的事儿，要准备多的数据，又是重复的事儿，何不让计算机帮你干。所以打算用Java程序抓取现当当网的数据，提取自己想要的，并直接存入数据库。经过一下午的努力基本实现了功能，由于分类并不打算和当当网的分类一样那么多，所以实现了符合自己的半自动化数据抓取功能。可以实现输入当当网的类别（category_path），和起始结束页，自动填充数据库中对应对象。
　　最开始用的正则匹配抓取内容，后来发现太麻烦了，正则左一斜杠右一斜杠的，又转义又拼接，一会就晕了，所以放弃了，改为像操作Dom树一样进行抓取，用到的开源包Jsoup（文档），也支持像CSS过滤器一样过滤节点，很方便。但是这样并不支持获取js及ajax访问返回数据后的页面，但用htmlunit可以解决这个问题，htmlunit：传说中Java程序员的浏览器，具体使用不太难，就是模拟浏览器，设置好相关属性就可以开始访问了。这里有一篇淘宝关于定向抓取的介绍，大家可以看看（定向抓取漫谈）。
　　以下是我访问当当数据的类（其余的就不贴了，数据库存储用的最原始的JDBC，没什么好说的，这个只是随便写个大概，够自己用了，其实完全可以拓展成通用的工具类，我就不封装了，本来就挺方便的，直接用也就够了），如果哪里有问题请记得及时给我留言：

 public class Utils {

   // UrlVo类存放了3个url，列表图片url，详细信息中的图片url，和商品详细信息url

   // 再通过这三个url可以把所有数据读取出来并封装成对象，然后存入数据库。

   // 同时将所用到的图片下载到本地。

     /**

      * 从一个页面获取该页面商品详细信息的url链接和小图片的链接地址

      * @param url

      * @return

      * @throws

      */

     public static void getBookUrlFromPage(String url, List list) throws Exception{

         // timeout 0:不断请求  默认:2000毫秒超时

         Document document = Jsoup.connect(url).timeout(0).get();

         Elements node = document.select(".resultlist");

         Elements elements = node.get(0).child(0).children();

         for (Element item : elements) {

             UrlVO urlVO = new UrlVO();

             urlVO.setProductDetailUrl(item.child(1).child(0).child(0).child(0).attr("href"));

             urlVO.setSmallImageUrl(item.child(0).child(0).child(0).attr("src"));

             list.add(urlVO);

         }

     }

     /**

      * 根据url和页数获取商品详细url

      * @param url

      * @param startPage

      * @param endPage

      * @param list

      */

     public static void getBookUrlByUrlAndPageNum(String url, Integer startPage, Integer endPage, List list) {

         try {

             for(int i = startPage; i <= endPage; i++) {

                 String urlStr = url + i;

                 Utils.getBookUrlFromPage(urlStr, list);

             }

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

     /**

      * 根据商品详细页面获取Product对象

      * @param url

      * @return

      */

     public static Product getProductFromUrl(String url) {

       //这里有些数据利用jsoup获取不到

         //我用的是htmlunit，设置setJavaScriptEnabled，setAjaxController等参数

         //具体代码就不贴了，大家可以自己试试

         //如有需要，求留言

         return null;

     }

     /**

      * 根据图片url和文件名保存图片

      * @param urlStr

      * @param filename

      */

     public static void saveImageByUrlAndName(String urlStr, String filename) throws Exception{

         // 构造URL

         URL url = new URL(urlStr);

         // 打开连接

         URLConnection con = url.openConnection();

         // 输入流

         InputStream is = con.getInputStream();

         // 1K的数据缓冲

         byte[] bs = new byte[1024];

         // 读取到的数据长度

         int len;

         // 输出的文件流

         OutputStream os = new FileOutputStream(filename);

         // 开始读取

         while ((len = is.read(bs)) != -1) {

             os.write(bs, 0, len);

         }

         os.flush();

         // 关闭连接

         os.close();

         is.close();

     }

     // 测试及调用

     public static void main(String[] args) {

         List<UrlVO> list = new ArrayList<UrlVO>();

         try {

             getBookUrlByUrlAndPageNum("http://category.dangdang.com/all/?category_path=01.03.38.00.00.00&page_index=", 1, 2, list);

 //            getBookUrlFromPage("http://category.dangdang.com/all/?category_path=01.03.38.00.00.00&page_index=2", list);

         } catch (Exception e) {

             e.printStackTrace();

         }

         System.out.println(list.size());

 //        保存图片

 //        String urlStr = "http://img32.ddimg.cn/28/35/23207212-1_l.jpg";

 //        try {

 //            saveImageByUrlAndName(urlStr, "1.jpg");

 //        } catch (Exception e) {

 //            e.printStackTrace();

 //        }

     }

 }

Java抓取网页数据的更多相关文章

java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
Jsoup一个简短的引论——采用Java抓取网页数据
转载请注明出处:http://blog.csdn.net/allen315410/article/details/40115479 概述 jsoup 是一款Java 的HTML解析器,可直接解析某个U ...
01 UIPath抓取网页数据并导出Excel（非Table表单）
上次转载了一篇<UIPath抓取网页数据并导出Excel>的文章,因为那个导出的是table标签中的数据,所以相对比较简单.现实的网页中,有许多不是通过table标签展示的,那又该如何处理 ...
Asp.net 使用正则和网络编程抓取网页数据(有用)
Asp.net 使用正则和网络编程抓取网页数据(有用) Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </su ...
使用HtmlAgilityPack批量抓取网页数据
原文:使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页 Htm ...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据,又懒得写代码了,可以试试 web scraper 抓取数据. 相关文章: 最简单的数据抓取教程,人人都用得上 web scraper 进阶教程,人人都用得上如果你在使用 web s ...

随机推荐

LINUX 文件系统如何存储文件图解
http://zhuqiuxu.iteye.com/blog/2116023 http://zhuqiuxu.iteye.com/blog/2116168 理解Inode要从文件说起,文件存储在硬盘上 ...
php编程中容易忽略的地方
一:fopen ( string $filename , string $mode [, bool $use_include_path = false [, resource $context ]] ...
英文破折号（em dash）、连接号（en dash）与连字符（hyphen）的区别及各自用法是什么？
英文破折号(em dash).连接号(en dash)与连字符(hyphen)的区别及各自用法是什么?在科技写作中有何特点? 2 条评论分享按票数排序按时间排序 6 个回答赞同85反对, ...
FineUploader 学习笔记
FineUploader既是开源的又是收费的,这个没搞懂. 先看效果:
zlib导致Ubuntu登录管理器失效
ubuntu版本:10.04 现象:开机之后无法启动登录管理器. 原因:zlib与登录管理器冲突. 解决:卸载zlib.
Java之MySql数据库链接
一下载MySql驱动包,下载途径很多,随便Google或度娘一下就有,我下载的是mysql-connector-java-5.1.26版本,下载后把它解压到指定路径二在Eclipse中新建项目T ...
Scala的基本语法总结
Scala的函数: 目前博客园中的代码编辑器中还不支持Scala语言....用的Java代码的存储方式 object TestScala { def main(args: Array[String]) ...
【数学，方差运用，暴力求解】hdu-5037 Galaxy （2014鞍山现场）
话说这题读起来真费劲啊,估计很多人做不出来就是因为题读不懂...... 从题目中提取的几点关键点: 题目背景就是银河系(Rho Galaxy)中的星球都是绕着他们的质心(center of mass) ...
Java Classloader原理分析
类的加载过程指通过一个类的全限定名来获取描述此类的二进制字节流,并将其转化为方法区的数据结构,进而生成一个java.lang.Class对象作为方法区这个类各种数据访问的入口.这个过程通过Jav ...
poj 3648 2-SAT问题
思路:将每对夫妻看成是对立状态,每个不正常关系都是一个矛盾,按2-SAT的方式建边.最后建一条新娘到新郎的边.具体看注释 #include<iostream> #include<cs ...

Java抓取网页数据

Java抓取网页数据的更多相关文章

随机推荐

热门专题