java利用url实现网页内容的抓取

闲来无事，刚学会把git部署到远程服务器，没事做，所以简单做了一个抓取网页信息的小工具，里面的一些数值如果设成参数的话可能扩展性能会更好！希望这是一个好的开始把，也让我对字符串的读取掌握的更加熟练了，值得注意的是JAVA1.8 里面在使用String拼接字符串的时候，会自动把你要拼接的字符串用StringBulider来处理，大大优化了String 的性能，闲话不多说，show my XXX code～

运行效果：

首先打开百度百科，搜索词条，比如“演员”，再按F12查看源码

然后抓取你想要的标签，注入LinkedHashMap里面就ok了，很简单是吧！看看代码罗

 import java.io.BufferedReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.HttpURLConnection;

 import java.net.URL;

 import java.util.*;

 /**

  * Created by chunmiao on 17-3-10.

  */

 public class ReadBaiduSearch {

     //储存返回结果

     private LinkedHashMap<String,String> mapOfBaike;

     //获取搜索信息

     public LinkedHashMap<String,String> getInfomationOfBaike(String infomationWords) throws IOException {

         mapOfBaike = getResult(infomationWords);

         return mapOfBaike;

     }

     //通过网络链接获取信息

     private static LinkedHashMap<String, String> getResult(String keywords) throws IOException {

         //搜索的url

         String keyUrl = "http://baike.baidu.com/search?word=" + keywords;

         //搜索词条的节点

         String startNode = "<dl class=\"search-list\">";

         //词条的链接关键字

         String keyOfHref = "href=\"";

         //词条的标题关键字

         String keyOfTitle = "target=\"_blank\">";

         String endNode = "</dl>";

         boolean isNode = false;

         String title;

         String href;

         String rLine;

         LinkedHashMap<String,String> keyMap = new LinkedHashMap<String,String>();

         //开始网络请求

         URL url = new URL(keyUrl);

         HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();

         InputStreamReader inputStreamReader = new InputStreamReader(urlConnection.getInputStream(),"utf-8");

         BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

         //读取网页内容

         while ((rLine = bufferedReader.readLine()) != null){

             //判断目标节点是否出现

             if(rLine.contains(startNode)){

                 isNode = true;

             }

             //若目标节点出现，则开始抓取数据

             if (isNode){

                 //若目标结束节点出现，则结束读取，节省读取时间

                 if (rLine.contains(endNode)) {

                     //关闭读取流

                     bufferedReader.close();

                     inputStreamReader.close();

                     break;

                 }

                 //若值为空则不读取

                 if (((title = getName(rLine,keyOfTitle)) != "") && ((href = getHref(rLine,keyOfHref)) != "")){

                     keyMap.put(title,href);

                 }

             }

         }

         return keyMap;

     }

     //获取词条对应的url

     private static String getHref(String rLine,String keyOfHref){

         String baikeUrl = "http://baike.baidu.com";

         String result = "";

         if(rLine.contains(keyOfHref)){

             //获取url

             for (int j = rLine.indexOf(keyOfHref) + keyOfHref.length();j < rLine.length()&&(rLine.charAt(j) != '\"');j ++){

                 result += rLine.charAt(j);

             }

             //获取的url中可能不含baikeUrl,如果没有则在头部添加一个

             if(!result.contains(baikeUrl)){

                 result = baikeUrl + result;

             }

         }

         return result;

     }

     //获取词条对应的名称

     private static String getName(String rLine,String keyOfTitle){

         String result = "";

         //获取标题内容

         if(rLine.contains(keyOfTitle)){

             result = rLine.substring(rLine.indexOf(keyOfTitle) + keyOfTitle.length(),rLine.length());

             //将标题中的内容含有的标签去掉

             result = result.replaceAll("<em>|</em>|</a>|<a>","");

         }

         return result;

     }

 }

现在都好晚了，去睡觉了...

java利用url实现网页内容的抓取的更多相关文章

【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...
java平台利用jsoup开发包，抓取优酷视频播放地址与图片地址等信息。
/******************************************************************************************** * aut ...
使用java开源工具httpClient及jsoup抓取解析网页数据
今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光 ...
HtmlUnitDriver 网页内容动态抓取
#抓取内容 WebDriver driver = new HtmlUnitDriver(false); driver.get(url); String html = driver.getPageSou ...
java网络爬虫实现信息的抓取
转载请注明出处:http://blog.csdn.NET/lmj623565791/article/details/23272657 今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点 ...
java利用URL发送get和post请求
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...
python3下scrapy爬虫(第四卷:初步抓取网页内容之抓取网页里的指定数据延展方法）
上卷中我运用创建HtmlXPathSelector 对象进行抓取数据: 现在咱们再试一下其他的方法,先试一下我得最爱XPATH 看下结果: 直接打印出结果了我现在就正常拼下路径只求打印结果: 现在 ...
python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）
上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...
网络爬虫：利用selenium，pyquery库抓取并处理京东上的图片并存储到使用mongdb数据库进行存储
一,环境的搭建已经简单的工具介绍 1.selenium,一个用于Web应用程序测试的工具.其特点是直接运行在浏览器中,就像真正的用户在操作一样.新版本selenium2集成了 Selenium 1.0 ...

随机推荐

AtomicInteger相关类
引用地址:http://blog.csdn.net/xh16319/article/details/17056767 在java6以后我们不但接触到了Lock相关的锁,也接触到了很多更加乐观的原子修改 ...
TCP/IP协议族(一) HTTP简介、请求方法与响应状态码
接下来想系统的回顾一下TCP/IP协议族的相关东西,当然这些东西大部分是在大学的时候学过的,但是那句话,基础的东西还是要不时的回顾回顾的.接下来的几篇博客都是关于TCP/IP协议族的,本篇博客就先简单 ...
Introduce: IEPI.BIATranscribe 图像表格拓写工具
应用场合数据表格是学术.文案工作中常用的表述形式.我们经常需要从第三方获取所需的数据.有些时候这些数据并非以可直接编辑的形式(如电子表格文档),而是以打印件或者扫描件的形式提供.假如需要对数据进行进 ...
通过CXF方式实现webservice服务
一.CXF的介绍 Apache CXF 是一个开放源代码框架,提供了用于方便地构建和开发 Web 服务的可靠基础架构.它允许创建高性能和可扩展的服务,您可以将这样的服务部署在 Tomcat 和基于 S ...
C语言高效位操作
思考: 1. 如何将一个数据中的多个不连续位清位? 1. 如何将一个数据中的多个不连续位置位? 1. 如何反转一个数据中的多个不连续位(1->0, 0->1)? 基础知识:C 语言位操作 ...
内功心法 -- java.util.ArrayList<E> (1)
写在前面的话:读书破万卷,编码如有神--------------------------------------------------------------------下文主要对java.util ...
基于Ceph快照的异地灾备设计
作者:吴香伟发表于 2017/02/06 版权声明:可以任意转载,转载时务必以超链接形式标明文章原始出处和作者信息以及版权声明喜欢请点击右边打赏,谢谢支持! 引子技术改变生活. 越来越方便的手机 ...
Oracle VS DB2 数据类型
=========================Oracle VS DB2==================================== 本文转自:http://www.bitscn.co ...
hadoop系列二：HDFS文件系统的命令及JAVA客户端API
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
Windows 10 IoT Serials 6 - 如何修改IoTStartupOnBoot.cmd文件
使用Windows 10 IoT Core系统的朋友应该会比较熟悉IoTStartupOnBoot.cmd文件,该文件是系统启动以后加载的批处理文件,一般会包含应用.服务和后台的启动,比如WinRM. ...

java利用url实现网页内容的抓取

java利用url实现网页内容的抓取的更多相关文章

随机推荐

热门专题