首先 需要了解 一些 关于 网络爬虫的 基本知识:

网络爬虫: 所谓的 爬虫 就是一个 应用 程序, 这个 应用 程序 会 获取 网络中的 指定信息(网页 数据).

例如百度: 启动 这个 爬虫 程序 会 自动 的 将 一些 网页 数据 获取 来 存到 百度的服务器上 提高了 搜索 效率.

我们搜索的 时候 , 其实 搜索的 不是 网络中的 内容, 而是 百度中的 内容, 而 百度就将 所有的 互联网中的 数据 爬到 它 的服务器上边 供人们 搜索.

我们 也可以 写一个 程序 去获取 网络中的 指定 资源.

例如: 获取 网络中的 邮箱(邮件地址), 用来 发广告.
网络 爬虫: 其实是一个 应用程序, 获取 网络中的 指定信息(符合 指定 规则的信息). String regex

这个例子中 需要用到的 Java 技术有:  List 集合  Java 正则 表达式  Java IO 流 技术  Java 网络 编程技术.

代码如下:   这段 代码 有一段 时 基于 本地文件的, 我在 爬 网络 上的 资源时 先 试验了 一下 本地的 文件.

     案例:  获取 网络中的 邮件 地址.

             // *** 无论是 文件 还是 网络 仅仅是 数据源 变了.
*/ // *** 从 网页 的 那些 字符串中 去 获取 邮箱. find(); File file = new File("tempfile\\mail.html"); String regex = "\\w+@\\w+(\\.\\w+)+"; // *** 告诉 去哪里 爬 数据, 按照 什么 规则爬.
// List<String> list = getMails(file,regex); // *** 得到的 数据先 存到 集合中, 然后 遍历集合 再 存到 数据库中. String str_url = "http://bbs.tianya.cn/post-enterprise-401802-6.shtml";
List<String> list = getMailsByNet(str_url, regex); for(String mail : list) { System.out.println("List: " + mail); // *** 应该 存到 数据库中. } } // *** 基于 网络. public static List<String> getMailsByNet(String str_url, String regex) throws IOException{ // 1. 将 str_url 封装成 URL 对象, 由它来 帮我们解析. List<String> list = new ArrayList<String>(); URL url = new URL(str_url); // 2. 打开连接. URLConnection conn = url.openConnection(); // 3. 获取 读取流. InputStream in = conn.getInputStream();
// *** 将 字节流 转换成 字符流, 加 高效, 一次 读一行, 因为 正则 表达式 只对 字符串 有效. BufferedReader bufIn = new BufferedReader(new InputStreamReader(in)); // 4. 将 正则表达式 编译成 对象. Pattern p = Pattern.compile(regex); // 5. 读取数据. String line = null; while((line = bufIn.readLine()) != null) { Matcher m = p.matcher(line); while(m.find()) { list.add(m.group()); } } // *** 关闭资源.
bufIn.close(); // *** 返回集合.
return list; } // *** 基于 本地文件. // *** List 可以 存 重复的, Set 集合 不可以 存重复的.
public static List<String> getMails(File file, String regex) throws IOException { // *** 创建一个 集合 , 存取 爬 到的 邮箱 数据. List<String> list = new ArrayList<String>(); // 1. 读取文件. 加 高效, 一次 读 一行. BufferedReader bufr = new BufferedReader( new FileReader(file)); // 2. 将 正则 规则 编译成 对象. Pattern p = Pattern.compile(regex); String line = null; while((line = bufr.readLine())!=null) { Matcher m = p.matcher(line); // *** 文本 和 正则 对象 关联. while(m.find()) { // System.out.println(m.group()); // *** 先存起来 , 创建 一个 集合. list.add(m.group()); // *** 存到 集合中.
}
} // System.out.println(line); // *** 一定要 关闭 资源.
bufr.close(); // *** 返回 集合.
return list; }
} // *** 疯狂爬 网页的实现, 只要保证 一点, 网址(URL) 一直在 变化, 可以 爬 到 网页中的 超链接 时, 修改 网址 进到 超链接的 网址, 如此下去 ,便是 疯狂爬. 挂一天, 哈哈!!! // *** 等 学习了 Javamail 程序 , 自己写 一个 邮件 发送的 程序, 将 爬来的 邮箱 逐个 发广告.

  

  感谢 毕

Java 正则表达式_网络爬虫的更多相关文章

  1. Python 正则表达式 (python网络爬虫)

    昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...

  2. Apache Nutch v2.3 发布,Java实现的网络爬虫

    http://www.oschina.net/news/59287/apache-nutch-2-3 Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本 ...

  3. Java开发、网络爬虫、自然语言处理、数据挖掘简介

    一.java开发 (1) 应用开发,即Java SE开发,不属于java的优势所在,所以市场占有率很低,前途也不被看好. (2) web开发,即Java Web开发,主要是基于自有或第三方成熟框架的系 ...

  4. Java SE之网络爬虫①

    一 需求描述 给一个url,将该url对应网页内的所有的链接查找出来,并补充完整为绝对路径 简易版 /** * * @author Zen Johnny * @date 2018年4月29日 下午11 ...

  5. java 之webmagic 网络爬虫

    webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. http://webmagic.io/ 准备工作: Maven依赖(我这里用的Mav ...

  6. 黑马程序员:Java编程_网络编程

    =========== ASP.Net+Android+IOS开发..Net培训.期待与您交流!=========== 网络编程就是两个(或多个)设备(例如计算机)之间的数据传输,更具体的说,网络编程 ...

  7. Java丨jsoup网络爬虫模拟登录思路解析

    直奔主题: 本篇文章是给有jsoup抓包基础的人看的...... 今天小编给大家写一篇对于jsoup抓包时需要输入验证码的解决方法之一.大神就绕道,嘿嘿~ 任何抓包的基础都是基于Http协议来进行这个 ...

  8. 基于 Java 的开源网络爬虫框架 WebCollector

    原文:https://www.oschina.net/p/webcollector

  9. 学 Java 网络爬虫,需要哪些基础知识?

    说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...

随机推荐

  1. 使用Gin+WebSocket在HTML中无插件播放RTSP

    在后台的开发中遇到了对接显示摄像头视频流的需求.目前获取海康及大华等主流的摄像头的视频流使用的基本都是RTSP协议.不过HTML页面并不能直接播放RTSP协议的视频流,查询了一番各种网页播放RTSP的 ...

  2. django----聚合查询 分组 F与Q查询 字段 及其 参数

    目录 一.orm补充查询 聚合查询 1-1 分组查询 1-2 F与Q查询 1-3 二. 字段及其参数 常用字段 AutoField IntegerField CharField DateField D ...

  3. django查询中模糊的知识点,filter(blog=blog),filter(username=username).first()--这两者只需一招让你分清QuerySet对象,和用户字典对象

    只需一招让你分清QuerySet对象,和用户字典对象 article_list = models.Article.objects.filter(blog=blog) user_obj = models ...

  4. 《Java练习题》进阶练习题(四)

    编程合集: https://www.cnblogs.com/jssj/p/12002760.html 前言:不仅仅要实现,更要提升性能,精益求精,用尽量少的时间复杂度和空间复杂度解决问题. [程序78 ...

  5. 设计模式:规约模式(Specification-Pattern)

    "其实地上本没有路,走的人多了,也便成了路"--鲁迅<故乡> 这句话很好的描述了设计模式的由来.前辈们通过实践和总结,将优秀的编程思想沉淀成设计模式,为开发者提供了解决 ...

  6. Linux 使用grep过滤多个条件及grep常用过滤命令

    这篇文章主要介绍了Linux 使用grep筛选多个条件及grep常用过滤命令,需要的朋友可以参考下 cat log.txt | grep 条件: cat log.txt | grep 条件一 | gr ...

  7. 基于Openshift的SpringBoot微服务

    基于Openshift的SpringBoot微服务 OpenShift是红帽的云开发平台即服务(PaaS).自由和开放源码的云计算平台使开发人员能够创建.测试和运行他们的应用程序,并且可以把它们部署到 ...

  8. Builder模式的目的是解耦构建过程,为什么要用内部类?

    还没有看过Builder模式的作用,看过一篇介绍Builder模式的文章,这里是关于Builder模式的思考:思考是否有比新建一个内部类更好的方法,首先想到的是 package xyz.n490808 ...

  9. Power BI 概念及 国内版Pro 试用账户注册流程

    视频内容: Power BI 基本概念:https://v.qq.com/x/page/s3026nn69eu.html Power BI Pro 世纪互联版本试用账号注册:https://v.qq. ...

  10. 痞子衡嵌入式:高性能MCU之人工智能物联网应用开发那些事 - 索引

    大家好,我是痞子衡,是正经搞技术的痞子.本系列痞子衡给大家介绍的是高性能MCU之人工智能物联网应用开发相关知识. 恩智浦半导体2017年开始推出的i.MX RT系列跨界处理器,这种高性能MCU给嵌入式 ...