如何使用JAVA语言抓取某个网页中的邮箱地址

现实生活中咱们常常在浏览网页时看到自己需要的信息，但由于信息过于庞大而又不能逐个保存下来。

接下来，咱们就以获取邮箱地址为例，使用java语言抓取网页中的邮箱地址

实现思路如下：

1、使用Java.net.URL对象，绑定网络上某一个网页的地址

2、通过java.net.URL对象的openConnection()方法获得一个URLConnection对象

3、通过URLConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream

4、循环读取流中的每一行数据，并由Pattern对象编译的正则表达式区配每一行字符，取得email地址

接下来，话不多说，直接上代码：

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.URL;

import java.net.URLConnection;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Test {  

    public static void main(String[] args) throws Exception {

　　　　　//设定目标网址        
　　　　　URL url = new URL("目标网址");

        // 打开连接

        URLConnection conn = url.openConnection();

        // 设置连接网络超时时间

        conn.setConnectTimeout(1000 * 10);

        // 读取指定网络地址中的文件

        BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));
　　　　 //在内存中构建一个空的字符串来准备获取读到的邮箱

        String line = null;  
　　　　 // 设置匹配email的正则表达式;  

        String reg = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";

        Pattern p = Pattern.compile(reg); 
　　　　 //循环输出读到的邮箱地址

        while((line = bufr.readLine()) != null) {

            Matcher m = p.matcher(line);

            while(m.find()) {

                System.out.println(m.group());

            }

        }

    }  

}

本人水平有限，不能详尽解读以上代码，还望见谅

如何使用JAVA语言抓取某个网页中的邮箱地址的更多相关文章

iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
Python抓取单个网页中所有的PDF文档
Github博文地址,此处更新可能不是很及时. 1.背景最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
写论文，没数据？R语言抓取网页大数据
写论文,没数据?R语言抓取网页大数据纵观国内外,大数据的市场发展迅猛,政府的扶持也达到了空前的力度,甚至将大数据纳入发展战略.如此形势为社会各界提供了很多机遇和挑战,而我们作为卫生(医学)统计领域的 ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
抓取https网页时，报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法
抓取https网页时,报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法原因是https证书问题, ...

随机推荐

LightOJ 1085(树状数组+离散化+DP，线段树)
All Possible Increasing Subsequences Time Limit:3000MS Memory Limit:65536KB 64bit IO Format: ...
3.C#/.NET编程中的常见异常（持续更新）
1.Object reference not set to an instance of an object. 未将对象引用(引用)到对象的实例,说白了就是有个对象为null,但是你在用它点出来的各种 ...
php,ajax登陆退出
利用ajax可以做到页面无刷新登陆. 运行效果目录结构 site/ css/ images/ js/ site/css/bootstrap.css(bootstrap样式表) site/js/boo ...
JS继承,原型继承,构造函数的继承,非构造函数"的继承
a.原型继承一.new运算符的缺点用构造函数生成实例对象,有一个缺点,那就是无法共享属性和方法.比如,在DOG对象的构造函数中,设置一个实例对象的共有属性species. function DOG ...
datatable赋值行
datatable复制行:DataTable dt = ""; //这里是填充DataTable数据(""中为一个为datatable类型的值,赋值给dt)D ...
WPF子界面向父界面传递带参数的委托
需求如下: 父界面上有几个按钮,需要在点击按钮的时候向父界面传值,以知道该控制哪个界面显示. 父界面:WIN1 子界面:WIN2 此处或者说是子控件向父控件传值 1.子界面定义委托 WIN2里写: p ...
fs读取某个json文件的数据
/** * Created by Administrator on 2016/7/12. * 流数据 */ var fs = require('fs'); var stream = fs.create ...
深入理解Java虚拟机：OutOfMemory实战
在Java虚拟机规范的描述中,除了程序计数器外,虚拟机内存的其他几个运行时区域都有发生OutOfMemoryError(下文称OOM)异常的可能,本节将通过若干实例来验证异常发生的场景.并且会初步介绍 ...
Git 系列（四）：在 Git 中进行版本回退
在这篇文章中,你将学到如何查看项目中的历史版本,如何进行版本回退,以及如何创建 Git 分支以便你可以大胆尝试而不会出现问题. 在你的 Git 项目的历史中,你的位置就像是摇滚专辑中的一个片段,由一个 ...
转 git操作小结
UNDER MIT LICENSE. 公司几乎所有的项目都是使用 git 仓库来管理代码,以前对 git 只有些肤浅的了解,每次提交代码或者上线的时候总是会提心吊胆,生怕出现一些未知的问题.经过三个月 ...

如何使用JAVA语言抓取某个网页中的邮箱地址

如何使用JAVA语言抓取某个网页中的邮箱地址的更多相关文章

随机推荐

热门专题