Java正则表达式--网页爬虫

网页爬虫：其实就一个程序用于在互联网中获取符合指定规则的数据爬取邮箱地址，爬取的源不同，本地爬取或者是网络爬取

(1)爬取本地数据：

public static List<String> getMails() throws IOException {

        // 1.读取源文件

        // 爬取本地文件

        BufferedReader bufr = new BufferedReader(new FileReader("D:\\mail.txt"));

        // 2.对读取的数据进行规则的匹配，从中获取符合规则的数据

        String mail_regex = "\\w+@\\w+(\\.\\w+)+";

        List<String> list = new ArrayList<String>();

        Pattern p = Pattern.compile(mail_regex);

        String line = null;

        while ((line = bufr.readLine()) != null) {

            Matcher m = p.matcher(line);

            while (m.find()) {

        // 3.将符合规则的数据存储到集合中

                list.add(m.group());

            }

        }

        return list;

    }

运行结果：

emdm@cnw.cjn

cwec@cwc.cwk.cwe

163@com.cn

shuwei_yao@163.com.cn

(2)爬取网络数据

1     public static List<String> getWebMails() throws IOException {

 2         // 1.读取源文件

 3         URL url = new URL("http://sina.com.cn");

 4         BufferedReader bufIn = new BufferedReader(new InputStreamReader(

 5                 url.openStream()));

 6         // 2.对读取的数据进行规则的匹配，从中获取符合规则的数据

 7         String mail_regex = "\\w+@\\w+(\\.\\w+)+";

 8         List<String> list = new ArrayList<String>();

 9         Pattern p = Pattern.compile(mail_regex);

10         String line = null;

11         while ((line = bufIn.readLine()) != null) {

12             Matcher m = p.matcher(line);

13             while (m.find()) {

14         // 3.将符合规则的数据存储到集合中

15                 list.add(m.group());

16             }

17         }

18         return list;

19     }

运行结果：

jubao@vip.sina.com

jubao@vip.sina.com

本文为博主原创文章，转载请注明出处：http://www.cnblogs.com/ysw-go/
1、本博客的原创原创文章，都是本人平时学习所做的笔记，如有错误，欢迎指正。
2、如有侵犯您的知识产权和版权问题，请通知本人，本人会即时做出处理文章。
3、本博客的目的是知识交流所用，转载自其它博客或网站，作为自己的参考资料的，感谢这些文章的原创人员

Java正则表达式--网页爬虫的更多相关文章

java实现网页爬虫
接着上面一篇对爬虫需要的java知识,这一篇目的就是在于网页爬虫的实现,对数据的获取,以便分析. -----> 目录: 1.爬虫原理 2.本地文件数据提取及分析 3.单网页数据的读取 4.运 ...
JAVA之旅（三十四）——自定义服务端，URLConnection，正则表达式特点，匹配，切割，替换，获取，网页爬虫
JAVA之旅(三十四)--自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫我们接着来说网络编程,TCP 一.自定义服务端我们直接写一个服务端,让本机去连接 ...
网页爬虫的设计与实现（Java版）
网页爬虫的设计与实现(Java版) 最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序. 首先看看爬虫都应该有哪些功能. 内容来自(http://www.ibm.com/deve ...
Java正则表达式—小应用—简易爬虫
在上一篇中,学习了正则表达式的四个功能.即匹配.分割.替换.获取. 利用获取功能,可以实现简单的网页爬虫. 4,获取:将字符串中的符合规则的子串取出. 获取功能的操作步骤: 1,将正则表达式 ...
老李分享：网页爬虫java实现
老李分享:网页爬虫java实现 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821 ...
java简单web爬虫(网页图片)
java简单web爬虫(网页图片)效果,执行main()方法后图片就下载道C盘的res文件夹中.没有的话创建一个文件夹代码里的常量根据自己的需求修改,代码附到下面. package com.sinit ...
优酷电视剧爬虫代码实现一：下载解析视频网站页面(4)补充： Java正则表达式Matcher.group(int group)相关类解析
在Java正则表达式的相关类Matcher中,有如下几个方法: - int groupCount() - String group(int group) - int start(int group) ...
Java豆瓣电影爬虫——抓取电影详情和电影短评数据
一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析.正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来.现在做一个概要的介绍和演示. ...
Java正则表达式详解+练习
一.导读正则表达式,又称规则表达式.(英文名Regular Expression,所以代码中常以regex.regexp.RE表示).正则表达式简单说就是用于操作文本数据的规则表达式,在Java中我 ...

随机推荐

Android ViewPager的每个页面的显示与销毁的时机
大家在用viewPager的时候要创建一个pagerAdapter对象,用于给viewPager设置页面的. viewPager里面有一个container容器. viewPager的容器缓存3个显示 ...
jvisualvm 使用
和jconsole侧重于内存分析和检测不同,jvisualvm在线程分析方面更强大一些,下面简单介绍下使用: 1. 在要监控的java应用配置文件中,本例是apache-jmeter/bin/jmet ...
Servlet课程0425（七）到数据库中去验证用户，同时防止SQL注入漏洞
Login.java //登录界面 package com.tsinghua; import javax.servlet.http.*; import java.io.*; public class ...
USB Type-C工作原理解析
自从苹果发布了新MacBook,USB Type-C接口就成为了热议对象.我来从硬件角度解析下这个USB Type-C,以便大家更好的了解USB Type-C的工作原理. 特色尺寸小,支持正反插,速 ...
Eclipse中安装使用SVN
参考网址: Eclipse中使用SVN - 流逝的是岁月,沉淀的是经典 - 博客频道 - CSDN.NET http://blog.csdn.net/v123411739/article/detail ...
C# 模拟POST提交文件
http://blog.csdn.net/hellowjwang/article/details/19975635 public class HttpPost { /// <summary> ...
MapReduce编程系列 — 1：计算单词
1.代码: package com.mrdemo; import java.io.IOException; import java.util.StringTokenizer; import org.a ...
node.js 模块之url和querystring模块
关系如下: url.parse(string).query | url.parse(string).pathname | | | | | ------ ------------------- http ...
Layout Resource官方教程(4)<include>与<merge>
Re-using Layouts with <include/> THIS LESSON TEACHES YOU TO Create a Re-usable Layout Use the ...
UVa 673 (括号配对) Parentheses Balance
本来是当做水题来做的,后来发现这道题略坑. 首先输入的字符串可能是空串,所以我用了gets函数,紧接着就被scanf("%d", &n)后面的换行符坑掉了. 于是乎再加一句 ...

Java正则表达式--网页爬虫

Java正则表达式--网页爬虫的更多相关文章

随机推荐

热门专题