简单的Java网络爬虫（获取一个网页中的邮箱）

 import java.io.BufferedReader;

 import java.io.FileNotFoundException;

 import java.io.FileReader;

 import java.io.IOException;

 import java.io.InputStreamReader;

 import java.net.URL;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 import java.io.*;

 public class SpiderTest {

     public static void main(String[] args) throws IOException {

         // TODO 自动生成的方法存根

         List<String> list =Search();

    for(String mail:list)

    {

        System.out.println(mail);

    }

     }

  public static List<String> Search() throws IOException{

         @SuppressWarnings("resource")

       //要抓取的网页

         URL url =new URL("http://tieba.baidu.com/p/2314539885");

       //获取网页html文件中的信息

         BufferedReader buf=new BufferedReader(new InputStreamReader(url.openStream()));

       //创建一个list来保存数据

         List<String> list =new ArrayList<String>();

       //使用正则表达式来匹配邮箱

        String main_regex="\\w+@\\w+(\\.\\w+)+";

         Pattern p= Pattern.compile(main_regex);

        String line=null;

        while((line=buf.readLine())!=null)

        {

            Matcher m=p.matcher(line);

            while(m.find()){

                list.add(m.group());

            }

        }

      return list;

  }

 }

一个简单的网络爬虫基本上有这几步：

获取网页中的数据
匹配符合正则表达式的数据，将数据加入List
将数据输出到文件中或打印输出

我写的这个爬虫是来抓取百度贴吧里留邮箱的一个页面中的所有的邮箱。（图片没打码不知道会不会有侵犯隐私的嫌疑）

简单的Java网络爬虫（获取一个网页中的邮箱）的更多相关文章

Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接，并下载这些URL链接的源代码
通过正则表达式来获取一个网页中的所有的 URL链接,并下载这些 URL链接的源代码使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
如何使用JAVA语言抓取某个网页中的邮箱地址
现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址实现思路如下: 1.使用Java.n ...
Java中利用正则表达式获取一个网页中的所有邮箱地址
package cn.tms.ui; import java.io.BufferedReader; import java.io.File; import java.io.FileWriter; im ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
Java 网络爬虫，就是这么的简单
这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...
学 Java 网络爬虫，需要哪些基础知识？
说起网络爬虫,大家想起的估计都是 Python ,诚然爬虫已经是 Python 的代名词之一,相比 Java 来说就要逊色不少.有不少人都不知道 Java 可以做网络爬虫,其实 Java 也能做网络爬 ...
java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...

随机推荐

java重构、js与接口的实现
一.接口接口的方法不一定必须实现的!!! 加入default,这样的方法可以不实现,如图所示二.关于语言的特性 1．C++多继承 2．很多编程语言JavaScript.Python支持混入(Mix ...
后端UI框架
BootStrap EasyUI DWZ ExtJS
IPTABLES简介
iptables防火墙工作原理简介:iptables防火墙工作在网络层,针对TCP/IP数据包实施过滤和限制,iptables防火墙基于内核编码实现,具有非常稳定的性能和高效率: iptables属 ...
netty 网关 flume 提交数据去除透明批处理批提交 cat head tail 结合管道显示行号
D:\javaNettyAction\NettyA\src\main\java\com\test\HexDumpProxy.java package com.test; import io.netty ...
【转】UML中类与类之间的5种关系表示
一.继承关系继承指的是一个类(称为子类.子接口)继承另外的一个类(称为父类.父接口)的功能,并可以增加它自己的新功能的能力.在Java中继承关系通过关键字extends明确标识,在设计时一 ...
python学习笔记（四）— 补充
函数return多个值函数如果有多个return值,那么会生成一个元组里面 def hello(a,b,c,d): return a,b,c,d res =hello('aa','cc','dd', ...
The Highest Mark---hdu5501(问题转化 01背包)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5501 二维数组: #include<stdio.h> #include<iostre ...
NoSQL 数据库概览及其与 SQL 语法的比较
NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用的难题. 本文对NoSQL数据库的定义.分类.特征.当前比较流行的NoSQL数据库系统等进行了简单的介绍,并对N ...
jQuery对象和DOM对象之间的转换
jQuery对象不能使用DOM对象的任何方法,DOM对象也不能使用jQuery对象的任何方法.在需要使用时需要对其进行转换. jQuery对象前使用"$",这不是必须的,不这么使用 ...
codeblocks opengl的配置
codeblocks opengl的配置 GLUT 3.7 下载地址:http://www.opengl.org/resources/libraries/glut/glutdlls37beta.zip ...

简单的Java网络爬虫（获取一个网页中的邮箱）

简单的Java网络爬虫（获取一个网页中的邮箱）的更多相关文章

随机推荐

热门专题