java 抓取百度根据关键词搜索域名

package baidusearch;

import com.sun.glass.ui.SystemClipboard;

import java.util.*;

import java.util.HashMap;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.*;

import java.util.ArrayList;

import java.util.List;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

/**

 * 首先客户端口先获取大量的百度的关键词 然后比对关键词信息

 *

 * @author timeless <834916321@qq.com>

 */

public class getLink {

    /**

     * 获取 title 标签 遍历的时候直接使用就好了

     *

     * 如果 带着 www 不能访问 就执行 不带者www的

     *

     * @author timeless<834916321@qq.com>

     * @param domain http://www.域名

     * @return String title 没获取到则返回空

     */

    public static List<String> getLinkArr(String url) {

        try {

            String charset = "UTF8";

            String htmlsource = getHtmlSource(url, charset);

            //现在有个问题是 百度的 带参数的练级不可以

            List<String> baiduLinkList = getBaiduLink(htmlsource);

            //这个地方可以获取重定向之后的

            return baiduLinkList;

        } catch (IllegalArgumentException ex) {

            System.out.println("不合法的参数：" + ex.toString());

            return new ArrayList<String>();

        }

    }

    /**

     * 根据网址返回网页的源码 getHtmlSource

     *

     * @param htmlUrl 网站url

     * @param charset 网站的编码已经获取的网站编码 防止出现乱码

     * @return 网站的源代码 这样效率有点底 下个版本要改为 之获取前边的几行就好F

     */

    public static String getHtmlSource(String htmlUrl, String charset) {

        URL url;

        StringBuffer sb = new StringBuffer();

        try {

            url = new URL(htmlUrl);

            URLConnection myurlcon = url.openConnection();

            myurlcon.setConnectTimeout(5000);

            myurlcon.setReadTimeout(5000);

            BufferedReader in = null;

            if (!charset.equals("")) {

                in = new BufferedReader(new InputStreamReader(myurlcon.getInputStream(), charset));//读取网页全部内容

            } else {

                in = new BufferedReader(new InputStreamReader(myurlcon.getInputStream()));//读取网页全部内容

            }

            // 现在有个问题  编码  怎么动态获取编码

            String temp;

            while ((temp = in.readLine()) != null) {

                sb.append(temp);

//                System.out.println(temp);

            }

            in.close();

        } catch (ConnectException ex) {

            System.out.println("链接异常：" + ex.toString());

        } catch (UnknownHostException e) {

            System.out.println("未知主机错误:" + e.toString());

        } catch (SocketTimeoutException ex) {

            System.out.println("读取超时:" + ex.toString());

        } catch (MalformedURLException ex) {

            System.out.println("你输入的URL格式有问题！请仔细输入:" + ex.toString());

        } catch (IOException e) {

            System.out.println("io 问题:" + e.toString());

        } catch (IllegalArgumentException ex) {

            System.out.println("不合法的参数：" + ex.toString());

        }

        return sb.toString();

    }

    /**

     * 获取百度的链接

     */

    public static List<String> getBaiduLink(String htmlSource) {

        List<String> list = new ArrayList<String>();

        try {

            //懒惰模式匹配  现在还是有问题的

//            String mat = "[\\.|>](([0-9a-z-]+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|<]";

            //修正不获取获取域名时候已-开头的

            String mat = "[\\.|>](([0-9a-zA-Z]([0-9a-z-])+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|<]";

            Pattern pattern = Pattern.compile(mat);

            Matcher ma = pattern.matcher(htmlSource);

            String link = "";

            while (ma.find()) {

                link = ma.group(1).toString();

                //这个应该改成数组或者link的形式  然后判断是不是已经包含了

                if (!link.equals("baidu.com") && !link.equals("bdstatic.com") && !link.equals("baiducontent.com") && !link.equals("taobao.com") && !link.equals("nuomi.com") && !link.equals("alibaba.com")&& !link.equals("qq.com")) {

                    if (!list.contains(link)) {

                        list.add(link);

                        System.out.println(ma.group(0));

                    }

                }

            }

        } catch (Exception ex) {

            System.out.println("执正则表达式获取域名出错" + ex.toString());

        }

        return list;

    }

/**

     * 获取重定向之后的链接

     */

    private static String getRedirectUrl(String path) throws Exception {

        HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();

        conn.setInstanceFollowRedirects(false);

        conn.setConnectTimeout(5000);

        return conn.getHeaderField("Location");

    }

    public static void main(String[] args) {//     百度 文件搜索   一般的话最多就 76页 pn 到 750

        List<String> list = new ArrayList<String>();

        for (int i = 1; i <= 76; i++) {

            //第一页不显示pn 选项第二页开始pn=1;

            String key = "企业邮箱登录入口";

            int pn = i * 10 - 10;

            String baiduUrl = "http://www.baidu.com/s?wd=%s&pn=%d&ie=utf-8";

            baiduUrl = String.format(baiduUrl, key, pn);

            System.out.println(baiduUrl);

            List<String> perpageList = getLinkArr(baiduUrl);

            for (Iterator<String> iterator = perpageList.iterator(); iterator.hasNext();) {

                String next = iterator.next();

                if (!list.contains(next)) {//排重

                    list.add(next);

                    System.out.println(next);

                }

            }

            System.out.println(list.size());

        }

    }

}

java 抓取百度根据关键词搜索域名的更多相关文章

selenium-java web自动化测试工具抓取百度搜索结果实例
selenium-java web自动化测试工具抓取百度搜索结果实例这种方式抓百度的搜索关键字结果非常容易抓长尾关键词,根据热门关键词去抓更多内容可以用抓google,百度的这种内容容易给屏蔽,用这 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
java爬取百度首页源代码
爬虫感觉挺有意思的,写一个最简单的抓取百度首页html代码的程序.虽然简单了一点,后期会加深的. package test; import java.io.BufferedReader; import ...
java 抓取网页图片
import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.Out ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
python3 - 通过BeautifulSoup 4抓取百度百科人物相关链接
导入需要的模块需要安装BeautifulSoup from urllib.request import urlopen, HTTPError, URLError from bs4 import Be ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
C#.Net使用正则表达式抓取百度百家文章列表
工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 public List<str ...
用PHP抓取百度贴吧邮箱数据
注:本程序可能非常适合那些做百度贴吧营销的朋友. 去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发. 对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些 ...

随机推荐

Shell if else语句
if 语句通过关系运算符判断表达式的真假来决定执行哪个分支.Shell 有三种 if ... else 语句: if ... fi 语句: if ... else ... fi 语句: if ... ...
uvaoj 10397 - Connect the Campus【最小生成树】
uvaoj 10397 - Connect the Campus Many new buildings are under construction on the campus of the Univ ...
jsp中的forward和redirect的区别
转自http://blog.163.com/tsing_hua/blog/static/139622224201101110836644/ 一.调用方式我们知道,在servlet中调用转发.重定向的 ...
AX2012服务器配置--Windows Server 2012 如何实现多个用户远程桌面登陆？
Windows Server 2012 如何实现多个用户远程桌面登陆?说明:Windows Server 2012默认情况下,只运行2个用户远程桌面登陆,这里我们可以通过安装远程桌面会话主机配置来实现 ...
jquery ajax 使用layer的超时提示
<!DOCTYPE html> <html> <head> <title>我是标题</title> <meta name=" ...
Win8控制面板快捷键
Win8系统相比我们已经熟悉的Win7与XP系统有着一些特殊的变化,导致很多初次使用Win8系统的朋友感觉有点吃力,随着Win8系统即将于几天后正式发布,下面本文与大家分享大家比较关心的Win8控制面 ...
加速数组操作（Array）
Measure-Command { $ar = @() for ($x=0; $x -lt 10000; $x++) { $ar += $x } }执行结果:3.301s Measure-Comman ...
linux系统编程：进程间通信-mmap
进程间通信-mmap #include <sys/mman.h> void *mmap(void *addr, size_t length, int prot, int flags, in ...
web配置nagios工具
Nagios是一款开源的免费网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机等.在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员, ...
jdk和jre是什么?都有什么用?（转帖）
jdk和jre是什么?都有什么用?(转帖) 文章分类:Java编程大家肯定在安装JDK的时候会有选择是否安装单独的jre,一般都会一起安装,我也建议大家这样做.由于这样更能帮助大家弄清楚它们的差别: ...

java 抓取百度根据关键词搜索域名

java 抓取百度根据关键词搜索域名的更多相关文章

随机推荐

热门专题