package baidusearch;

import com.sun.glass.ui.SystemClipboard;
import java.util.*;
import java.util.HashMap;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.*;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern; /**
* 首先客户端口先获取大量的百度的关键词 然后比对关键词信息
*
* @author timeless <834916321@qq.com>
*/
public class getLink { /**
* 获取 title 标签 遍历的时候直接使用就好了
*
* 如果 带着 www 不能访问 就执行 不带者www的
*
* @author timeless<834916321@qq.com>
* @param domain http://www.域名
* @return String title 没获取到则返回空
*/
public static List<String> getLinkArr(String url) {
try {
String charset = "UTF8";
String htmlsource = getHtmlSource(url, charset);
//现在有个问题是 百度的 带参数的练级不可以
List<String> baiduLinkList = getBaiduLink(htmlsource);
//这个地方可以获取重定向之后的
return baiduLinkList;
} catch (IllegalArgumentException ex) {
System.out.println("不合法的参数:" + ex.toString());
return new ArrayList<String>();
}
} /**
* 根据网址返回网页的源码 getHtmlSource
*
* @param htmlUrl 网站url
* @param charset 网站的编码已经获取的网站编码 防止出现乱码
* @return 网站的源代码 这样效率有点底 下个版本要改为 之获取前边的几行就好F
*/
public static String getHtmlSource(String htmlUrl, String charset) {
URL url;
StringBuffer sb = new StringBuffer();
try {
url = new URL(htmlUrl);
URLConnection myurlcon = url.openConnection();
myurlcon.setConnectTimeout(5000);
myurlcon.setReadTimeout(5000);
BufferedReader in = null;
if (!charset.equals("")) {
in = new BufferedReader(new InputStreamReader(myurlcon.getInputStream(), charset));//读取网页全部内容
} else {
in = new BufferedReader(new InputStreamReader(myurlcon.getInputStream()));//读取网页全部内容
}
// 现在有个问题 编码 怎么动态获取编码
String temp;
while ((temp = in.readLine()) != null) {
sb.append(temp);
// System.out.println(temp);
}
in.close();
} catch (ConnectException ex) {
System.out.println("链接异常:" + ex.toString());
} catch (UnknownHostException e) {
System.out.println("未知主机错误:" + e.toString());
} catch (SocketTimeoutException ex) {
System.out.println("读取超时:" + ex.toString());
} catch (MalformedURLException ex) {
System.out.println("你输入的URL格式有问题!请仔细输入:" + ex.toString());
} catch (IOException e) {
System.out.println("io 问题:" + e.toString());
} catch (IllegalArgumentException ex) {
System.out.println("不合法的参数:" + ex.toString());
}
return sb.toString();
} /**
* 获取百度的链接
*/
public static List<String> getBaiduLink(String htmlSource) {
List<String> list = new ArrayList<String>();
try {
//懒惰模式匹配 现在还是有问题的
// String mat = "[\\.|>](([0-9a-z-]+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|<]";
//修正不获取获取域名时候已-开头的
String mat = "[\\.|>](([0-9a-zA-Z]([0-9a-z-])+?)\\.(com|cn|cc|net|org|gov|edu|biz|info|tv|pro|name|coop|cc|club|site|xyz|int|ren|co|hk|me|mobi|(net\\.cn)|(gov\\.cn)|(org\\.cn)|(com\\.cn)|(cn\\.com)))[/|<]";
Pattern pattern = Pattern.compile(mat);
Matcher ma = pattern.matcher(htmlSource);
String link = "";
while (ma.find()) {
link = ma.group(1).toString();
//这个应该改成数组或者link的形式 然后判断是不是已经包含了
if (!link.equals("baidu.com") && !link.equals("bdstatic.com") && !link.equals("baiducontent.com") && !link.equals("taobao.com") && !link.equals("nuomi.com") && !link.equals("alibaba.com")&& !link.equals("qq.com")) {
if (!list.contains(link)) {
list.add(link);
System.out.println(ma.group(0));
}
}
}
} catch (Exception ex) {
System.out.println("执正则表达式获取域名出错" + ex.toString());
}
return list;
}
/**
* 获取重定向之后的链接
*/
private static String getRedirectUrl(String path) throws Exception {
HttpURLConnection conn = (HttpURLConnection) new URL(path).openConnection();
conn.setInstanceFollowRedirects(false);
conn.setConnectTimeout(5000);
return conn.getHeaderField("Location");
} public static void main(String[] args) {// 百度 文件搜索 一般的话最多就 76页 pn 到 750
List<String> list = new ArrayList<String>();
for (int i = 1; i <= 76; i++) {
//第一页不显示pn 选项第二页开始pn=1;
String key = "企业邮箱登录入口";
int pn = i * 10 - 10;
String baiduUrl = "http://www.baidu.com/s?wd=%s&pn=%d&ie=utf-8";
baiduUrl = String.format(baiduUrl, key, pn);
System.out.println(baiduUrl);
List<String> perpageList = getLinkArr(baiduUrl);
for (Iterator<String> iterator = perpageList.iterator(); iterator.hasNext();) {
String next = iterator.next();
if (!list.contains(next)) {//排重
list.add(next);
System.out.println(next);
}
}
System.out.println(list.size());
}
}
}

java 抓取百度根据关键词搜索域名的更多相关文章

  1. selenium-java web自动化测试工具抓取百度搜索结果实例

    selenium-java web自动化测试工具抓取百度搜索结果实例 这种方式抓百度的搜索关键字结果非常容易抓长尾关键词,根据热门关键词去抓更多内容可以用抓google,百度的这种内容容易给屏蔽,用这 ...

  2. PHP网络爬虫实践:抓取百度搜索结果,并分析数据结构

    百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...

  3. java爬取百度首页源代码

    爬虫感觉挺有意思的,写一个最简单的抓取百度首页html代码的程序.虽然简单了一点,后期会加深的. package test; import java.io.BufferedReader; import ...

  4. java 抓取网页图片

    import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.Out ...

  5. Python抓取百度百科数据

    前言 本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略 确定目标:确定抓取哪个网站的哪些页面的哪部分 ...

  6. python3 - 通过BeautifulSoup 4抓取百度百科人物相关链接

    导入需要的模块 需要安装BeautifulSoup from urllib.request import urlopen, HTTPError, URLError from bs4 import Be ...

  7. Python——爬取百度百科关键词1000个相关网页

    Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介 网站爬虫由浅入深:慢慢来 分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...

  8. C#.Net使用正则表达式抓取百度百家文章列表

    工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 public List<str ...

  9. 用PHP抓取百度贴吧邮箱数据

    注:本程序可能非常适合那些做百度贴吧营销的朋友. 去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发. 对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些 ...

随机推荐

  1. 理解asp.net中DropDownList编辑数据源,绑定数据库数据。

    一.理解asp.net绑定数据库 终于学习到了连接数据库部分的内容,杨中科老师视频看起来挺轻松的,如果是高清版就更ok了. 我发现我学习新的编程语言会有一个特点,都想要赶紧学习数据库,数据就是一切,有 ...

  2. 应用程序无法正常启动0xc0150002 解决方式

        我也遇到过此问题,解决的方法: 方案一: 在项目的"属性|配置属性|链接器|常规"中的"启用增量链接"选择"否".此方法阻断了问题产 ...

  3. Bulk Insert命令具体

    Bulk Insert命令具体 BULK INSERT以用户指定的格式复制一个数据文件至数据库表或视图中. 语法: BULK INSERT [ [ 'database_name'.][ 'owner' ...

  4. Maven tomcat插件配置和使用

    pom.xml组态 <build>   <plugins>         <plugin>                  <groupId>org ...

  5. Java中的守护线程 & 非守护线程(简介)

    Java中的守护线程 & 非守护线程 守护线程 (Daemon Thread) 非守护线程,又称用户线程(User Thread) 用个比较通俗的比如,任何一个守护线程都是整个JVM中所有非守 ...

  6. BTrace使用总结

    btracejvisualvmhotswap  一.背景        在生产环境中可能经常遇到各种问题,定位问题需要获取程序运行时的数据信息,如方法参数.返回值.全局变量.堆栈信息等.为了获取这些数 ...

  7. Android开发之屏幕方向

    一.处理屏幕方向变化的两种技术 1.锚定方法 2.调整大小和重新定位,这种方法一般是分别为横向和纵向两种模式各自定义用户界面xml界面文件,当方向变化时读取对应的界面配置文件即可. 二.检测屏幕方向改 ...

  8. iis6配置使用页面Gzip压缩提速

    iis7默认就启用了Gzip压缩,节约带宽,流量,能够很明显的提升访问速度,但是iis6则没有,本文就是介绍如何通过配置开启iis6的Gzip压缩 一. HTTP压缩概述 HTTP压缩是在Web服务器 ...

  9. Bash判断是否是root

    #!/bin/bash ]; then echo "Not Root" exit fi

  10. Task类(任务)

    任务表示应完成的某个单元的工作.这个单元的工作可以在单独的线程中运行,也可以以同步方式启动一个任务,这需要等待主调用线程.使用任务不仅可以获得一个抽象层,还可以对底层线程进行很多控制. 1.启动任务 ...