从百度搜索结果跳转到指定链接前,百度会发送一些参数,可以利用referer属性,在本站访问时记录百度跳转来之前的一些参数。

利用百度跳转前参数,进行一些相关的seo优化。

目前所用到的一些参数说明如下:

wd - 最终搜索词
bs - 前一次搜索词
tn - 到达搜索引擎的方式,如:baidu,直接打开,sitehao123,从123网站进入
f - 3:下拉框选择,8:用户自主搜索
oq - 用户输入搜索词(f=3时才会出现)
cl - 搜索类型(3-网页)
pn - 页数(页数*10)

inputT= 从打开百度主页,在对话框输入开始计时,到你点击搜索之间的时间。

filter代码如下:

import java.io.IOException;
import java.net.URLDecoder;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.UUID; import javax.servlet.Filter;
import javax.servlet.FilterChain;
import javax.servlet.FilterConfig;
import javax.servlet.ServletException;
import javax.servlet.ServletRequest;
import javax.servlet.ServletResponse;
import javax.servlet.http.Cookie;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse; /**
* @author xuejt
* 搜索引擎访问过滤器
*/
public class KeyWordFilter implements Filter {
/**
* 要记录的搜索引擎域名
*/
private static ArrayList<String> DOMAINLIST = null;
/**
* 需要转码的key列表
*/
private static ArrayList<String> DECODEWORDLIST = null;
/**
* 自定义记录cookie名
*/
private static final String SEARCH_COOKIE_KEY = "search_cookie";
/**
* 自定义cookie过期时间
*/
private static final int COOKIE_MAX_AGE= 1440;
private static final SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); @Override
public void destroy() { } @Override
public void doFilter(ServletRequest request, ServletResponse response,
FilterChain chain) throws IOException, ServletException {
try { HttpServletRequest req = (HttpServletRequest) request;
HttpServletResponse res = (HttpServletResponse) response; // 获取referer
String referer = req.getHeader("referer"); // 循环过滤域名
for (String domain : DOMAINLIST) { if (null != referer && referer.contains(domain)) { // 如果是从指定域名跳转到本站时,需要记录跳转前参数
System.out.println("************** param **************");
if (referer.contains("?")) {
String[] searchParams = referer.substring(referer.indexOf("?") + 1).split("&");
String[] p = null;
for (String param : searchParams) {
p = param.split("=");
// 判断当前参数是否需要中文转码
if (DECODEWORDLIST.contains(p[0])) {
p[1] = URLDecoder.decode(p[1], "UTF-8");
}
System.out.println(p[0] + " - " + p[1]);
}
} System.out.println("************** param **************");
System.out.println(); // 获取当前访问的cookie列表
Cookie[] cookies = req.getCookies();
if (cookies != null && cookies.length > 0) {
System.out.println("************** cookie **************");
int index = 0;
Cookie tmpCookie = null;
while (tmpCookie == null && index < cookies.length) {
// 判断当前cookie列表中是否有自己设定的cookie
if (cookies[index].getName().equals(SEARCH_COOKIE_KEY)) {
tmpCookie = cookies[index];
System.out.println("已有cookie - " + tmpCookie.getValue());
}
index++;
}
if (tmpCookie == null) {
// 如果没有自己设定的cookie,表示是新用户访问或cookie已过期
tmpCookie = new Cookie(SEARCH_COOKIE_KEY, UUID.randomUUID().toString());
tmpCookie.setMaxAge(COOKIE_MAX_AGE); // 设置cookie过期时间
res.addCookie(tmpCookie);
System.out.println("设置新cookie - " + tmpCookie.getValue());
}
System.out.println("本次访问时间 - " + sdf.format(new Date()));
System.out.println("本次访问的ip - " + req.getLocalAddr()); System.out.println("************** cookie **************");
} }
}
} catch (Exception e) {
e.printStackTrace();
}
chain.doFilter(request, response); } @Override
public void init(FilterConfig arg0) throws ServletException {
/*
* 增加要捕获域名
*/
DOMAINLIST = new ArrayList<String>();
DOMAINLIST.add("www.baidu.com"); /*
* 增加要转码的参数名
*/
DECODEWORDLIST = new ArrayList<String>();
DECODEWORDLIST.add("wd");
DECODEWORDLIST.add("bs");
DECODEWORDLIST.add("oq"); } }

转自:https://www.cnblogs.com/anranwuse/p/3630074.html

利用referer属性,记录百度搜索跳转参数的更多相关文章

  1. 利用python爬取海量疾病名称百度搜索词条目数的爬虫实现

    实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...

  2. 【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏

    [先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些 ...

  3. 利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏

    [先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些 ...

  4. 记录这一刻:百度搜索结果“文件格式:-HTML文本”

    只要百度搜索关键词无论结果是"文件格式:-HTML文本",现在,这个问题已经被修复. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG ...

  5. 利用autocomplete.js实现仿百度搜索效果(ajax动态获取后端[C#]数据)

    实现功能描述: 1.实现搜索框的智能提示 2.第二次浏览器缓存结果 3.实现仿百度搜索 <!DOCTYPE html> <html xmlns="http://www.w3 ...

  6. Vue调用百度接口做百度搜索

    这两天由于学习需要,需要用vue来调用api接口,但是以前没怎么接触过用vue来调用接口,不会没关系,发挥我们强大的学习能力,都不是事,学习了半天基本也就可以初级上手了,写篇随笔记录下来,方便以后回顾 ...

  7. 百度搜索 “Java面试题” 前200页(面试必看)

    前言 本文中的题目来源于网上的一篇文章<百度搜索 "Java面试题" 前200页>,但该文章里面只有题目,没有答案.因此,我整理了一些答案发布于本文.本文整理答案的原则 ...

  8. JavaScript-dom3 json_str dom元素控制 模拟百度搜索

    访问关系-封装代码 html <!DOCTYPE html> <html lang="en"> <head> <meta charset= ...

  9. Python:输入关键字进行百度搜索并爬取搜索结果

    学习自:手把手教你用Python爬取百度搜索结果并保存 - 云+社区 - 腾讯云 如何利用python模拟百度搜索,Python交流,技术交流区,鱼C论坛 指定关键字,对其进行百度搜索,保存搜索结果, ...

随机推荐

  1. Python_自定义模块

    自定义模块例子(web简单框架): 专门处理逻辑的包:处理各种访问需求 数据库的交互:面临各种的查询,删改 ,dba, 配置文件(全局配置文件):列存储数据的地方,HTML代码存储地方 实现: 代码: ...

  2. 批处理命令调用WINRAR对文件进行压缩

    命令: winrar a 参数  压缩后的文件 压缩源文件 如压缩apk文件,代码如下 echo apk文件不能直接下载,所以压缩apk成rar来下载 d: cd D:\Program Files\W ...

  3. sparkStreaming消费kafka-1.0.1方式:direct方式(存储offset到Hbase)

    话不多说,可以看上篇博文,关于offset存储到zookeeper https://www.cnblogs.com/niutao/p/10547718.html 本篇博文主要告诉你如何将offset写 ...

  4. glusterfs分布式复制扩容卷以及平衡卷

    随着数据量的增长,需要扩容满足使用.今天测试下glusterfs磁盘扩容的具体步骤 1.扩容 之前用的2台计算机的分布式复制卷.需要同时之两个服务器增加一块磁盘并格式化,挂载并扩容 热添加磁盘 ech ...

  5. 利用Flume将MySQL表数据准实时抽取到HDFS

    转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取 ...

  6. Java设计模式从精通到入门四 工厂方法模式

    工厂方法模式 属于23中设计模式中创建型类型. 核心思想:工厂提供创建对象的接口,由子类决定实例化哪一个子类. 来源 ​ 设计模式之禅中的例子,女娲造人,通过八卦炉来进行造人,没有烧熟的为白人,烧太熟 ...

  7. c++ <vector>学习

    https://www.cnblogs.com/mr-wid/archive/2013/01/22/2871105.html 具体参考上面博客,很详细,也是看他的.今天c++学习200%,项目开发0% ...

  8. P3812 【模板】线性基

    P3812 [模板]线性基 理解 :线性基 类似于 向量的极大无关组,就是保持原来所有数的异或值的最小集合, 求解过程也类似,可以 O( 60 * n )的复杂度求出线性基,线性基有许多性质,例如 线 ...

  9. ASP.NET MVC 常用路由总结

    1.URL模式 路由系统用一组路由来实现它的功能,这些路由共同组成了应用系统URL架构或方案,这种URL架构是应用程序能够识别并能对之做出响应的一组URL,当处理一个输入 请求时,路由系统的工作是将这 ...

  10. SET ANSI_WARNINGS { ON | OFF }

    SET ANSI_WARNINGS { ON | OFF } 注释 SET ANSI_WARNINGS 影响以下情况: 当设置为 ON 时,如果聚合函数(如 SUM.AVG.MAX.MIN.STDEV ...