Interpreting Advertiser Intent in Sponsored Search
 
主要内容是搜索广告的相关性预估模型,使用learning to rank的方法。亮点在于使用了用户query和广告关键词的自然搜索结果特征来训练相关性
预估模型。
 
背景
相关性预估 -> 用户体验 + 收入,好的相关性有助于搜索引擎好的用户体验和长期持续的收入。
传统做法: 特征来源主要来自 query + 搜索广告,通过理解用户query和广告,来判断相关性。
本文研究表明挖掘客户意图可以显著提升相关性
利用客户购买词的搜索结果,特征来源扩展为:query + 搜索广告 + 客户购买词 + 购买词搜索结果
线下 auc+43.2%  线上2.7%
 
搜索广告背景:
 
搜索引擎背景:
精准匹配 + 模糊匹配(同义词,扩展词,rewrite)
点击计费cpc
不相关广告,伤害用户体验:
    用户搜索 天气, 出广告“羽绒服“ ,用户意图为天气查询
    用户搜索京东,出苏宁广告
 
量化用户相关性可以从以下几方面着手:
  • 用户搜索query,用户意图,短文本,意图难以准确识别(辅助信息:session,点击信息,query校正等)
  • 广告创意 , 信息较准确反映客户意图,广告title信息也不足,落地页质量较差
  • 落地页
  • 广告关键词
四要素
 
本文致力理解广告关键词
 
基本假设
1, 客户购买词反映客户的基本意图和流量需求
2,搜索引擎query理解能力较强
 
用户相关 : 用户query + 用户query自然结果
广告相关 : 广告关键词 + 广告关键词自然结果 + 广告创意 + 广告落地页
 
双刃剑:
?? 客户的购买词真是表达了客户想要reach的用户以及想要获得的那部分流量,创意和url相对固定
带来的问题是:
  • 客户乱买词肯定引起相关性下降,比如,苏宁客户购买“京东关键词”
  • 客户买词会潜在提高相关性,啤酒和尿布的故事
  • 问题在于如何评价是否相关,主观因素太强!!!
 
做法:
  1. 用户query和广告关键词取前40个自然结果
  2. 去自然结果页的title,snippet,描述,ODP分类,url
  3. 去停用词,进行porter stemmer主干提取【1】
  4. 将以上的词干连接,形成bow
  5. 使用LambdaMART进行训练【2】
baseline 特征,共1+3*6=19个 : 
  • query长度
  • query 和 titile 的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 desc的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 url的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
    重合度计算公式:
        
新增特征,共6*9=54个:
  • 创意标题与广告kwd搜索结果title,创意描述与广告kwd搜索结果描述,创意描述与广告kwd搜索结果snipet
  • Landing Page title与广告kwd搜索结果title,Landing Page正文与广告kwd搜索结果描述,Landing Page正文与广告kwd搜索结果snipet
  • Query与广告kwd搜索结果title,Query与广告kwd搜索结果描述,Query与广告kwd搜索结果snipet
 
 
使用query的自然结果辅助理解用户意图,query自然结果与广告关键词的重合特征
自然结果会返回网页分类,因此query的自然结果和广告kwd的自然结果会返回两个分类列表,可以计算分类相关性:
 
这样可以捕捉语义升相关性,比如 鞋子和靴子,按照这种分类相关性,可以得到较好的结果
广告的domain在用户query的自然结果中出现,表明结果较相关
广告的domian在广告关键词的自然结果中出现,表明广告主意图与客户购买词较相关
 
新增特征2,18 + 1 + 2= 21:
  • query自然结果title和kwd自然结果title,query自然结果desc和kwd自然结果desc,query自然结果snip和kwd自然结果snip
  • 自然结果类别相关性
  • domain 重合个数
 
 
 
训练集:
128万人工标注(query, ad) pairs,打分1-5,5表示最相关,32万hold-out
 
实验结果:
    模糊匹配下准确率提升比精准匹配大,因为模糊匹配下,使用更多的信息,有助于提升相关性判断信息
    增加query search特征,效果好很多,说明query seach特征作为连接信息,更多的连接了广告和query的信息
    对于本来就高相关性的广告,预估效果更好,原因是高相关性的广告的自然结果交叉特征中存在更多的重合项
 
 
线上真实结果:
    精准匹配下基本上无效果,说明精准匹配下,工业产品已经处理很好了
    模糊匹配下QS提升明显
    
 
LambdaMART可以看出各个特征的重要性,最重要的三个特征,都是QS特征:
    i) ad domain count in query organic results, 广告域名在query自然结果出现次数
    ii) ordered bigram overlap between snippets of organic results for
query and ad keyword , snippet重合度
   iii) ad domain count in ad keyword organic results. 广告域名与广告关键词搜索结果匹配度
query特征中最重要的是:
    i) word unigram overlap between query and snippets in organic results for ad keyword 
   ii) order word bigrams between query and titles of the organic results for ad keyword.
 
【1】 http://qinxuye.me/article/porter-stemmer/
【2】http://blog.csdn.net/huagong_adu/article/details/40710305
 
 
 
 
 
 
 
 
 
 

【paper】KDD15 - Interpreting Advertiser Intent in Sponsored Search的更多相关文章

  1. 【LeetCode】109. Convert Sorted List to Binary Search Tree 解题报告(Python)

    [LeetCode]109. Convert Sorted List to Binary Search Tree 解题报告(Python) 标签(空格分隔): LeetCode 作者: 负雪明烛 id ...

  2. 【Android】12.5 利用Intent读取和更新通讯录

    分类:C#.Android.VS2015: 创建日期:2016-02-23 修改日期:2016-03-08更正了未关闭cursor的bug.  一.简介 本节演示如何在安卓系统中通过用户配置文件(us ...

  3. 【Android】12.2 利用Intent启动和关闭Activity

    分类:C#.Android.VS2015: 创建日期:2016-02-23 一.简介 Android应用程序中一般都有多个Activity,在Activity中,通过调用StartActivity方法 ...

  4. 【Android】12.6 利用Intent实现记事本功能(NotePad)

    分类:C#.Android.VS2015: 创建日期:2016-02-23 一.简介 这个例子演示如何实现一个简单的记事本功能. 该例子提前使用了后面章节将要介绍的SQLLite数据库. 二.示例-c ...

  5. 【Android】12.4 利用Intent读取图库中的图片

    分类:C#.Android.VS2015: 创建日期:2016-02-23 一.简介 该示例演示如何从图库(Gallery)中读取图像并用ImageView将它显示出来. 二.示例-ch1203Rea ...

  6. 【转】Android Activity和Intent机制学习笔记----不错

    原文网址:http://www.cnblogs.com/feisky/archive/2010/01/16/1649081.html Activity Android中,Activity是所有程序的根 ...

  7. 【Android】16.3 带Intent过滤器的Services

    分类:C#.Android.VS2015: 创建日期:2016-03-01 一.简介 这一节演示带Intent过滤器的Services的基本用法. 1.配置Intent Filter 不论是本地解决方 ...

  8. 【Paper】智能家居

    From: http://liudongdong1.github.io keyword: Human-centered computing , LoRa Paper: WIDESEE WIDESEE: ...

  9. 【paper】MTCNN

    参考 1. MTCNN笔记; 完

随机推荐

  1. 关于vuex与v-route的结合使用

    把vue实际用于项目的过程中遇到过一些问题 1.如何将vuex和vue-route结合使用(接口调用成功回调页面这类等等) 1.初始考虑的方法是在vuex引入vue-router,vuex写一些业务逻 ...

  2. 07_ZkClient提供的API使用

    1. ZkClient API简介 zkclient是Github上一个开源的ZooKeeper客户端,在原生ZooKeeper API接口上进行包装,同时在内部实现了session超时重连,Watc ...

  3. 机器学习笔记—K-均值聚类

    在聚类问题中,给定训练集 {x(1),...,x(m)},要把数据分成内聚的“簇”.这里 x(i)∈R,没有 y(i).所以,这是一个无监督学习问题. k-均值聚类算法如下: 1.随机初始化簇中心 μ ...

  4. uva 1619 - Feel Good || poj 2796 单调栈

    1619 - Feel Good Time limit: 3.000 seconds   Bill is developing a new mathematical theory for human ...

  5. js执行环境的周边概念

    一.熟悉几个名词: 1.执行环境(execution context),也叫执行上下文,每个函数都会有自己的执行环境:当浏览器首次加载脚本时,他将默认进入全局执行环境:如果接下来要调用一个内部函数,则 ...

  6. w3c标准盒模型与IE传统模型的区别

    一.盒子模型(box model) 在HTML文档中的每个元素被描绘为矩形盒子.确定其大小,属性——比如颜色.背景.边框,及其位置是渲染引擎的目标. CSS下这些矩形盒子由标准盒模型描述.这个模型描述 ...

  7. 8.初识Lock与AbstractQueuedSynchronizer(AQS)

    1. concurrent包的结构层次 在针对并发编程中,Doug Lea大师为我们提供了大量实用,高性能的工具类,针对这些代码进行研究会让我们对并发编程的掌握更加透彻也会大大提升我们队并发编程技术的 ...

  8. UVA-10917 Walk Through the Forest (dijkstra+DP)

    题目大意:n个点,m条边的无向图.一个人从起点到终点按照下面的走法:从A走向B当A到终点的最小距离比B到终点的最小距离大时.问从起点到终点有多少路径方案. 题目分析:先用dijkstra预处理出终点到 ...

  9. Java内存状况查看方法和分析工具

    Java本身提供了多种丰富的方法和工具来帮助开发人员查看和分析GC及其JVM内存的状况,同时开源界也有一些工具用于查看和分析GC和JVM内存的状况. 通过这些分析,可以排查程序中内存泄露的问题及调优程 ...

  10. java中容器的学习与理解

    以前一直对于java中容器的概念不理解,虽然学习过,但始终没有认真理解过,这几天老师提出了这样一个问题,你怎么理解java中的容器.瞬间就蒙了.于是各种搜资料学习了一下,下面是我学习后整理出来的的一些 ...