唐平中讲座笔记 Reinforcement mechanism design 20171107

渣排版预警，纯草稿。。。

唐平中。研究方向是经济学和ai方向，机制设计和拍卖设计。
内容：广告优化的方法论，自动优化。

【内容】
Basics on mechanism design and resrve pricing
Reinforcement mechanism design:
1.Reserve pricing in ad auctions (在广告拍卖中占到保留位，怎么算到最优)
2.Seller ranking in e-commerce.

【前言】
Auctions design and revenue optimization 拍卖设计
拍卖：
拍卖的设计涉及钱
谁能够拿到物品，每个人应该付多少钱。
目标是什么：
钱

例子：1个用户，1个广告主。
q=1 if sold, q=0 if reserve;
buyer（advertiser)：valuation x from Uniform [0,1]
假设所有信息大家都知道
buyer utility = x(q-t)
Auction = set a price p(in this case)
buyer decsion: buy if x>p
max(p(1-p)),solution: p = 0.5
可以推广到任何分布，改为f(p)*(f(1-p))即可

1个用户，n个广告主

1.first-price auction
known:Bayes equilibrium to bid (n-1) xi/n
Expected revenue:(n-1)/(n+1)

2.second price auction
known:Dominant strategy to bid truthfully
Expected revenue:(n-1)/(n+1)
结论:如果你不设保留价的话，那么你的期望收入和二价一样。无需证明（x

二价定律失效的例子：
毕加索的画卖给了王健林，2800万，但是王健林心理预期很高，但是他遇到了一些week buyer.所以付钱价格很低。
解决方案：设最小保留价格，比如我设4000万的门槛。
但这只是单次拍卖。

最优情况：
如果有1个物品，n个拍卖者
大家的xi都是uniform[0,1]
解决方案：second price auction with reserve 0.5
think of 0.5 as seller's bid, competitive for strong buyers
当大家的分布不一样的时候，查看07年诺贝尔论文。Myerson,1981,Nobel prize 2007
Myerson的问题：
没有按照bid排序，会影响公平性。
有不同的门槛。
Myerson may charge too much.可能会使得卖家流失。
(solution:objective: a revenue + b welfare + c clicks)(MSR论文) 平台+广告主+用户
雅虎:通过手动调整保留价，使得收入增加10%

High frequency mechanism design
区别：
1.高频的环境
2.Dynamic set of players
3.Rational,reflected in the data
4.Complicated,dynamic decision variables

工业界的现状：
gsp在工业界没有什么用，vcg也没什么用。
经常去调整广告的拍卖参数。
Ad hoc，Costly
能不能有一个算法来自动调整参数，使得能够得到很好的结果。

【主题】
Reinforcement mechanism design
这个不是机器学习，原因是：
我的方法是想得到更好的参数，使得广告收益更高。之前参数的data和我现在的data无关，所以这不是机器学习。
从一组参数很难预测出另外一套全新的参数的结果，有一些阶跃的东西，总之，这就不是一个machine learning

Dynamic GSP auctions
一堆关键字，平台会收到广告主的报价，然后我们能会回复kpis。
然后我们都会根据反应来修正自己的行为。
这实际上是一个Markov，每次的报价都depend on 昨天的bid distribution和昨天的kpis

f(t+1) depend on f(t)

平台的参数制定，把整个广告主和自己的平台当作一个整体，action是每天调整参数，revenue就是每天赚得钱。
对于状态一，然后一堆bidder根据昨天的kpis和参数出了一次价格，然后可以推出新的状态。

每个关键字我们只看出价最高的bidder，不会让出价变动很大。
我们的bidder model使用rnn
输入：
kpis containing stats of several consecutive days
time-sepecific features.
输出：
bid distribution for the next time step（bid不容易预测的准，所以我们直接预估分布，而且头部buyers也是会变动）

结果的话，用rnn预估的结果和线上的结果确实比较符合。
效果比百度本身的预估好一倍。

解决刷单：
刷单方案：
1.建一个微信群，然后每个人给钱，寄空包裹，然后提高我的好评
2.把自己的价格压的非常低，使得自己的成交量上去。

导致使得一些不是优质的卖家，占据了优质流量，使得平台的转化量比较低。
淘宝本身的objective比较复杂。

解决方案，实际上是将差的卖家扔到下面去。
本质上是流量的分配。

总结：
。。。好像我们的广告系统的bid和推荐系统是分开的，所以这玩意儿好像我们根本没法用。
不过动态调整参数可以借鉴一下，可以试试greedy的方案。

唐平中讲座笔记 Reinforcement mechanism design 20171107的更多相关文章

J粒子发现40周年-丁肇中中科院讲座笔记
J粒子发现40周年-丁肇中中科院讲座笔记华清远见2014-10-18 北京海淀区张俊浩 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveXVuZm ...
WPF学习笔记-用Expression Design制作矢量图然后导出为XAML
WPF学习笔记-用Expression Design制作矢量图然后导出为XAML 第一次用Windows live writer写东西,感觉不错,哈哈~~ 1.在白纸上完全凭感觉,想象来画图难度很大, ...
Effective STL 学习笔记 Item 38 : Design functor classes for pass-by-value
Effective STL 学习笔记 Item 38 : Design functor classes for pass-by-value */--> div.org-src-container ...
i3D的一篇Unity教程中的笔记
原地址:http://blog.sina.com.cn/s/blog_72b936d80100wwej.html 以下是i3D的一篇Unity教程中的笔记. i3D的这篇教程是[i3D.Next-Ge ...
新唐NDA102EC1中更改UUART1作为调试串口打印输出调试信息
新唐NDA102EC1中更改UUART1作为调试串口打印输出调试信息参考网上STM32修改fputc(int ch, FILE *f),把串口打印函数printf()重定向到UUART1模块的端口输 ...
Android中View的layout mechanism（布局机制）
layout mechanism Android中View的layout mechanism主要分为两个阶段:measure阶段和layout阶段.layout mechanism按照一定的顺序进行, ...
从Evernote大批顶尖高管离职，看处于漩涡中的笔记应用未来前景
无论是巨头,还是独角兽,甚至是小而美的某些企业,在发生高管离职.裁员等情况时,总会引起业界的广泛关注.究其原因,就在于高管离职.裁员等往往意味着企业内部发生了动荡,甚至还会直接反映出所在行业的发展趋势 ...
学习笔记之Coding / Design / Tool
CODING 学习笔记之代码大全2 - 浩然119 - 博客园 https://www.cnblogs.com/pegasus923/p/5301123.html 学习笔记之编程珠玑 Programm ...
ThinkPHP中疑难笔记
不但要记住核心的东西, 还要记住相关的东西: 如php cli的版本是 5.6.14 bulit: sep 30, 2015 tp中, 通常说的系统就是框架; 项目就是 "应用程序&qu ...

随机推荐

关于K8S证书生成方面的脚本草稿
周日在家里计划的. 俺不加班,但在家学习的时间一样没少! 还没弄完,只粗粗弄了etcd证书. #! /usr/bin/env bash set -e set -u set -x THIS_HOST=$ ...
Codeforces 865C Gotta Go Fast 二分 + 期望dp (看题解)
第一次看到这种骚东西, 期望还能二分的啊??? 因为存在重置的操作, 所以我们再dp的过程中有环存在. 为了消除环的影响, 我们二分dp[ 0 ][ 0 ]的值, 与通过dp得出的dp[ 0 ][ 0 ...
JS元素意外点击元素消失
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
51Nod1577 异或凑数线性基
原文链接https://www.cnblogs.com/zhouzhendong/p/51Nod1577.html 题意给定一个长度为 n 的序列. 有 m 组询问,每一组询问给出 L,R,k ,询 ...
svn创建分支（branch/tag）出现“path”already exists
不用在visual svn中创建相应的目录,svn会自己创建目录,但是自己必须指定该目录名称. 比如:
071 SparkStreaming与SparkSQL集成
1.说明虽然DStream可以转换成RDD,但是如果比较复杂,可以考虑使用SparkSQL. 2.集成方式 Streaming和Core整合: transform或者foreachRDD方法 Cor ...
LeetCode 234. 回文链表
class Solution { public: bool isPalindrome(ListNode* head) { deque<int> d1, d2; ListNode* p = ...
react学习三
三点运算符 (...)的用法 1:展开运算符 let a=[1,2,3]; let b=[0,...a,4];//[0,1,2,3,4] let obj ={a:1,b:2}; let obj2 = ...
C. A Mist of Florescence ----- Codeforces Round #487 (Div. 2)
C. A Mist of Florescence time limit per test 1 second memory limit per test 256 megabytes input stan ...
从小白到区块链工程师：第一阶段：Go语言的HelloWorld初始（2）
四.写下第一段Go语言代码“Hello World” 小建议:就是文件夹路径或者文件名称不要出现中文,可能会导致一些不必要的麻烦(编译失败) 在sublime中,我们在src文件夹上面,单击右键“Ne ...

唐平中讲座笔记 Reinforcement mechanism design 20171107

唐平中讲座笔记 Reinforcement mechanism design 20171107的更多相关文章

随机推荐

热门专题