P2473 [SCOI2008]奖励关

题目描述

你正在玩你最喜欢的电子游戏，并且刚刚进入一个奖励关。在这个奖励关里，系统将依次随机抛出$k$次宝物，每次你都可以选择吃或者不吃（必须在抛出下一个宝物之前做出选择，且现在决定不吃的宝物以后也不能再吃）。

宝物一共有$n$种，系统每次抛出这$n$种宝物的概率都相同且相互独立。也就是说，即使前$k-1$次系统都抛出宝物1（这种情况是有可能出现的，尽管概率非常小），第$k$次抛出各个宝物的概率依然均为$1/n$。

获取第$i$种宝物将得到$P_i$分，但并不是每种宝物都是可以随意获取的。第i种宝物有一个前提宝物集合$S_i$。只有当$S_i$中所有宝物都至少吃过一次，才能吃第$i$种宝物（如果系统抛出了一个目前不能吃的宝物，相当于白白的损失了一次机会）。注意，$P_i$可以是负数，但如果它是很多高分宝物的前提，损失短期利益而吃掉这个负分宝物将获得更大的长期利益。

假设你采取最优策略，平均情况你一共能在奖励关得到多少分值？

输入输出格式

输入格式：

第一行为两个正整数$k$和$n$，即宝物的数量和种类。以下$n$行分别描述一种

宝物，其中第一个整数代表分值，随后的整数依次代表该宝物的各个前提宝物（各宝物编号为1到$n$），以0结尾。

输出格式：

输出一个实数，保留六位小数，即在最优策略下平均情况的得分。

说明

$1<=k<=100, 1<=n<=15$，分值为$[-10^6,10^6]$内的整数。

想做这个题得先弄懂条件概率

简单一点的解释是，B在A发生的条件下发生的概率。

举个栗子，掷色子第一次投6概率为1/6，为A事件，第二次投6概率仍为1/6，为B事件。如果把两次投掷产生的一个结果算成一个最终状态，那么连续的状态AB发生的概率为1/36，也即是B在A发生的条件下发生的概率。

条件概率一定得把连续的事件划为一个状态来求解。

对于具体题目来看，在第$i$次出现宝物的时候，我们产生的状态空间的大小即为$1/n^i$。对于其中每一个状态空间的延长我们都可以做出选和不选的决策（当然，有时候是强制不能选的），以保证最优策略。

当然，即使没有决策，我们也不能找到所有状态空间进行统计，我们发现，第$i$个阶段产生的某一个状态空间对第$i+1$个阶段的每一个可能发生的宝物都能产生一个递推，这可能出现的$n$个宝物将状态空间扩大了$n$倍。

于是我们实际上在统计的时候，对于第$i$个阶段宝物产生的状态空间，它在后面重复出现了$n^{k-i}$次，所以这一维所有的答案产生的贡献最后需要除上$n^i$，我们通过倒推来消除可能爆精度的问题（在后面具体提到）

如果进行决策，我们利用背包的思想，将状态空间用一个新的状态表示处理，这也是转移方程中状态压缩的一维$j$，$j$表示当前状态空间每个宝物是否出现。注意新的状态空间可能代表多个以往的状态空间。

按照顺着的思想从前向后递推，我们用新状态空间对当前阶段每一个可能出现的概率进行递推，等价于原状态空间对每一个概率进行递推。这时候会产生两个问题，一是我们对每一个状态空间都得朴素的除上$n^i$，会产生新的复杂度。二是我们需要额外的判断，保证统计答案时的合法性，比较麻烦。

所以我们进行倒着做，可以对每一次产生的新状态都除以$n$，而不必对每一个状态特殊判断。最后统计答案时也只有唯一的一个合法。

方程:$dp[i][j]$代表第$i$阶段$j$状态已经发生转移的最大分数。

转移:$dp[i][j]+=\sum_{l=1}^n max(dp[i+1][j|(1<<l-1)],dp[i+1][j])$,$max$左边要判转移合法

目标:$dp[1][0]$

可能说得不严谨，大概只是个人的一点浅显的感性理解，今天也是第一次做条件概率的题，如有不足，还请提出。

Code:

#include <cstdio>

const int N=102;

double dp[N][1<<15],score[18];

double max(double x,double y){return x>y?x:y;}

int n,k,pre[18];

void init()

{

    scanf("%d%d",&k,&n);

    int pree;

    for(int i=1;i<=n;i++)

    {

        scanf("%lf%d",score+i,&pree);

        while(pree)

        {

            pre[i]|=1<<pree-1;

            scanf("%d",&pree);

        }

    }

}

void work()

{

    for(int i=k;i;i--)

        for(int j=0;j<=1<<n;j++)

        {

            for(int l=1;l<=n;l++)

            {

                if((pre[l]&j)==pre[l])

                    dp[i][j]+=max(dp[i+1][j|(1<<l-1)]+score[l],dp[i+1][j]);

                else

                    dp[i][j]+=dp[i+1][j];

            }

            dp[i][j]/=double(n);

        }

    printf("%.6lf",dp[1][0]);

}

int main()

{

    init();

    work();

    return 0;

}

2018.7.3

洛谷 P2473 [SCOI2008]奖励关解题报告的更多相关文章

洛谷 P2473 [SCOI2008]奖励关(状压dp+期望)
题面 luogu 题解 $n \leq 15$ 状压 $f[i][S]$表示第$i$轮,吃过的集合为$S$ 正着转移好像有点复杂考虑逆推转移(正着转移应该也行) \(f[i][S]\ ...
洛谷P2473 [SCOI2008]奖励关（期望+状压）
传送门我数学期望还是太差了…… 先考虑状压模型,设$dp[i][S]$表示第$i$轮,当前宝物状态为$S$,能获得的最大期望分数然而这个模型有一个问题,第$i$轮不一定能达到状态$S$ 那么考虑转 ...
洛谷 P2473 [SCOI2008]奖励关 ( 期望DP )
题目链接题意 : 中文题.点链接分析 : 第一道有关概率期望的DP 有个大部分情况下通用的结论概率正推.期望反推原因不明.其实是没有查到较好的解释这题由于有一些取物品的先决条件在这里而且观 ...
[BZOJ1076][SCOI2008]奖励关解题报告|状压DP
你正在玩你最喜欢的电子游戏,并且刚刚进入一个奖励关.在这个奖励关里,系统将依次随机抛出k次宝物,每次你都可以选择吃或者不吃(必须在抛出下一个宝物之前做出选择,且现在决定不吃的宝物以后也不能再吃). 宝 ...
洛谷2473(SCOI2008)奖励关
题目:https://www.luogu.org/problemnew/show/P2473 因为可不可选此物与之前选过什么物品有关,所以状态可以记录成前面已经选过什么物品. 因为选不选此物与它带来的 ...
LG P2473 [SCOI2008]奖励关
题目链接:P2473 [SCOI2008]奖励关题意:有n个宝物每次等概率抛出其中之一一共抛出k次每个宝物有一个价值和一个前提集合只有集齐了集合中的所有宝物才可以领取这个宝物范围:1 < ...
P2473 [SCOI2008]奖励关（期望）
P2473 [SCOI2008]奖励关 $n<=15$,显然的状压设$f[i][w]$表示前$i$轮,状态$w$的最大期望蓝后我们发现一个问题:$f[i][w]$可能是非法的于是我们从$f ...
洛谷_Cx的故事_解题报告_第四题70
1.并查集求最小生成树 Code: #include <stdio.h> #include <stdlib.h> struct node { long x,y,c; ...
洛谷 P2317 [HNOI2005]星际贸易解题报告
P2317 [HNOI2005]星际贸易题目描述输入输出格式输入格式: 输出格式: 如果可以找到这样的方案,那么输出文件output.txt中包含两个整数X和Y.X表示贸易额,Y表示净利润并且两 ...

随机推荐

RabbitMQ理论部分
概念 queue 队列 exchange 交换机 bind 绑定 channel 通道一个发送消息流程包含上述四个概念.消息经过channel传递给exc ...
10.openldap备份与恢复
备份方式一.使用slapcat指令备份使用slapcat备份后的数据经过相关无用条目处理,即可实现数据上的条目备份备份指令如下 #备份 #slapcat -v -l openldap-back ...
lambda----jdk8重头戏
简介(译者注:虽然看着很先进,其实Lambda表达式的本质只是一个"语法糖",由编译器推断并帮你转换包装为常规的代码,因此你可以使用更少的代码来实现同样的功能.本人建议不要乱用,因 ...
Daily Scrum (2015/11/7)
今晚谢金洛同学的UI工作完成,我们进行了UI和后端的拼接,准备开始规范化地进行系统测试. 成员今日任务及成果时间明日任务符美潇 1.把之前PM分配的编码任务及其说明准备好发给PM 1h 待定 ...
MathExam作业
作业一.预估与实际 PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 50 40 • Estimate • ...
Class 2 四则运算2的设计思路
设计思路 1.主函数中有一个大的for循环,用户可以一直随机得到相应题目.在嵌套一个循环,其可以直接确定题目数量:定义两个变量,分别作为四则运算的两个运算数,用随机数函数得到两个数值:再利用随机生成函 ...
Chapter 6 面向对象基础
面向对象=对象+类+继承+通信,如果一个软件系统采用这些概念来建立模型并给予实现,那么它就是面向对象的.面向对象的软件工程方法是面向对象方法在软件工程领域的全面运用涉及到从面向对象分析.面向对象设计. ...
NABCD模型分析
1.N——need需求目前,学习英语是所有学生会面临的问题.提高词汇量对学习英语是十分必要的,尤其是对大学生来说对手机的使用特别频繁,我们提高英语词汇量也应该把手机更好的利用起来,利用自己对手机的使 ...
python learning IO.py
f = open('test.txt', 'r') # 'r' 表示只读 s = f.read() # 调用read()方法可以一次读取文件的全部内容,Python把内容读到内存,用一个str对象表示 ...
SM2
一.介绍 #百度二.生成密钥对及证书 1.使用gmssl工具详见gmssl 2.go 版本详见https://github.com/tjfoc/gmsm 3.java版本 #尚未实现 1.初步使 ...

洛谷 P2473 [SCOI2008]奖励关 解题报告