Gym - 101962K _ Rei do Cangaço】的更多相关文章

题意:给予n个房间,每个房间可以的到x个金币(x可能为负数),可以进行两种操作: 右移3i个房间,并且打开除最后一个的所有房间,如在1号房间,第一次移动可以移动到4号,并且打开1,2,3三个房间. 只右移3i个房间. 如果他走到最后一个房间,那么本轮游戏结束,求起点分别从1到n号房间开始最多能拿到多少金币,(金币数量不为负数). 题意:i是第i次移动而不是第i个房间,这一点被坑到哭,一开始暴力将他这一次能打开的房间获得的金币数全部加起来,如果为正就执行操作一,否则执行操作二,虽然能过,但是耗时有…
Color Changing Sofa Gym - 101962B 题意:给你一个由字母构成的字符串a,再给你一个由0.1构成的字符串b.你需要在a字符串中找到一个可以放下b的位置,要保证b字符串中0对应a字符串的位置每一个字符相等.且b字符串中1对应a字符串的位置每一个字符相等.你也可以把b字符串反着放置(也就是如果b字符串为0100,你也可以把它当作0010) 输出可以找到多少符合要求的位置 题解: 暴力模拟可以放置的所有位置 代码: 1 #include <bits/stdc++.h>…
许久没有更新重新拾起,献于小白 这次介绍的是强化学习 Q-learning,Q-learning也是离线学习的一种 关于Q-learning的算法详情看 传送门 下文中我们会用openai gym来做演示 q-learning的伪代码先看这部分,很重要 简单的算法语言描述就是 开始执行任务: 随机选择一个初始动作 执行这些动作 若未达到目标状态,则执行一下几步 在当前状态s所有可能的行为中选择一个a 利用a得到下一个状态s_ 计算Q(s,a) (对当前的行为进行学习) 下一个状态等于当前状态 开…
BZOJ_3129_[Sdoi2013]方程_组合数学+容斥原理 Description 给定方程     X1+X2+. +Xn=M 我们对第l..N1个变量进行一些限制: Xl < = A X2 < = A2 Xn1 < = An1 我们对第n1 + 1..n1+n2个变量进行一些限制: Xn1+l > = An1+1 Xn1+2 > = An1+2 Xnl+n2 > = Anl+n2 求:在满足这些限制的前提下,该方程正整数解的个数. 答案可能很大,请输出对p取模…
BZOJ_2142_礼物_扩展lucas+组合数取模 Description 一年一度的圣诞节快要来到了.每年的圣诞节小E都会收到许多礼物,当然他也会送出许多礼物.不同的人物在小E 心目中的重要性不同,在小E心中分量越重的人,收到的礼物会越多.小E从商店中购买了n件礼物,打算送给m个人 ,其中送给第i个人礼物数量为wi.请你帮忙计算出送礼物的方案数(两个方案被认为是不同的,当且仅当存在某 个人在这两种方案中收到的礼物不同).由于方案数可能会很大,你只需要输出模P后的结果. Input 输入的第一…
题目链接:http://codeforces.com/gym/101775/problem/A It is said that a dormitory with 6 persons has 7 chat groups ^_^. But the number can be even larger: since every 3 or more persons could make a chat group, there can be 42 different chat groups. Given N…

Gym

Gym 用于研发与比较强化学习算法的工具. 安装 pip install gym 环境 车杆问题,模型栗子CartPole-v0 env.step() ,传入0,1,表示车向左,右给1牛顿的力,现在要平衡这个车. import gym env = gym.make('CartPole-v0') env.reset() for _ in range(1000): env.render() env.step(env.action_space.sample()) # take a random act…
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import numpy as np import gym import time import random from collections import deque ##################### hyper parameters #################### # Hyper Para…
使用策略梯度解决离散action space问题. 一.导入包,定义hyper parameter import gym import tensorflow as tf import numpy as np from collections import deque #################hyper parameters################. #discount factor GAMMA = 0.95 LEARNING_RATE = 0.01 二.PolicyGradie…
题目链接:https://codeforces.com/gym/101873 C. Joyride 记忆化搜索形式的dp #include <algorithm> #include <iterator> #include <iostream> #include <cstring> #include <cstdlib> #include <iomanip> #include <bitset> #include <cct…