Q-learning简明实例Java代码实现

在《Q-learning简明实例》中我们介绍了Q-learning算法的简单例子，从中我们可以总结出Q-learning算法的基本思想

本次选择的经验得分 = 本次选择的反馈得分 + 本次选择后场景的历史最佳经验得分

其中反馈得分是单个步骤的价值分值（固定的分值），经验得分是完成目标的学习分值（动态的分值）。

简明实例的Java实现如下

package com.coshaho.learn.qlearning;

import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

import java.util.Random;

/**

 *

 * QLearning.java Create on 2017年9月4日 下午10:08:49

 *

 * 类功能说明:   QLearning简明例子实现

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class QLearning

{

    FeedbackMatrix R = new FeedbackMatrix();

    ExperienceMatrix Q = new ExperienceMatrix();

    public static void main(String[] args)

    {

        QLearning ql = new QLearning();

        for(int i = 0; i < 500; i++)

        {

            Random random = new Random();

            int x = random.nextInt(100) % 6;

            System.out.println("第" + i + "次学习, 初始房间是" + x);

            ql.learn(x);

            System.out.println();

        }

    }

    public void learn(int x)

    {

        do

        {

            // 随机选择一个联通的房间进入

            int y =  chooseRandomRY(x);

            // 获取以进入的房间为起始点的历史最佳得分

            int qy = getMaxQY(y);

            // 计算此次移动的得分

            int value = calculateNewQ(x, y, qy);

            Q.set(x, y, value);

            x = y;

        }

        // 走出房间则学习结束

        while(5 != x);

        Q.print();

    }

    public int chooseRandomRY(int x)

    {

        int[] qRow = R.getRow(x);

        List<Integer> yValues = new ArrayList<Integer>();

        for(int i = 0; i < qRow.length; i++)

        {

            if(qRow[i] >= 0)

            {

                yValues.add(i);

            }

        }

        Random random = new Random();

        int i = random.nextInt(yValues.size()) % yValues.size();

        return yValues.get(i);

    }

    public int getMaxQY(int x)

    {

        int[] qRow = Q.getRow(x);

        int length = qRow.length;

        List<YAndValue> yValues = new ArrayList<YAndValue>();

        for(int i = 0; i < length; i++)

        {

            YAndValue yv = new YAndValue(i, qRow[i]);

            yValues.add(yv);

        }

        Collections.sort(yValues);

        int num = 1;

        int value = yValues.get(0).getValue();

        for(int i = 1; i < length; i++)

        {

            if(yValues.get(i).getValue() == value)

            {

                num = i + 1;

            }

            else

            {

                break;

            }

        }

        Random random = new Random();

        int i = random.nextInt(num) % num;

        return yValues.get(i).getY();

    }

    // Q(x,y) = R(x,y) + 0.8 * max(Q(y,i))

    public int calculateNewQ(int x, int y, int qy)

    {

        return (int) (R.get(x, y) + 0.8 * Q.get(y, qy));

    }

    public static class YAndValue implements Comparable<YAndValue>

    {

        int y;

        int value;

        public int getY() {

            return y;

        }

        public void setY(int y) {

            this.y = y;

        }

        public int getValue() {

            return value;

        }

        public void setValue(int value) {

            this.value = value;

        }

        public YAndValue(int y, int value)

        {

            this.y = y;

            this.value = value;

        }

        public int compareTo(YAndValue o)

        {

            return o.getValue() - this.value;

        }

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * FeedbackMatrix.java Create on 2017年9月4日 下午9:52:41

 *

 * 类功能说明:   反馈矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class FeedbackMatrix

{

    public int get(int x, int y)

    {

        return R[x][y];

    }

    public int[] getRow(int x)

    {

        return R[x];

    }

    private static int[][] R = new int[6][6];

    static

    {

        R[0][0] = -1;

        R[0][1] = -1;

        R[0][2] = -1;

        R[0][3] = -1;

        R[0][4] = 0;

        R[0][5] = -1;

        R[1][0] = -1;

        R[1][1] = -1;

        R[1][2] = -1;

        R[1][3] = 0;

        R[1][4] = -1;

        R[1][5] = 100;

        R[2][0] = -1;

        R[2][1] = -1;

        R[2][2] = -1;

        R[2][3] = 0;

        R[2][4] = -1;

        R[2][5] = -1;

        R[3][0] = -1;

        R[3][1] = 0;

        R[3][2] = 0;

        R[3][3] = -1;

        R[3][4] = 0;

        R[3][5] = -1;

        R[4][0] = 0;

        R[4][1] = -1;

        R[4][2] = -1;

        R[4][3] = 0;

        R[4][4] = -1;

        R[4][5] = 100;

        R[5][0] = -1;

        R[5][1] = 0;

        R[5][2] = -1;

        R[5][3] = -1;

        R[5][4] = 0;

        R[5][5] = 100;

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * ExperienceMatrix.java Create on 2017年9月4日 下午10:03:08

 *

 * 类功能说明:   经验矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class ExperienceMatrix

{

    public int get(int x, int y)

    {

        return Q[x][y];

    }

    public int[] getRow(int x)

    {

        return Q[x];

    }

    public void set(int x, int y, int value)

    {

        Q[x][y] = value;

    }

    public void print()

    {

        for(int i = 0; i < 6; i++)

        {

            for(int j = 0; j < 6; j++)

            {

                String s = Q[i][j] + "  ";

                if(Q[i][j] < 10)

                {

                    s = s + "  ";

                }

                else if(Q[i][j] < 100)

                {

                    s = s + " ";

                }

                System.out.print(s);

            }

            System.out.println();

        }

    }

    private static int[][] Q = new int[6][6];

    static

    {

        Q[0][0] = 0;

        Q[0][1] = 0;

        Q[0][2] = 0;

        Q[0][3] = 0;

        Q[0][4] = 0;

        Q[0][5] = 0;

        Q[1][0] = 0;

        Q[1][1] = 0;

        Q[1][2] = 0;

        Q[1][3] = 0;

        Q[1][4] = 0;

        Q[1][5] = 0;

        Q[2][0] = 0;

        Q[2][1] = 0;

        Q[2][2] = 0;

        Q[2][3] = 0;

        Q[2][4] = 0;

        Q[2][5] = 0;

        Q[3][0] = 0;

        Q[3][1] = 0;

        Q[3][2] = 0;

        Q[3][3] = 0;

        Q[3][4] = 0;

        Q[3][5] = 0;

        Q[4][0] = 0;

        Q[4][1] = 0;

        Q[4][2] = 0;

        Q[4][3] = 0;

        Q[4][4] = 0;

        Q[4][5] = 0;

        Q[5][0] = 0;

        Q[5][1] = 0;

        Q[5][2] = 0;

        Q[5][3] = 0;

        Q[5][4] = 0;

        Q[5][5] = 0;

    }

}

经过500次计算得到如下结果

第499次学习, 初始房间是1

0    0    0    0    396  0

0    0    0    316  0    496

0    0    0    316  0    0

0    396  252  0    396  0

316  0    0    316  0    496

0    396  0    0    396  496

此时，我们从任意一个房间进入，每次选取最高分值步骤移动，总可以找到最短的逃离路径。

Q-learning简明实例Java代码实现的更多相关文章

实例: Java代码操作oracle数据库(JDBC+sevrlet+jsp+html)
1, 注册页面 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Strict//EN" "http://www.w3.or ...
Kettle变量和自己定义java代码的实例应用
1 kettle.properties參数配置数据源连接和FTP连接因为測试环境和生产环境中数据库连接FTP等配置会在部署过程中变更,所以预先定义成配置项,在配置文件里改动.这样測试和公布将会变得 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
ActiveMQ——activemq的使用java代码实例（精选）
ActiveMQ 在java中的使用,通过单例模式.工厂实现 Jms规范里的两种message传输方式Topic和Queue,两者的对比如下表(): Topic Queue 概要 Publish ...
java代码的初始化过程研究
刚刚在ITeye上看到一篇关于java代码初始化的文章,看到代码我试着推理了下结果,虽然是大学时代学的知识了,没想到还能做对.(看来自己大学时掌握的基础还算不错,(*^__^*) 嘻嘻……)但 ...
使用Java代码实现对宽带的连接
对于多个类似的用户名相同的密码,运行java代码实现对宽带的自动连接这是源代码: import java.io.BufferedReader; import java.io.IOException; ...
JavaBean 基础概念、使用实例及代码分析
JavaBean 基础概念.使用实例及代码分析 JavaBean的概念 JavaBean是一种可重复使用的.且跨平台的软件组件. JavaBean可分为两种:一种是有用户界面的(有UI的):另一种是没 ...
Java代码规范
Java代码规范本Java代码规范以SUN的标准Java代码规范为基础,为适应我们公司的实际需要,可能会做一些修改.本文档中没有说明的地方,请参看SUN Java标准代码规范.如果两边有冲突,以SU ...
Java代码实现excel数据导入到Oracle
1.首先需要两个jar包jxl.jar,ojdbc.jar(注意版本,版本不合适会报版本错误)2.代码: Java代码 import java.io.File; import java.io.Fi ...

随机推荐

【CF840D】Destiny 分治(线段树)
[CF840D]Destiny 题意:给你一个长度为n的序列,q次询问,每次指定l r k,求[l,r]中出现次数$>\frac {r-l+1} k$的所有数中最小的那个数. $n,q\le 3 ...
Express 4.x Node.js的Web框架----《转载》
本文使用node.js v0.10.28 + express 4.2.0 1 Express概述 Express 是一个简洁而灵活的node.js的MVC Web应用框架,提供一系列强大特性创建各种W ...
iOS - 获取安装所有App的Bundle ID
先导入#import <objc/runtime.h>头文件使用runtime获取设备上的所有app的bundle id // Class LSApplicationWorkspace_ ...
php---进行RSA进行非对称加密
参考文档: https://blog.csdn.net/zhihua_w/article/details/74002212 http://www.bm8.com.cn/webtool/rsa/http ...
vue--环境搭建（创建运行项目）
如何搭建vue环境: 1.安装之前必须要安装 node.js 2.搭建Vue环境,安装vue的脚手架工具 npm install --global vue-cli / cnpm install --g ...
号称简明实用的django上手教程
1 几个基本概念前置条件:假设读者基本Python语言基础,或者具备某种编程语言的基础.你还熟悉web开发环境,懂些css,js,db等. Django是什么? Django是一个开放源代码的Web ...
vue之单表输入绑定
vue的核心:声明式的指令和数据的双向绑定. 那么声明式的指令,已经给大家介绍完了.接下来我们来研究一下什么是数据的双向绑定? 另外,大家一定要知道vue的设计模式:MVVM M是Model的简写,V ...
vs code 搭建flutter运行环境（mac)
之前开发过hybrid app,用的是webview渲染,由于webview的体验会没有原生的体验好,所以对跨端原生开发燃起了学习的兴趣,在react-native和flutter之间纠结, 看了网上 ...
ubuntu-server-18.04 设置开机启动脚本
ubuntu-16.10 开始不再使用initd管理系统,改用systemd systemd is now used for user sessions. System sessions had al ...
HOJ 2148&POJ 2680（DP递推，加大数运算）
Computer Transformation Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 4561 Accepted: 17 ...

Q-learning简明实例Java代码实现

Q-learning简明实例Java代码实现的更多相关文章

随机推荐

热门专题