Q-learning简明实例Java代码实现

在《Q-learning简明实例》中我们介绍了Q-learning算法的简单例子，从中我们可以总结出Q-learning算法的基本思想

本次选择的经验得分 = 本次选择的反馈得分 + 本次选择后场景的历史最佳经验得分

其中反馈得分是单个步骤的价值分值（固定的分值），经验得分是完成目标的学习分值（动态的分值）。

简明实例的Java实现如下

package com.coshaho.learn.qlearning;

import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

import java.util.Random;

/**

 *

 * QLearning.java Create on 2017年9月4日 下午10:08:49

 *

 * 类功能说明:   QLearning简明例子实现

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class QLearning

{

    FeedbackMatrix R = new FeedbackMatrix();

    ExperienceMatrix Q = new ExperienceMatrix();

    public static void main(String[] args)

    {

        QLearning ql = new QLearning();

        for(int i = 0; i < 500; i++)

        {

            Random random = new Random();

            int x = random.nextInt(100) % 6;

            System.out.println("第" + i + "次学习, 初始房间是" + x);

            ql.learn(x);

            System.out.println();

        }

    }

    public void learn(int x)

    {

        do

        {

            // 随机选择一个联通的房间进入

            int y =  chooseRandomRY(x);

            // 获取以进入的房间为起始点的历史最佳得分

            int qy = getMaxQY(y);

            // 计算此次移动的得分

            int value = calculateNewQ(x, y, qy);

            Q.set(x, y, value);

            x = y;

        }

        // 走出房间则学习结束

        while(5 != x);

        Q.print();

    }

    public int chooseRandomRY(int x)

    {

        int[] qRow = R.getRow(x);

        List<Integer> yValues = new ArrayList<Integer>();

        for(int i = 0; i < qRow.length; i++)

        {

            if(qRow[i] >= 0)

            {

                yValues.add(i);

            }

        }

        Random random = new Random();

        int i = random.nextInt(yValues.size()) % yValues.size();

        return yValues.get(i);

    }

    public int getMaxQY(int x)

    {

        int[] qRow = Q.getRow(x);

        int length = qRow.length;

        List<YAndValue> yValues = new ArrayList<YAndValue>();

        for(int i = 0; i < length; i++)

        {

            YAndValue yv = new YAndValue(i, qRow[i]);

            yValues.add(yv);

        }

        Collections.sort(yValues);

        int num = 1;

        int value = yValues.get(0).getValue();

        for(int i = 1; i < length; i++)

        {

            if(yValues.get(i).getValue() == value)

            {

                num = i + 1;

            }

            else

            {

                break;

            }

        }

        Random random = new Random();

        int i = random.nextInt(num) % num;

        return yValues.get(i).getY();

    }

    // Q(x,y) = R(x,y) + 0.8 * max(Q(y,i))

    public int calculateNewQ(int x, int y, int qy)

    {

        return (int) (R.get(x, y) + 0.8 * Q.get(y, qy));

    }

    public static class YAndValue implements Comparable<YAndValue>

    {

        int y;

        int value;

        public int getY() {

            return y;

        }

        public void setY(int y) {

            this.y = y;

        }

        public int getValue() {

            return value;

        }

        public void setValue(int value) {

            this.value = value;

        }

        public YAndValue(int y, int value)

        {

            this.y = y;

            this.value = value;

        }

        public int compareTo(YAndValue o)

        {

            return o.getValue() - this.value;

        }

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * FeedbackMatrix.java Create on 2017年9月4日 下午9:52:41

 *

 * 类功能说明:   反馈矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class FeedbackMatrix

{

    public int get(int x, int y)

    {

        return R[x][y];

    }

    public int[] getRow(int x)

    {

        return R[x];

    }

    private static int[][] R = new int[6][6];

    static

    {

        R[0][0] = -1;

        R[0][1] = -1;

        R[0][2] = -1;

        R[0][3] = -1;

        R[0][4] = 0;

        R[0][5] = -1;

        R[1][0] = -1;

        R[1][1] = -1;

        R[1][2] = -1;

        R[1][3] = 0;

        R[1][4] = -1;

        R[1][5] = 100;

        R[2][0] = -1;

        R[2][1] = -1;

        R[2][2] = -1;

        R[2][3] = 0;

        R[2][4] = -1;

        R[2][5] = -1;

        R[3][0] = -1;

        R[3][1] = 0;

        R[3][2] = 0;

        R[3][3] = -1;

        R[3][4] = 0;

        R[3][5] = -1;

        R[4][0] = 0;

        R[4][1] = -1;

        R[4][2] = -1;

        R[4][3] = 0;

        R[4][4] = -1;

        R[4][5] = 100;

        R[5][0] = -1;

        R[5][1] = 0;

        R[5][2] = -1;

        R[5][3] = -1;

        R[5][4] = 0;

        R[5][5] = 100;

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * ExperienceMatrix.java Create on 2017年9月4日 下午10:03:08

 *

 * 类功能说明:   经验矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class ExperienceMatrix

{

    public int get(int x, int y)

    {

        return Q[x][y];

    }

    public int[] getRow(int x)

    {

        return Q[x];

    }

    public void set(int x, int y, int value)

    {

        Q[x][y] = value;

    }

    public void print()

    {

        for(int i = 0; i < 6; i++)

        {

            for(int j = 0; j < 6; j++)

            {

                String s = Q[i][j] + "  ";

                if(Q[i][j] < 10)

                {

                    s = s + "  ";

                }

                else if(Q[i][j] < 100)

                {

                    s = s + " ";

                }

                System.out.print(s);

            }

            System.out.println();

        }

    }

    private static int[][] Q = new int[6][6];

    static

    {

        Q[0][0] = 0;

        Q[0][1] = 0;

        Q[0][2] = 0;

        Q[0][3] = 0;

        Q[0][4] = 0;

        Q[0][5] = 0;

        Q[1][0] = 0;

        Q[1][1] = 0;

        Q[1][2] = 0;

        Q[1][3] = 0;

        Q[1][4] = 0;

        Q[1][5] = 0;

        Q[2][0] = 0;

        Q[2][1] = 0;

        Q[2][2] = 0;

        Q[2][3] = 0;

        Q[2][4] = 0;

        Q[2][5] = 0;

        Q[3][0] = 0;

        Q[3][1] = 0;

        Q[3][2] = 0;

        Q[3][3] = 0;

        Q[3][4] = 0;

        Q[3][5] = 0;

        Q[4][0] = 0;

        Q[4][1] = 0;

        Q[4][2] = 0;

        Q[4][3] = 0;

        Q[4][4] = 0;

        Q[4][5] = 0;

        Q[5][0] = 0;

        Q[5][1] = 0;

        Q[5][2] = 0;

        Q[5][3] = 0;

        Q[5][4] = 0;

        Q[5][5] = 0;

    }

}

经过500次计算得到如下结果

第499次学习, 初始房间是1

0    0    0    0    396  0

0    0    0    316  0    496

0    0    0    316  0    0

0    396  252  0    396  0

316  0    0    316  0    496

0    396  0    0    396  496

此时，我们从任意一个房间进入，每次选取最高分值步骤移动，总可以找到最短的逃离路径。

Q-learning简明实例Java代码实现的更多相关文章

实例: Java代码操作oracle数据库(JDBC+sevrlet+jsp+html)
1, 注册页面 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Strict//EN" "http://www.w3.or ...
Kettle变量和自己定义java代码的实例应用
1 kettle.properties參数配置数据源连接和FTP连接因为測试环境和生产环境中数据库连接FTP等配置会在部署过程中变更,所以预先定义成配置项,在配置文件里改动.这样測试和公布将会变得 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
ActiveMQ——activemq的使用java代码实例（精选）
ActiveMQ 在java中的使用,通过单例模式.工厂实现 Jms规范里的两种message传输方式Topic和Queue,两者的对比如下表(): Topic Queue 概要 Publish ...
java代码的初始化过程研究
刚刚在ITeye上看到一篇关于java代码初始化的文章,看到代码我试着推理了下结果,虽然是大学时代学的知识了,没想到还能做对.(看来自己大学时掌握的基础还算不错,(*^__^*) 嘻嘻……)但 ...
使用Java代码实现对宽带的连接
对于多个类似的用户名相同的密码,运行java代码实现对宽带的自动连接这是源代码: import java.io.BufferedReader; import java.io.IOException; ...
JavaBean 基础概念、使用实例及代码分析
JavaBean 基础概念.使用实例及代码分析 JavaBean的概念 JavaBean是一种可重复使用的.且跨平台的软件组件. JavaBean可分为两种:一种是有用户界面的(有UI的):另一种是没 ...
Java代码规范
Java代码规范本Java代码规范以SUN的标准Java代码规范为基础,为适应我们公司的实际需要,可能会做一些修改.本文档中没有说明的地方,请参看SUN Java标准代码规范.如果两边有冲突,以SU ...
Java代码实现excel数据导入到Oracle
1.首先需要两个jar包jxl.jar,ojdbc.jar(注意版本,版本不合适会报版本错误)2.代码: Java代码 import java.io.File; import java.io.Fi ...

随机推荐

WIN7开启wifi热点
1.首先,先确定自己的笔记本网卡支持“启动承载网络”的功能,使用管理员运行cmd命令.启用管理员运行CMD的方法Windows-所有程序-附件-运行(右键,以管理员身份运行)在弹出的CMD窗口里面敲击 ...
iOS property中的strong 、weak、copy 、assign 、retain 、unsafe_unretained 与autoreleasing区别和作用详解
iOS5中加入了新知识,就是ARC,其实我并不是很喜欢它,因为习惯了自己管理内存.但是学习还是很有必要的. 在iOS开发过程中,属性的定义往往与retain, assign, copy有关,我想大家都 ...
oracle如何删除表空间
drop tablespace 表空间名 including contents and datafiles cascade constraint; ............. 以system用户登录, ...
springMVC 几种页面跳转方式
今天主要写一下响应界面跳转的几种方式 1.在注解的方式中 1.1通过HttpServletResponse的API直接输出(不需要配置渲染器) controller类的主要代码 @Controller ...
Django---Mysql数据库链接
Django链接Mysql数据库: 第一步:创建应用 python manage.py startapp index 第二步:将应用添加到配置里面 settings INSTALLED_APPS = ...
前端基础进阶之Promise
前言 Promise的重要性我认为我没有必要多讲,概括起来说就是必须得掌握,而且还要掌握透彻.这篇文章的开头,主要跟大家分析一下,为什么会有Promise出现. 在实际的使用当中,有非常多的应用场景我 ...
使用pidstat监控资源使用
linux可以使用pidstat命令监控系统资源,比如监控cup使用如下: pidstat -u 还可以使用 -r(内存) -d(硬盘)
FileStream实现多线程断点续传（已封装）
处理文件分片处理缺失的分片文件合并分片文件 MD5验证文件 using System; using System.Collections.Generic; using System.IO; usi ...
Effective Java 目录
<Effective Java>目录摘抄. 我知道这看起来很糟糕.当下,自己缺少实际操作,只能暂时摘抄下目录.随着,实践的增多,慢慢填充更多的示例. Chapter 2 Creating ...
operator, itertools
import operator import itertools info_list = [ {'name': 'Quinn', 'age': 50}, {'name': 'Ryan', 'age': ...

Q-learning简明实例Java代码实现

Q-learning简明实例Java代码实现的更多相关文章

随机推荐

热门专题