基于贝叶斯算法实现简单的分类（java）

参考文章：https://blog.csdn.net/qq_32690999/article/details/78737393

项目代码目录结构

模拟训练的数据集

核心代码

Bayes.java

package IsStudent_bys;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.Map;

public class Bayes {

    //按类别分类

    //输入：训练数据（dataSet）

    //输出：类别到训练数据的一个Map

    public Map<String,ArrayList<ArrayList<String>>> classify(ArrayList<ArrayList<String>> dataSet){

        Map<String,ArrayList<ArrayList<String>>> map = new HashMap<String, ArrayList<ArrayList<String>>>(); //待返回的Map

        int num=dataSet.size();

        for(int i=0;i<num;i++)  //遍历所有数据项

        {

            ArrayList<String> Y = dataSet.get(i);  //将第i个训练样本的信息取出

            String Class = Y.get(Y.size()-1).toString();  //约定将类别信息放在最后一个字符串

            if(map.containsKey(Class)){  //判断map中是否已经有这个类了

                map.get(Class).add(Y);

            }else{  //若没有这个类就新建一个可变长数组记录并加入map

                ArrayList<ArrayList<String>> nlist = new ArrayList<ArrayList<String>>();

                nlist.add(Y);

                map.put(Class,nlist);

            }

        }

        return map;

    }

    //计算分类后每个类对应的样本中某个特征出现的概率

    //输入：某一类别对应的数据（classdata） 目标值（value） 相应的列值（index）

    //输出:该类数据中相应列上的值等于目标值得频率

    public double CalPro_yj_c(ArrayList<ArrayList<String>> classdata, String value, int index){

        int sum = 0;  //sum用于记录相同特征出现的频数

        int num = classdata.size();

        for(int i=0;i<num;i++)

        {

            ArrayList<String> Y = classdata.get(i);

            if(Y.get(index).equals(value)) sum++;  //相同则计数

        }

        return (double)sum/num;  //返回频率，以频率带概率

    }

    //贝叶斯分类器主函数

    //输入：训练集（可变长数组）；待分类集

    //输出：概率最大的类别

    public String bys_Main(ArrayList<ArrayList<String>> dataSet, ArrayList<String> testSet){

        Map<String, ArrayList<ArrayList<String>>> doc = this.classify(dataSet);  //用本class中的分类函数构造映射

        Object classes[] = doc.keySet().toArray(); //把map中所有的key取出来（即所有类别） ，借鉴学习了object的使用（待深入了解）

        double Max_Value=0.0; //最大的概率

        int Max_Class=-1;     //用于记录最大类的编号

        for(int i=0;i<doc.size();i++)  //对每一个类分别计算，本程序只有两个类

        {

            String c = classes[i].toString();  //将类提取出

            ArrayList<ArrayList<String>> y = doc.get(c);  //提取该类对应的数据列表

            double prob = (double)y.size()/dataSet.size();  //计算比例

            System.out.println(c+" : "+prob);  //输出该类的样本占总样本个数的比例！

            for(int j=0;j<testSet.size();j++)  //对每个属性计算先验概率

            {

                double P_yj_c = CalPro_yj_c(y,testSet.get(j),j);

                //输出中间结果以便测试System.out.println("now in bys_Main!!"+P_yj_c);

                prob = prob*P_yj_c;

            }

            System.out.printf("P(%s | testcase) * P(testcase) = %f\n",c,prob);  //输出分子的概率大小

            if(prob>Max_Value)  //更新分子最大概率

            {

                Max_Value=prob;

                Max_Class=i;

            }

        }

        return classes[Max_Class].toString();

    }

}

FetchData.java

package IsStudent_bys;

import java.io.IOException;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.ResultSet;

import java.sql.SQLException;

import java.sql.Statement;

import java.util.ArrayList;

import java.util.StringTokenizer;

public class FetchData {

    //连接数据库，读取训练数据

    //输入：数据库

    //输出：可变长数组

    public ArrayList<ArrayList<String>> fetch_traindata(){

        ArrayList<ArrayList<String>> dataSet = new ArrayList<ArrayList<String>>();  //待返回

        Connection conn;

        String driver = "com.mysql.jdbc.Driver";

        String url = "jdbc:mysql://localhost:3306/Bayes";  //指向要访问的数据库！注意后面跟的是数据库名称

        String user = "root";   //navicat for sql配置的用户名

        String password = "root";  //navicat for sql配置的密码

        try{

            Class.forName(driver);  //用class加载动态链接库——驱动程序

            conn = DriverManager.getConnection(url,user,password);  //利用信息链接数据库

            if(!conn.isClosed())

                System.out.println("Succeeded connecting to the Database!");

            Statement statement = conn.createStatement();  //用statement 来执行sql语句

            String sql = "select * from TrainData";   //这是sql语句中的查询某个表，注意后面的emp是表名！！！

            ResultSet rs = statement.executeQuery(sql);  //用于返回结果

            String str = null;

            while(rs.next()){  //一直读到最后一条表

                ArrayList<String> s= new ArrayList<String>();

                str = rs.getString("Sex");  //分别读取相应栏位的信息加入到可变长数组中

                s.add(str);

                str = rs.getString("tatto");

                s.add(str);

                str = rs.getString("smoking");

                s.add(str);

                str = rs.getString("wearglasses");

                s.add(str);

                str = rs.getString("ridebike");

                s.add(str);

                str = rs.getString("isStudent");

                s.add(str);

                dataSet.add(s);  //加入dataSet

                //System.out.println(s);  输出中间结果调试

            }

            rs.close();

            conn.close();

        }catch(ClassNotFoundException e){  //catch不同的错误信息，并报错

            System.out.println("Sorry,can`t find the Driver!");

            e.printStackTrace();

        }catch(SQLException e){

            e.printStackTrace();

        }catch (Exception e) {

            e.printStackTrace();

        }finally{

            System.out.println("数据库训练数据读取成功！");

        }

        return dataSet;

    }

    public ArrayList<String> read_testdata(String str) throws IOException  //将用户输入的一整行字符串分割解析成可变长数组

    {

        ArrayList<String> testdata=new ArrayList<String>();  //待返回

        StringTokenizer tokenizer = new StringTokenizer(str);

        while (tokenizer.hasMoreTokens()) {

            testdata.add(tokenizer.nextToken());

        }

        return testdata;

    }

}

Main.java

package IsStudent_bys;

import java.io.BufferedInputStream;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Scanner;

public class Main {

    //主函数，读取数据库，并读入待判定数据，输出结果

    public static void main(String[] args) {

        FetchData Fdata = new FetchData();   //java对函数的调用要先声明相应的对象再调用

        Bayes bys = new Bayes();

        ArrayList<ArrayList<String>> dataSet = null; //训练数据列表

        ArrayList<String> testSet = null; //测试数据

        try{

            System.out.println("从数据库读入训练数据：");

            dataSet = Fdata.fetch_traindata();   //读取训练数据集合

            System.out.println("请输入测试数据：");

            Scanner cin = new Scanner(new BufferedInputStream(System.in));  //从标准输入输出中读取测试数据

            while(cin.hasNext())  //支持多条测试数据读取

            {

                String str = cin.nextLine();   //先读入一行

                testSet = Fdata.read_testdata(str);//将这一行进行字符串分隔解析后返回可变长数组类型

                //System.out.println(testSet);  //输出中间结果

                String ans = bys.bys_Main(dataSet, testSet);  //调用贝叶斯分类器

                if(ans.equals("yes")) System.out.println("Yes!!! 根据已有数据推断极有可能像是一个学生!");  //输出结果

                else System.out.println("他/她 的特征不像一名学生!");

            }

            cin.close();

        }catch (IOException e) {  //处理异常

            e.printStackTrace();

        }

    }

}

运行效果截图：

基于贝叶斯算法实现简单的分类（java）的更多相关文章

【sklearn朴素贝叶斯算法】高斯分布/多项式/伯努利贝叶斯算法以及代码实例
朴素贝叶斯朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法,其"朴素"假设是:给定类别变量的每一对特征之间条件独立.贝叶斯定理描述了如下关系: 给定类别变量$y$以及属性值向 ...
Atitti 文本分类以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案
Atitti 文本分类以及垃圾邮件判断原理以及贝叶斯算法的应用解决方案 1.1. 七.什么是贝叶斯过滤器?1 1.2. 八.建立历史资料库2 1.3. 十.联合概率的计算3 1.4. 十一. ...
【十大算法实现之naive bayes】朴素贝叶斯算法之文本分类算法的理解与实现
关于bayes的基础知识,请参考: 基于朴素贝叶斯分类器的文本聚类算法 (上) http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.h ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理
Atitit 贝叶斯算法的原理以及垃圾邮件分类的原理 1.1. 最开始的垃圾邮件判断方法,使用contain包含判断,只能一个关键词,而且100%概率判断1 1.2. 元件部件串联定律1 1.3. 垃 ...
Naive Bayes(朴素贝叶斯算法)[分类算法]
Naïve Bayes(朴素贝叶斯)分类算法的实现 (1) 简介: (2) 算法描述: (3) <?php /* *Naive Bayes朴素贝叶斯算法(分类算法的实现) */ /* *把. ...
[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先 ...
朴素贝叶斯算法--python实现
朴素贝叶斯算法要理解一下基础: [朴素:特征条件独立贝叶斯:基于贝叶斯定理] 1朴素贝叶斯的概念[联合概率分布.先验概率.条件概率**.全概率公式][条件独立性假设.] 极大似然估计 ...
Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...

随机推荐

[物理学与PDEs]第1章第6节电磁场的标势与矢势 6.2 电磁场的标势与矢势
1. 标势.矢势: $$\beex \bea \Div{\bf B}=0&\ra \exists\ {\bf A},\st {\bf B}=\rot{\bf A},\\ \rot{\bf ...
基于STM32F1的局域网通信模块W5500驱动
目录说明 W5500 W5500.c 使用方法说明需要调整的内容为W5500.h中关于IP地址.端口号.子网掩码.网关等参数 W5500 #ifndef _W5500_H_ #define _W ...
3.让linux 增加 wget 命令
Wget主要用于下载文件,在安装软件时会经常用到直接执行命令 : sudo yum -y install wget 就可以使用wget了
LeetCode前100题（EASY难度）
1 Two Sum Given an array of integers, return indices of the two numbers such that they add up to a s ...
022_word中如何正确的使用正则表达式进行搜索
一.word中正则表达式详解 https://www3.ntu.edu.sg/home/ehchua/programming/howto/PowerUser_MSOffice.html 实战举例: ( ...
selenium——find_element_by_xx 与 find_element(By.XX,'XXXX')
【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住
spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabas ...
Java_修饰符
目录访问控制修饰符非访问修饰符在java中修饰符主要分为两类:++访问修饰符++和++非访问修饰符++ 访问控制修饰符修饰符当前类同一包内子孙类其他包其他包子孙类 public Y ...
并发研究之CPU缓存一致性协议(MESI)
CPU缓存一致性协议MESI CPU高速缓存(Cache Memory) CPU为何要有高速缓存 CPU在摩尔定律的指导下以每18个月翻一番的速度在发展,然而内存和硬盘的发展速度远远不及CPU.这就造 ...
分享腾讯云的Linux服务器连接速度很慢的解决心得（原创）
最近发觉连接服务器非常慢,之前没有出现过这种情况. 我在这个腾讯云的服务器上弄了很多虚拟服务器,估计是数据量太大造成了冗余数据较多的原因,咨询了下腾讯云的小哥, 给我了个明确的回复: 您反馈Xshe ...

基于贝叶斯算法实现简单的分类（java）

基于贝叶斯算法实现简单的分类（java）的更多相关文章

随机推荐

热门专题