ML.NET 示例:多类分类之问题分类
写在前面
准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正。
如果有朋友对此感兴趣,可以加入我:https://github.com/feiyun0112/machinelearning-samples.zh-cn
GitHub Labeler
| ML.NET 版本 | API 类型 | 状态 | 应用程序类型 | 数据类型 | 场景 | 机器学习任务 | 算法 |
|---|---|---|---|---|---|---|---|
| v0.7 | 动态 API | 最新的 | 控制台应用程序 | .csv 文件 和 GitHub 问题 | 问题分类 | 多类分类 | SDCA 多类分类器 |
这是一个简单的原型应用程序,演示如何使用ML.NET APIs。主要的重点是创建、训练和使用在 Predictor.cs 类中实现的ML(机器学习)模型。
概述
GitHubLabeler 是一个.NET Core控制台应用程序, 它的功能如下:
- 在被标记的GitHub问题上训练ML模型,以教导模型如何为新问题分配标签。 (例如,您可以使用
corefx-issues-train.tsv文件,该文件包含来自包含来自公共的corefx存储库的问题) - 标记新问题。 应用程序将从
appsettings.json文件中指定的GitHub存储库中获取所有未标记的未解决问题,并使用在上面步骤中创建的受过训练的ML模型对其进行标记
这个ML模型使用ML.NET的多类分类算法(SdcaMultiClassTrainer)。
输入您的GitHub配置数据
在
appsettings.json文件中提供您的GitHub数据:为了允许应用程序在GitHub存储库中标记问题,您需要向 appsettings.json 文件中提供以下数据。
{
"GitHubToken": "YOUR-GUID-GITHUB-TOKEN",
"GitHubRepoOwner": "YOUR-REPO-USER-OWNER-OR-ORGANIZATION",
"GitHubRepoName": "YOUR-REPO-SINGLE-NAME"
}
您的用户帐户(`GitHubToken`)应具有对存储库(`GitHubRepoName`)的写入权限。
点击这里查看[如何创建Github令牌](https://help.github.com/articles/creating-a-personal-access-token-for-the-command-line/)。
`GitHubRepoOwner`可以是GitHub用户ID(即“MyUser”),也可以是GitHub组织(即“dotnet”)。
提供训练文件
a. 您可以使用现有的
corefx_issues.tsv数据文件来体验该程序。 在这种情况下,将从corefx存储库的标签中选择预测的标签。 无需更改。b. 要使用GitHub存储库中的标签,您需要在数据上训练模型。为此,请从您的存储库中导出GitHub问题到
.tsv文件,文件包含以下几列:- ID - 问题 ID
- Area - 问题的标签(以这种方式命名以避免与ML.NET中的Label概念混淆)
- Title - 问题的标题
- Description - 问题的描述
将文件添加到
Data文件夹下。更新DataSetLocation段以匹配您的文件名:
private static string DataSetLocation = $"{BaseDatasetsLocation}/corefx-issues-train.tsv";
训练
训练是通过已知示例(在本例中,是包含标签的问题)运行ML模型并教授它如何标记新问题的过程。在这个示例中,它是通过在控制台应用程序调用下列方法来完成:
BuildAndTrainModel(DataSetLocation, ModelFilePathName);
训练完成后,模型将保存为MLModels\GitHubLabelerModel.zip。
标记
当模型被训练后,它可以用于预测新问题的标签。
对于没有连接到真正的GitHub存储库的单个测试/演示,请在控制台应用程序中调用下列方法:
TestSingleLabelPrediction(ModelFilePathName);
要访问GitHub存储库的实际问题,请在控制台应用程序中调用另一个方法:
await PredictLabelsAndUpdateGitHub(ModelFilePathName);
为了便于在从GitHub仓库中读取问题时进行测试,它只会加载过去10分钟中创建的并且需要标记的未标记问题。 但是您可以修改这个配置:
Since = DateTime.Now.AddMinutes(-10)
您可以修改这些设置。 在预测标签后,程序会使用预测的标签更新GitHub仓库中的问题。
ML.NET 示例:多类分类之问题分类的更多相关文章
- ML.NET 示例:二元分类之信用卡欺诈检测
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/fei ...
- ML.NET 示例:开篇
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正. 如果有朋友对此感兴趣,可以加入我:https://github.com/fei ...
- ML.NET 示例:目录
ML.NET 示例中文版:https://github.com/feiyun0112/machinelearning-samples.zh-cn 英文原版请访问:https://github.com/ ...
- ipv4理论知识2-分类编址、ip分类、网络标识、主机标识、地址类、地址块
分类编址 ipv4的体系结构中有分类编址和无分类编址(后续会介绍到),在分类编址时,ipv4地址分为A.B.C.D.E这5类.每类占用的IP比例和个数如下图: ipv4分类识别 计算机以二进制方式存储 ...
- OC语言类的本质和分类
OC语言类的深入和分类 一.分类 (一)分类的基本知识 概念:Category 分类是OC特有的语言,依赖于类. 分类的作用:在不改变原来的类内容的基础上,为类增加一些方法. 添加一个分类: 文件 ...
- 李洪强iOS开发之OC语言类的深入和分类
OC语言类的深入和分类 一.分类 (一)分类的基本知识 概念:Category 分类是OC特有的语言,依赖于类. 分类的作用:在不改变原来的类内容的基础上,为类增加一些方法. 添加一个分类: 文件 ...
- destoon实现调用当前栏目分类及子分类和三级分类的方法
调用当前栏目分类及子分类和三级分类是程序设计里常用的方法,本文就来详细讲述destoon实现调用当前栏目分类及子分类和三级分类的方法.具体操作如下: 在destoon中提供了如下的调用语句: 一级分类 ...
- 【C#小知识】C#中一些易混淆概念总结(二)--------构造函数,this关键字,部分类,枚举 分类: C# 2014-02-03 01:24 1576人阅读 评论(0) 收藏
目录: [C#小知识]C#中一些易混淆概念总结--------数据类型存储位置,方法调用,out和ref参数的使用 继上篇对一些C#概念问题进行细节的剖析以后,收获颇多.以前,读书的时候,一句话一掠而 ...
- wordpress 获取分类ID,分类标题,分类描述,分类链接url函数
get_cat_ID() 根据分类名称获取分类ID ///// get_cat_name() 根据分类ID获取分类名称 用法:<?phpget_cat_ID( $cat_name ...
随机推荐
- Java:[面向对象:继承,多态]
本文内容: 继承 多态 首发时期:2018-03-23 继承: 介绍: 如果多个类中存在相同的属性和行为,可以将这些内容抽取到单独一个类中,那么多个类(子类)无需再定义这些属性和行为,只要继承那个类( ...
- python ctypes 探究 ---- python 与 c 的交互
近几天使用 python 与 c/c++ 程序交互,网上有推荐swig但效果都不理想,所以琢磨琢磨了 python 的 ctypes 模块.同时,虽然网上有这方面的内容,但是感觉还是没说清楚.这里记录 ...
- 单页面登录——编码传参(oa会对#号会进行截断)
/** * querystring有四种方法:注意queryString与query-string不是同一个依赖包 * querystring.stringify 序列化; * querystri ...
- Spark编译
Spark的运行版本使用mvn编译,已经集成在源码中.如果机器有外网或者配置了http代理,可以直接调用编译命令来进行编译. windows&Linux命令如下: ./build/mvn \ ...
- Python中识别DataFrame中的nan
# 识别python中DataFrame中的nanfor i in pfsj.index: if type(pfsj.loc[i]['WZML']) == float: print('float va ...
- sql server 数据导出(入)方法总结
我们都知道日常在面对数据需求时需要导出数据,比较少量的数据导出我们一般是通过查询后另存即可,当面对数据量比较大的时候我们应该怎么处理?我搜索总结一些几个方法:1.bcp 导出.2.数据库本身自带的导入 ...
- Docker搭建wordpress博客环境(Centos7)
Docker搭建wordpress博客环境(Centos7) 升级系统 yum -y update 设置docker库 sudo yum install -y yum-utils sudo yum-c ...
- 写jQuery插件该注意的
写好jQuery插件,有一些注意的地方(持续添加). 支持UMD 现在前端开发讲究模块化,所以jQuery插件也最好能够兼顾模块化. 模块化模式大概有几种: AMD.CommonJs.UMD. AMD ...
- 关于C语言学习的一些感想(初学者)
C语言是一门通用计算机编程语言,广泛应用于底层开发.C语言的设计目标是提供一种能以简易的方式编译.处理低级存储器.产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言. 尽管C语言提供了许多低 ...
- Spring容器技术内幕之内部工作机制
引言 Spring容器就像一台构造精妙的机器,我们通过配置文件向机器传达控制信息,机器就能够按照设定的模式工作.如果将Spring容器比作一辆车,那么可以将BeanFactory看成汽车的发动机,而A ...