ML.NET 3.0 增强了深度学习和数据处理能力

.NET团队在 2023.11.28 在博客上正式发布了 ML.NET 3.0：：https://devblogs.microsoft.com/dotnet/announcing-ml-net-3-0/[1]，强调了两个主要的兴趣点，即深度学习和数据处理，使开发人员能够完全在 .NET 生态系统中创建注入 AI 的应用程序。开源 ML.NET 框架[2]的主要卖点，旨在帮助开发人员能够使用C#和F#构建自定义ML模型并将其集成到应用程序中。这是通过命令行（CLI）和模型生成器等工具完成的，或者创建像大型语言模型（LLM）这样的结构来完成，这些模型为 ChatGPT 和无处不在的“Copilot”AI 助手提供支持。

深度学习

深度学习是机器学习的一个子集，使用松散地类似于人脑行为的人工神经网络，以便从大量数据甚至非结构化数据等输入中“学习”。深度学习场景在v3.0版本中得到了大幅扩展，在三个领域具有新功能：对象检测、命名实体识别和问答。

ML.NET 3.0 中的对象检测是一种高级形式的图像分类，它不仅可以对图像中的实体进行分类，还可以对它们进行定位，因此非常适合图像包含多个不同类型的对象的场景。在v3.0中，通过与TorchSharp和ONNX模型的集成，对象检测功能得到了提升，Microsoft特别指出了TorchSharp支持的对象检测API。这些代表了在 ML.NET 框架内利用深度学习技术的重要一步。

对象检测API的底层技术包括微软研究院开发的基于Transformer的神经网络架构技术。这种方法表明了深度学习的现代趋势，特别是在计算机视觉方面。

TorchSharp 还有助于增强命名实体识别和问答，这两个常见的 ML 领域是自然语言处理（NLP）的一部分。在 ML.NET 3.0 中，通过利用之前引入的 TorchSharp RoBERTa 文本分类功能，解锁了这两种方案的增强功能。“NER和QA训练器都包含在 Microsoft.ML.TorchSharp 3.0.0包[3]和命名空间Microsoft.ML.TorchSharp中。

数据处理

数据处理方面主要是通过对 DataFrame（一种用于存储和操作数据的结构）以及新的 IDataView 互操作性功能的许多增强功能和 bug 修复，改进了方案。加载、检查、转换和可视化数据的重要步骤要强大得多。

具体注意事项包括：

增强的 <-> 转化：IDataViewDataFrame 添加了对 ReadOnlyMemory<char>和 VBufferDataFrameColumn<T>列类型的支持，其中的值作为并支持所有支持基元。
增加列数据容量：列现在可以存储超过 2 GB 的数据，从而消除了以前的限制。
Apache Arrow 集成：识别 Apache Arrow 的Date64列数据。
扩展的数据加载功能：包括使用 ADO.NET 的 SQL 数据库的导入和导出功能。此外，可以从任何IEnumerable集合加载数据并将其导出到System.Data.DataTable .
在 DataFrame 之间追加数据：当DataFrame列名匹配时，允许将数据从一个追加到另一个，从而放宽了对列顺序的约束。
重复列名的处理： DataFrame.LoadCsv增强了管理重复列名的功能，提供了重命名它们的选项。
改进了算术性能和空值处理：列克隆、二进制比较方案和算术运算的优化。
调试器增强功能：调试器中具有长名称的列的可读性更好。

Microsoft还指出了新的张量基元集成，它们不会直接影响开发任务，但确实提供了显着的性能改进。AutoML 可自动将机器学习应用于数据的过程，也得到了增强，增强了模型生成器和 ML.NET CLI 中的相关体验。

有关上述所有更改和其他更改的更多信息，请参见发行说明[4] .

展望未来，开发团队现在正在制定 .NET 9 和 ML.NET 4.0 的计划，模型生成器和 ML.NET CLI 预计将更快地更新，以便使用 ML.NET 3.0 版本。继续扩展深度学习场景和集成，我们将继续增强DataFrame，

ML.NET 3.0 增强了深度学习和数据处理能力的更多相关文章

深度学习_1_Tensorflow_2_数据_文件读取
tensorflow 数据读取队列和线程文件读取, 图片处理问题:大文件读取,读取速度, 在tensorflow中真正的多线程子线程读取数据向队列放数据(如每次100个),主线程学习,不用全 ...
深度学习中数据的augmentation
为了提高模型的泛化能力,同时也为了增大数据集,我们往往需要对数据进行augmentation,在这篇博客中,将总结一下可以对数据进行的augmentation. 1.颜色数据增强,对图像亮度.饱和度. ...
Pytorch1.0深度学习：损失函数、优化器、常见激活函数、批归一化详解
不用相当的独立功夫,不论在哪个严重的问题上都不能找出真理:谁怕用功夫,谁就无法找到真理. —— 列宁本文主要介绍损失函数.优化器.反向传播.链式求导法则.激活函数.批归一化. 1 经典损失函数 1. ...
paper 53 ：深度学习（转载）
转载来源:http://blog.csdn.net/fengbingchun/article/details/50087005 这篇文章主要是为了对深度学习(DeepLearning)有个初步了解,算 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...
如何使用深度学习破解验证码 keras 连续验证码
在实现网络爬虫的过程中,验证码的出现总是会阻碍爬虫的工作.本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法.通过本方法,可以在不切割图片.不做模板匹配的情况下实现精度超过90%的识别结果. ...
深度学习常用数据集 API（包括 Fashion MNIST）
基准数据集深度学习中经常会使用一些基准数据集进行一些测试.其中 MNIST, Cifar 10, cifar100, Fashion-MNIST 数据集常常被人们拿来当作练手的数据集.为了方便,诸如 ...
教你如何挑选深度学习GPU【转】
本文转载自:https://blog.csdn.net/qq_38906523/article/details/78730158 即将进入 2018 年,随着硬件的更新换代,越来越多的机器学习从业者又 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料(下）
转载:http://www.jianshu.com/p/b73b6953e849 该资源的github地址:Qix <Statistical foundations of machine lea ...
机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总
<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

随机推荐

国标GB28181视频平台EasyGBS视频监控平台无法播放，抓包返回ICMP排查过程
国标GB28181视频平台EasyGBS是基于国标GB/T28181协议的行业内安防视频流媒体能力平台,可实现的视频功能包括:实时监控直播.录像.检索与回看.语音对讲.云存储.告警.平台级联等功能.国 ...
ArcMap中矢量数据修改标注Label的方法
本文介绍在ArcMap软件中,修改图层标签(Label)所显示字段与具体显示内容的方法. 在之前的文章中,我们看到了ArcMap中修改图层标签的重要性:可是,如何自定义图层的标签内容呢? ...
QA||TypeError: ‘module‘ object is not callable报错怎么debugIHRM接口自动化测试
unittest.py生成测试报告时执行报错:TypeError: 'module' object is not callable 代码如下原因:结合pycharm自动标注和报错信息,分析出应该是H ...
万字长文深度解读Java线程池，硬核源码分析
前言本文将深入分析Java线程池的源码,包括线程池的创建.任务提交.工作线程的执行和线程池的关闭等过程.通过对线程池源码的解析,我们能够更好地理解线程池的原理和机制,为我们在实际开发中合理使用线程池 ...
一款广受社区好评的 WAF
大家好,我是 Java陈序员,我们有时会搭建一个属于自己的网站,但是自建网站很容易被收到攻击,今天给大家介绍一款简单免费好用的 WAF 网站防护工具. WAF 是 Web Application Fi ...
「acmhdu - 6314」Matrix
link. 首先将问题弱化为 1-d,我们待定容斥系数 \(f_i\),可以写出答案的式子:\(\sum\limits_{i=a}^nf_i\binom{n}{i}2^{n-i}\).解释就是,我们想 ...
Ds100p -「数据结构百题」11~20
11.P3203 [HNOI2010]弹飞绵羊某天,\(Lostmonkey\) 发明了一种超级弹力装置,为了在他的绵羊朋友面前显摆,他邀请小绵羊一起玩个游戏. 游戏一开始,\(Lostmonkey ...
PDFPlumber使用入门
目录背景教程开始应用场景安装命令行使用可选参数 Python包简单样例读取PDF pdfplumber.PDF类 pdfplumber.Page类对象(Object) chars / ...
python第2~5章学习笔记
# 第2~5章学习笔记 ## 什么是计算机语言计算机就是一台用来计算机的机器,人让计算机干什么计算机就得干什么! 需要通过计算机的语言来控制计算机(编程语言)! 计算机语言其实和人类的语言没有本质 ...
About Info-ZIP
LATEST RELEASES: Zip 3.00 was released on 7 July 2008. WiZ 5.03 was released on 11 March 2005. UnZip ...

ML.NET 3.0 增强了深度学习和数据处理能力

[1] Announcing ML.NET 3.0：https://devblogs.microsoft.com/dotnet/announcing-ml-net-3-0/

[2]开源 ML.NET 框架: https://github.com/dotnet/machinelearning

[3]Microsoft.ML.TorchSharp 3.0.0包： https://www.nuget.org/packages/Microsoft.ML.TorchSharp/3.0.0

[4]ML.NET 发行说明：https://github.com/dotnet/machinelearning/blob/main/docs/release-notes/3.0/release-3.0.0.md

ML.NET 3.0 增强了深度学习和数据处理能力的更多相关文章

随机推荐

热门专题