MindSpore框架加载文本数据集示例

代码原地址：

https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/use/load_dataset_text.html

=======================================================

完整代码：

import os

os.system("rm -f ./datasets/tokenizer.txt")

if not os.path.exists('./datasets'):

    os.mkdir('./datasets')

file_handle=open('./datasets/tokenizer.txt',mode='w')

file_handle.write('Welcome to Beijing \n北京欢迎您！ \n我喜欢English! \n')

file_handle.close()

import mindspore.dataset as ds

import mindspore.dataset.text as text

DATA_FILE = './datasets/tokenizer.txt'

dataset = ds.TextFileDataset(DATA_FILE, shuffle=False)

ds.config.set_seed(58)

dataset = dataset.shuffle(buffer_size=3)

for data in dataset.create_dict_iterator(output_numpy=True):

    print(text.to_str(data['text']))

print('='*30)

replace_op1 = text.RegexReplace("Beijing", "Shanghai")

replace_op2 = text.RegexReplace("北京", "上海")

dataset = dataset.map(operations=replace_op1)

dataset = dataset.map(operations=replace_op2)

for data in dataset.create_dict_iterator(output_numpy=True):###need to mark

    print(text.to_str(data['text']))

print('='*30)

tokenizer = text.WhitespaceTokenizer()

dataset = dataset.map(operations=tokenizer)

for data in dataset.create_dict_iterator(num_epochs=1,output_numpy=True):

    print(text.to_str(data['text']).tolist())

运行结果：

============================================================================

需要注意的一点是，如果将

dataset.create_dict_iterator(output_numpy=True) 改为

dataset.create_dict_iterator()


则会报错：

修改后的代码：

import os

os.system("rm -f ./datasets/tokenizer.txt")

if not os.path.exists('./datasets'):

    os.mkdir('./datasets')

file_handle=open('./datasets/tokenizer.txt',mode='w')

file_handle.write('Welcome to Beijing \n北京欢迎您！ \n我喜欢English! \n')

file_handle.close()

import mindspore.dataset as ds

import mindspore.dataset.text as text

DATA_FILE = './datasets/tokenizer.txt'

dataset = ds.TextFileDataset(DATA_FILE, shuffle=False)

ds.config.set_seed(58)

dataset = dataset.shuffle(buffer_size=3)

for data in dataset.create_dict_iterator(output_numpy=True):

    print(text.to_str(data['text']))

print('='*30)

replace_op1 = text.RegexReplace("Beijing", "Shanghai")

replace_op2 = text.RegexReplace("北京", "上海")

dataset = dataset.map(operations=replace_op1)

dataset = dataset.map(operations=replace_op2)

for data in dataset.create_dict_iterator():###need to mark

    print(text.to_str(data['text']))

print('='*30)

tokenizer = text.WhitespaceTokenizer()

dataset = dataset.map(operations=tokenizer)

for data in dataset.create_dict_iterator(num_epochs=1,output_numpy=True):

    print(text.to_str(data['text']).tolist())

报错信息：

WARNING: 'ControlDepend' is deprecated from version 1.1 and will be removed in a future version, use 'Depend' instead.
[WARNING] ME(5047:140238748528768,MainProcess):2021-07-11-02:12:43.597.916 [mindspore/ops/operations/array_ops.py:2302] WARN_DEPRECATED: The usage of Pack is deprecated. Please use Stack.
我喜欢English!
Welcome to Beijing
北京欢迎您！
==============================
Traceback (most recent call last):
File "/tmp/pycharm_project_753/x.py", line 34, in <module>
    for data in dataset.create_dict_iterator():###need to mark
File "/usr/local/python-3.7.5/lib/python3.7/site-packages/mindspore/dataset/engine/iterators.py", line 125, in __next__
    data = self._get_next()
File "/usr/local/python-3.7.5/lib/python3.7/site-packages/mindspore/dataset/engine/iterators.py", line 169, in _get_next
    return {k: self._transform_tensor(t) for k, t in self._iterator.GetNextAsMap().items()}
File "/usr/local/python-3.7.5/lib/python3.7/site-packages/mindspore/dataset/engine/iterators.py", line 169, in <dictcomp>
    return {k: self._transform_tensor(t) for k, t in self._iterator.GetNextAsMap().items()}
File "/usr/local/python-3.7.5/lib/python3.7/site-packages/mindspore/dataset/engine/iterators.py", line 84, in <lambda>
    self._transform_tensor = lambda t: Tensor(t.as_array())
File "/usr/local/python-3.7.5/lib/python3.7/site-packages/mindspore/common/tensor.py", line 74, in __init__
    raise TypeError(f"For Tensor, the input_data is a numpy array, "
TypeError: For Tensor, the input_data is a numpy array, but it's data type is not in supported list: ['int8', 'int16', 'int32', 'int64', 'uint8', 'uint16', 'uint32', 'uint64', 'float16', 'float32', 'float64', 'bool_'].

进程已结束，退出代码为 1



其原因就是如果设置output_numpy=True， 
那么输出的就是numpy类型数据，由于输入的是numpy类型数据，那么在内部进行数据处理时不对数据类型进行转换。

而如果设置output_numpy=False  (默认设置)， 
那么输出的就是Tensor类型数据，由于输入的是numpy类型数据，那么在内部进行数据处理时就需要对数据类型进行转换。

根据报错信息：
TypeError: For Tensor, the input_data is a numpy array, but it's data type is not in supported list: ['int8', 'int16', 'int32', 'int64', 'uint8', 'uint16', 'uint32', 'uint64', 'float16', 'float32', 'float64', 'bool_'].

我们可以知道如果内部需要对数据类型转换的话，那么输入数据必须是以下类型：

['int8', 'int16', 'int32', 'int64', 'uint8', 'uint16', 'uint32', 'uint64', 'float16', 'float32', 'float64', 'bool_'].

或者是可以转换为这些类型的数据，而我们调用 dataset.create_dict_iterator 时其内部输入的数据是 字符型（str）, 因此无法转换从而报错。

===============================================================

不过这里不得不吐槽以下MindSpore框架的报错信息写的真是很需要猜，不然真是看不懂，要是没有些经验的话这种报错信息也是难以懂的。

MindSpore框架加载文本数据集示例的更多相关文章

用华为MindSpore框架训练数据库类型的数据集
技术背景在前面一篇博客我们讲到三种用python去读取一个文件的指定行的操作,最终给出的一个结论大概是,对于大型的数据而言,最快的找到指定行的方法是Linux系统自带的sed指令,那么是否只有这一种 ...
未能加载文件或程序集“AspNetPager”或它的某一个依赖项。参数错误（转）
未能加载文件或程序集“AspNetPager”或它的某一个依赖项.参数错误. 看你的的开发框架用的是多少的2.0, 3.0, 3.5, 4.0 那么删除的框架的文件夹也相对应的变化删除 C:\W ...
未能加载文件或程序集“DeveloperKit10.1/DotNet/ESRI.ArcGIS.ADF.Local.或它的某一个依赖项
使用VS2010进行ArcGIS Engine 10.1进行开发过程中,出现: 错误 1 未能加载文件或程序集“file:///D:/ArcGIS/DeveloperKit10.0/DotNet/ES ...
使用Autofac部署IIS6.0时未能加载文件或程序集“System.Core, Version=2.0.5.0...“
错误信息 .net4.0项目中使用autofac这个IOC容器,在部署在win2003+iis6时出现以下错误. “/”应用程序中的服务器错误. --------------------------- ...
【Win 10 应用开发】在代码中加载文本资源
记得前一次,老周给大伙,不,小伙伴们介绍了如何填写 .resw 文件,并且在 XAML 中使用 x:Uid 标记来加载.也顺便给大伙儿分析了运行时是如何解析 .resw 文件的. 本来说好了,后续老周 ...
未能加载文件或程序集“file:///C:\Program Files (x86)\SAP BusinessObjects\Crystal Reports for .NET Framework 4.0
未能加载文件或程序集"file:///C:\Program Files (x86)\SAP BusinessObjects\Crystal Reports for .NET Framewor ...
[c#.net]未能加载文件或程序集“”或它的某一个依赖项。系统找不到指定的文件
问题是这样嘀: 项目采用了三层架构和工厂模式,并借鉴了PetShop的架构,因为这个项目也是采用分布式的数据库,目前只有三个数据库,主要出于提高访问性能考虑. 原来是按照网上对PetShop的介绍来给 ...
c# 未能加载文件或程序集
最近做项目时碰到这个问题了,goole.百度了半天,整理了以下几种可能: DLL文件名与加载时的DLL文件名不一致, DLL文件根本不存在,即出现丢失情况, 加载DLL路径错误,即DLL文件存在,但加 ...
未能加载文件或程序集“file:///D:/Program Files (x86)/ArcGIS/DeveloperKit10.0/DotNet/ESRI.ArcGIS.3DAnalyst.dll”或它的某一个依赖项。试图加载格式不正确的程序。行 129，位置 5。
能加载文件或程序集“file:///C:/Program Files (x86)/ArcGIS/DeveloperKit10.0/DotNet/ESRI.ArcGIS.ADF.Local.dll”或它 ...
.net应用程序安装部署时异常 Error 1001. 在初始化安装时发生异常 System.BadImageFormatException：未能加载文件或程序集的解决办法【成功解决】
采用.net 4.0框架开发的一个桌面应用程序在某学校的一体机(Windows7的32位操作系统)上做安装部署时抛出异常,安装程序回滚,多次尝试仍不成功. Error 1001. 在初始化安装时发生异 ...

随机推荐

谁说.net core不好动态访问webservice？看这篇文章，C#快速实现动态访问webservice，兼容.net framework和.net core+
前言:访问webservice,大多数人都是用服务引用的方式,但是这种方式比较麻烦,例如遇到服务更新了,你还需要手动更新你的服务引用,再重新发布,很麻烦.或者已有的一些例子,至少我看到的很多案例,动态 ...
Kubernetes监控手册02-宿主监控概述
咱们这个系列是讲解 Kubernetes 监控,Kubernetes 自身也是要跑在机器上的,那机器的监控自然也是整个体系的一环.机器层面的监控分为两部分,带内网络和带外网络,通过带内网络做监控主要是 ...
idea中vue的启动方式
1.选取 2.添加 3.配置 4.启动启动前先在终端执行 npm install 命令再启动
博客更换新域名为52ecy.cn
Tips:当你看到这个提示的时候,说明当前的文章是由原emlog博客系统搬迁至此的,文章发布时间已过于久远,编排和内容不一定完整,还请谅解` 博客更换新域名为52ecy.cn 日期:2017-10-2 ...
Flink状态(一)
key状态和算子状态 key状态 key状态总是与key有关,只能被用于keyedStream类型的函数与算子.你可以认为key状态是一种被分区的算子状态,每一个key有一个状态分区.每一个key状态 ...
一份快速入门的 Makefile 教程
目录一份快速入门的 Makefile 教程关于 Makefile,你应该知道的一些事情什么是 Makefile? Makefile 能做什么? Makefile 怎么写? Makefile 与 ...
解决Vue中使用history路由模式出现404的问题
背景 vue中默认的路由模式是hash,会出现烦人的符号#,如http://127.0.0.1/#/. 改为history模式可以解决这个问题,但是有一个坑是:强刷新.回退等操作会出现404. Vue ...
17-Docker镜像和容器操作
镜像拉取镜像(下载镜像) 镜像是层次型的,拉取的时候会按照各层分别拉取. 每一个镜像都有自己的散列值,用来唯一标记一层镜像,可以用来判断本地是否已经拉取过此镜像层,如果已经拉取,则直接使用. doc ...
OpenSSL静态库交叉编译
一.编译前环境准备使用的内核:4.15.0-118-generic(命令:uname -r可以查看) 交叉编译器:aarch64-linux-gnu-gcc openssl源码:openssl-1. ...
【论文阅读】End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances
文章名:CVPR2020: End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordan ...

MindSpore框架 加载文本数据集 示例

MindSpore框架 加载文本数据集 示例的更多相关文章

随机推荐

热门专题

MindSpore框架加载文本数据集示例

MindSpore框架加载文本数据集示例的更多相关文章