一、概述

Easy Dataset是一个专门为大型语言模型(LLM)创建微调数据集而设计的应用程序。它提供了一个直观的界面,用于上传特定领域的文件、智能分割内容、生成问题以及为模型微调生成高质量的训练数据。

使用Easy Dataset,您可以将领域知识转换为结构化数据集,与遵循OpenAI格式的所有LLM API兼容,使微调过程简单高效。

二、项目安装

项目的安装比较方便,有3种方式:

1.客户端安装:比较简单,直接下载客户端,安装后即可使用。

2.源码安装:可以修改源代码,功能调整,自主性较好。

源代码下载

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

安装依赖项

npm install

启动开发服务器

npm run build

npm run start

3.Docker容器安装:

克隆代码库

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 映像

docker build -t easy-dataset .

运行容器

docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset

注意:D:\Project\easy-dataset\dataused,这是路径是我本地存储数据集相关路径,如果是你自己运行的话,需要修改为你自己的数据存储路径。

打开浏览器并导航至http://localhost:1717

本文使用第一种方式,下载windows客户端

https://github.com/ConardLi/easy-dataset/releases/tag/1.3.7

下载完成后,双击exe程序,下一步,下一步安装即可,很简单。

安装完成后,效果如下:

三、项目使用

准备原始文件

下载《网络安全法规摘编手册》pdf文件,这个是由兰州大学编写的。兰州大学是中国教育部直属的全国重点综合性大学,位列国家“双一流”、“985工程”和“211工程”,属于中国高校第一梯队的中上水平。

链接如下:

https://jchyxy.lzu.edu.cn/jcyxy/upload/files/N20211112170341.pdf

创建新项目

创建项目“网络安全法规”,本文以生成法律法规的领域数据为例。如图所示。

项目名称:网络安全法规

项目描述:构建网络安全法规的微调数据集

模型配置

由于pdf文件比较大,有5M左右,可能会耗费很多tokens,使用收费的,有的不划算,所以打算本地启动大模型。

使用LM Studio软件,启动一个deepseek-r1-distill-llama-8b模型

注意:模型最好选择deepseek-r1,v1,v3都行。

我测试用qwen3扫描pdf文件批量生成问题,有异常。

项目创建完成后,进行模型配置,这一步可以根据各自情况配置,配置也非常简单,选择“项目设置” -> “模型配置”,如下图

确保刷新模型,能刷新出模型列表,然后选择即可。

拆分文本

选择“文献处理”,右边要选择AI模型,否则无法上传

上传准备好的行业数据MD文件,选择基础PDF解析

点击上传并处理

可以全部选择拆分后的文本,然后批量生成问题,如下图。

这里生成问题需要等待一段时间:

打开LM Studio,这里可以看到大模型运行过程

查看GPU使用率,最高在90%左右

大概10分钟左右,就可以完成。

问题管理

选择“问题管理”,勾选生成的问题,选择“批量构造数据集”,过程仍需等待一段时间。

继续等待

这个过程比较漫长,也是比较耗费GPU的,90%左右的使用率。大概持续45分钟左右。

构建数据集

选择“导出数据集”,下载构建好的网络安全行业数据。

导出数据集,这里都是默认的。

设置系统提示词“你是一位法律专家,擅长网络安全法”。

导出之后我们打开文件,可以看到导出的数据集案例。

至此,我们已利用 Easy Dataset 工具完成了“网络安全领域数据集” 的处理与生成。

虽然演示过程相对基础,但其过程充分展现了该工具的高度实用性:仅需执行三项核心操作,即可生成适用于微调的数据集。

本文参考链接:https://blog.csdn.net/weixin_46880696/article/details/147784014

Easy-Dataset实现文档生成数据集的更多相关文章

  1. Markdown 文档生成工具

    之前用了很多Markdown 文档生成工具,发现有几个挺好用的,现在整理出来,方便大家快速学习. loppo: 非常简单的静态站点生成器 idoc:简单的文档生成工具 gitbook:大名鼎鼎的文档协 ...

  2. 【C#附源码】数据库文档生成工具支持(Excel+Html)

    [2015] 很多时候,我们在生成数据库文档时,使用某些工具,可效果总不理想,不是内容不详细,就是表现效果一般般.很多还是word.html的.看着真是别扭.本人习惯用Excel,所以闲暇时,就简单的 ...

  3. 微软开源全新的文档生成工具DocFX

    微软放弃Sandcastle有些年头了,微软最近开源了全新的文档生成工具DocFX,目前支持C#和VB,类似JSDoc或Sphinx,可以从源代码中提取注释生成文档之外,而且还有语法支持你加入其他的文 ...

  4. DBImport v3.44 中文版发布:数据库数据互导及文档生成工具(IT人员必备)

    前言: 距离上一个版本V3.3版本的文章发布,已经是1年10个月前的事了. 其实版本一直在更新,但也没什么大的功能更新,总体比较稳定,所以也不怎么写文介绍了. 至于工作上的事,之前有半年时间跑去学英语 ...

  5. .NET平台开源项目速览(4).NET文档生成工具ADB及使用

    很久以前就使用ADB这个工具来生成项目的帮助文档.功能强大,在学习一些开源项目的过程中,官方没有提供CHM帮助文档,所以为了快速的了解项目结构和注释.就生成文档来自己看,非常好用.这也是一个学习方法吧 ...

  6. (转)Doxygen文档生成工具

    http://blog.csdn.net/lostaway/article/details/6446786 Doxygen 是一个支持 C/C++,以及其它多种语言的跨平台文档生成工具.如同 Java ...

  7. Sandcastle----强大的C#文档生成工具

    最近客户索要产品的二次开发类库文档,由于开发过程中并没有考虑过此类文档,而且项目规范比较,持续时间比较长,经手人比较多,还真是麻烦,如果人工制作文档需要是一个比较大的工程.还好有这个文档生成工具,能够 ...

  8. JAVA基础学习之命令行方式、配置环境变量、进制的基本转换、排序法、JAVA文档生成等(1)

    1.命令行方式 dos命令行,常见的命令: dir:列出当前目录下的文件以及文件夹 md:创建目录 rd:删除目录 cd:进入指定目录 cd..:退回到上一级目录 cd/:退回到根目录 del:删除文 ...

  9. 使用Objective-C的文档生成工具:appledoc

    使用Objective-C的文档生成工具:appledoc 前言 做项目的人多了,就需要文档了.今天开始尝试写一些项目文档.但是就源代码来说,文档最好和源码在一起,这样更新起来更加方便和顺手.象 Ja ...

  10. 使用Objective-C的文档生成工具

    前言 做项目的人多了,就需要文档了.今天开始尝试写一些项目文档.但是就源代码来说,文档最好和源码在一起,这样更新起来更加方便和顺手.象Java语言本身就自带javadoc命令,可以从源码中抽取文档.今 ...

随机推荐

  1. BGP路由优选原则

    0 丢弃下一跳不可达的路由 1 优选Preference_Value值最高的路由(本设备有效) Pref-Val:协议首选值 华为私有的属性,只具有本地(本设备)意义,缺省情况下为0,越大越优,0-6 ...

  2. SpringBoot+微信支付-JSAPI

    引入微信支付SDK Maven: com.github.wechatpay-apiv3:wechatpay-java-core:0.2.12 Maven: com.github.wechatpay-a ...

  3. linux下nginx常用命令

    1.查找nginx路径:whereis nginx2.启动 service nginx start3.查看Nginx的版本号:nginx -V4.停止 nginx -s stop5.退出 nginx ...

  4. Math类、System类--java进阶day05

    1.Math类 Math类里所有方法都被static修饰,说明它是一个工具类,不需要创建对象,直接类名调用 2.Math方法展示 . 3.System类 SYstem方法展示 1.currentTim ...

  5. TreeSet的add方法源码分析

    一.JDK 1.8 中 TreeSet 的 add 方法源码详细分析 TreeSet 是 Java 集合框架中的一个有序集合类,基于红黑树(TreeMap)实现.TreeSet 的 add 方法用于向 ...

  6. MySQL 中的 Log Buffer 是什么?它有什么作用?

    MySQL 中的 Log Buffer 是什么?它有什么作用? Log Buffer 是 MySQL InnoDB 存储引擎的一部分,用于存储写入日志数据的内存区域.它主要用于记录事务的变更日志,这些 ...

  7. 最火向量数据库Milvus安装使用一条龙!

    向量数据库是大模型应用开发必备组件之一,因为它在知识库.语义搜索.检索增强生成(RAG)等人工智能应用中发挥着举足轻重的作用.但向量数据有很多,为什么要使用 Milvus 呢? 常见向量数据 常见的向 ...

  8. Python3处理文档_word文档实现自动化办公(一)

    最近打算写一个自动化出报告的脚本 先从处理word文档开始 Python 操作 Word 最常见的依赖库是:python-docx 所以,在开始操作之前,我们需要在虚拟环境下安装这个依赖库 pip3 ...

  9. 用DevEco Studio增量补丁修复功能,让鸿蒙应用的调试效率大增

    在鸿蒙应用开发的快节奏赛道上,每一秒的开发效率提升都至关重要.如何更快地看到代码更改后的效果?如何尽可能缩短开发.调试和验证的周期?如何做到在某大厂180万行+项目中将代码修改即时生效?这些问题在De ...

  10. IDEA在检查更新的时候报错 Connection Error Failed to load plugins from 'https://plugins.jetbrains.com/idea': org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 3; 文档中根元素前面的标记必须格式正确。

    问题: IDEA在更新的时候报错 Connection Error Failed to load plugins from 'https://plugins.jetbrains.com/idea': ...