Datawhale AI夏令营-学习笔记(一)
大数据相关知识:
文本编码:将人类可读的文本转换为机器可理解的数值向量表示,这是所有文本分析任务的基础。
常用方法包括独热编码、词嵌入 (如Word2Vec、GloVe等静态词向量)以及基于预训练模型的上下文词嵌入(如BERT、GPT等动态词向量)。
本项目的Baseline方案采用了经典的TF-IDF编码方法。
文本分类:根据文本内容将其自动归类到预定义类别。
本项目中的情感分析属于多维度文本分类任务,需要识别评论的情感倾向(正面/负面/中性等)以及是否涉及用户场景、疑问或建议等属性。
常用方法包括基于规则和词典的方法、传统机器学习方法(如朴素贝叶斯、支持向量机SVM等)以及深度学习方法(如循环神经网络RNN、卷积神经网络CNN、Transformer等) 。
Baseline方案使用了线性分类器((如SGDClassifier) 进行文本分类。
文本聚类:根据文本内容的相似性自动将文本分组,无需预先定义类别。
本项目要求按商品对指定维度的评论进行聚类,并提炼每类的主题词。
常用聚类算法包括K-Means(需预设簇数K)、层次聚类、DBSCAN等。
Baseline采用了K-Means算法进行聚类。
聚类效果通常用轮廓系数等指标衡量,其值越接近1表示聚类效果越好。
大模型与高级技术:随着技术发展,大型预训练语言模型(LLM) 在NLP任务中表现突出。
Baseline也提及可以利用大模型的零样本/少样本学习能力,在标注数据有限时完成任务;
或通过微调预训练模型来更好地适应本任务。
此外,还可使用预训练模型提供的API接口获取文本向量表示,用于后续的分类或聚类。
这些高级技术为提升模型性能提供了思路。
Datawhale AI夏令营-学习笔记(一)的更多相关文章
- DeepLearning.ai学习笔记汇总
第一章 神经网络与深度学习(Neural Network & Deeplearning) DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络 DeepLe ...
- Coursera深度学习(DeepLearning.ai)编程题&笔记
因为是Jupyter Notebook的形式,所以不方便在博客中展示,具体可在我的github上查看. 第一章 Neural Network & DeepLearning week2 Logi ...
- DeepLearning.ai学习笔记(三)结构化机器学习项目--week2机器学习策略(2)
一.进行误差分析 很多时候我们发现训练出来的模型有误差后,就会一股脑的想着法子去减少误差.想法固然好,但是有点headlong~ 这节视频中吴大大介绍了一个比较科学的方法,具体的看下面的例子 还是以猫 ...
- AI学习笔记(02)
AI学习笔记 第一个黑箭头是用于挑选物体和移 动物体.在绘图是选中一个物体,就可以将它自由的移动.和其他的绘图软件相同当你选 中物体的时候物体周围就会出现八个方形的控制点,你可以通过这些控制点对物 ...
- AI学习笔记:人工智能与机器学习概述
一.人工智能基本概念 1.1 基本概念 数据分析:对历史规律的展现.对未来数据的预测. 机器学习:机器学习是指从一系列的原始数据中找到规律,提取人们可以识别的特征,然后通过学习这些特征,最终产生一个模 ...
- AI学习笔记:特征工程
一.概述 Andrew Ng:Coming up with features is difficult, time-consuming, requires expert knowledge. &quo ...
- BZOJ 1061: [Noi2008]志愿者招募 [单纯形法]【学习笔记】
1061: [Noi2008]志愿者招募 Time Limit: 20 Sec Memory Limit: 162 MBSubmit: 3975 Solved: 2421[Submit][Stat ...
- 【工作笔记】BAT批处理学习笔记与示例
BAT批处理学习笔记 一.批注里定义:批处理文件是将一系列命令按一定的顺序集合为一个可执行的文本文件,其扩展名为BAT或者CMD,这些命令统称批处理命令. 二.常见的批处理指令: 命令清单: 1.RE ...
- Stealth视频教程学习笔记(第一章)
Stealth视频教程学习笔记(第一章) 本文是对Unity官方视频教程Stealth的学习笔记.在此之前,本人整理了Stealth视频的英文字幕,并放到了优酷上.本文将分别对各个视频进行学习总结,提 ...
- .net学习笔记---xml基础知识
一.XML简介 XML是一种标记语言,用于描述数据,它提供一种标准化的方式来来表示文本数据.XML文档以.xml为后缀.需要彻底注意的是XML是区分大小写的. 先从一个简单的XML例子来了解下xml基 ...
随机推荐
- 强烈推荐!终于找到了一个查看 dotnet 源码的便捷方法
强烈推荐!终于找到了一个查看 dotnet 源码的便捷方法 快把这个网站加入标签栏 "https://source.dot.net/" 为什么推荐 由GitHub生成,由Ro ...
- P7404题解
分析题意: 题意就是让前半段序列呈上升趋势,后半段呈下降趋势. 解题方法: 考虑差分出序列的高度. xix_ixi 表示以 iii 为 kkk 的前半段需增加量. yiy_iyi 表示以 i−1i ...
- 一个开源、经典的 WPF 控件、组件和实用工具集合,值得参考学习!
前言 今天大姚给大家推荐一个开源.经典的 WPF 控件.组件和实用工具集合,对于想要自己编写 WPF UI 界面的同学可以参考借鉴学习:Extended.Wpf.Toolkit. 项目介绍 Exten ...
- 25年初的cnvd小试
算是一个里程碑吧,第一次尝试获得cnvd证书
- java基础之“在后端使用爬虫Jsoup工具根据标签id获取字符串中的标签html代码(java后端实现前端根据标签id获取标签对象)”
一.场景 在电商项目中产品描述时必不可少的存在,每个不同的项目所需的描述不同,不能一概而论 在产品的描述中的部分数据是我们所需要的,如价格,尺码表等 如何在不依靠前端的前提下,完成数据的提取就成了问题 ...
- 鸿蒙NEXT实战教程—实现音乐歌词同步滚动
之前写过一个音乐播放器项目,今天再给它完善一下,加一个歌词同步滚动. 先看效果图: 要做歌词同步滚动,我们首先需要的文件资源就是音乐文件和与之匹配的歌词文件.现在歌词文件不太好找,没关系,我们可以 ...
- .NET周刊【5月第1期 2025-05-04】
dotnet 9 通过 AppHostRelativeDotNet 指定自定义的运行时路径 https://www.cnblogs.com/lindexi/p/18847625 这篇文章讨论了在 .N ...
- MySQL高可用之ProxySQL + MGR 实现读写分离实战
部署MGR 1.MGR 前置介绍 阿里云RDS集群方案用的就是MGR模式! 1.1.什么是 MGR MGR(MySQL Group Replication)是MySQL 5.7.17版本诞生的,是My ...
- css_初阶
s10.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&q ...
- MCP 实践系列:看热点、蹭热点,创作与摸鱼两手抓!
连续工作累死人,身心疲惫时,总得有那么一点时间给自己松口气.每当这个时候,我总喜欢偷偷摸摸地看看新闻,整理一下逐渐疯狂的思维.毕竟,谁说程序员就只能埋头写代码?谁规定了只能死磕在堆积如山的bug中? ...