大型语言模型（LLM）为什么处理日语这么“头大”？

引言

你有没有想过，为什么 AI 大神们处理日语时，总是会挠头？其实，这都要从“token”这个神奇的小东西说起。

在大型语言模型（LLM）中，token 就是文本的基本处理单位。想象一下，把一段话拆成乐高积木，每个 token 就是一块积木，组合起来才能搭建出精彩的语言大厦。这些 token 可能是一个词、一个字符，甚至是一个词的一部分。

那么，为什么不直接用“字”或“词”呢？这就要归结于不同语言的“脾气”了。

为什么 Token 化如此重要？

准确理解句子结构：就像解谜游戏，正确的分词是破解句子含义的关键线索。
提高翻译质量：在机器翻译中，准确的 token 化可以让翻译结果不再“鸡同鸭讲”。
自然语言生成：为了让 AI 说得像人一样溜，模型需要对输入有“知根知底”的理解。

分词示例

英文的花样

拿英文来说，像 “unbelievable” 这样的词，可以拆分成 “un-”、“believe”、“-able” 三个部分。每个部分都有自己的“小心思”——否定前缀、核心动词和形容词后缀。这样，模型就能明白这个词是表达“不相信”的意思。

中文的玄机

再看中文：“苹果公司推出了新产品。” 可以拆分成：

苹果公司
推出
了
新
产品
。

通过拆解，模型能抓住谁干了什么，以及结果如何。

令人挠头的日语

然而，到了日语，就不是这么简单的事儿了。

日语 Token 化的困难性

1. 没有空格的世界

首先，日语的句子里基本没有空格！是的，你没看错，一整串字符，连个喘息的机会都不给。例如：

私は昨日新しいカメラを買いました。

翻译过来是：“我昨天买了新的照相机。” 但对于 AI 来说，这更像是一团乱麻，需要理清头绪。可能的分词结果是：

私（我）
は（主题标记助词）
昨日（昨天）
新しい（新的）
カメラ（照相机）
を（宾语标记助词）
買いました（买了）
。

2. 三种文字的“混搭风”

日语简直就是文字界的“混搭达人”，同时使用汉字、平假名和片假名：

汉字：承载主要的词义，如名词、动词词干。
平假名：用来表示语法关系，类似于粘合剂。
片假名：专门对付外来词、拟声词，或者是为了强调。

3. 多义性与模糊性的大挑战

日语中，一个词可能有多种意思，多词连在一起可能碰撞出新的火花。举个栗子（哦不，例子）：

お酒を飲まない人もいます。

分词后：

お酒（酒）
を（宾语标记助词）
飲まない（不喝）
人（人）
も（也）
います（有）

模型需要搞清楚“飲まない”是“喝”还是“不喝”，还要结合上下文理解整句话是“也有不喝酒的人”。是不是有点烧脑？

为什么日语这么难搞？

对比其他语言的“乖巧”

英文：单词之间有空格，词形变化相对简单。
中文：虽然没有空格，但汉字本身的信息量大，分词算法相对成熟。
德语：虽然单词很长，但基本也是连着写，规则性强。

相比之下，日语的“无空格+三种文字+多义性”组合拳，让模型防不胜防。

形象比喻

处理日语文本，就像在解读一幅没有边界的繁复壁画：

汉字是壁画中的精细图案，传达主要信息。
平假名是连缀图案的线条，承载语法和连接。
片假名是突出的纹饰，强调特殊含义或外来概念。

AI 需要像艺术家一样，辨认每个部分的特征，将它们巧妙组合，才能看懂整幅画的含义。

应对之道

为了解决这些难题，LLM 通常使用形态学分析和统计模型：

识别词典词汇：利用海量语料库，知道哪些字符序列通常构成一个词，就像在脑海中建立一本“常用短语手册”。
概率统计：计算字符组合的可能性，选择最有可能的分词方式。

结语

所以，当你下次看到 AI 在处理日语时“抓狂”，请给它一点耐心。毕竟，理解日语对于机器来说，就像是在黑暗中解一幅复杂的拼图。但正是这些挑战，让 AI 技术不断进步，也让我们对语言的多样性感到由衷的敬佩。

延伸思考

如果你对不同语言的奇妙有兴趣，不妨看看韩语的音节拼写系统，或是阿拉伯语的连写形式。每一种语言都有自己的“密码”，等着我们去破解。

大型语言模型（LLM）为什么处理日语这么“头大”？的更多相关文章

GPT-NER：通过大型语言模型的命名实体识别
讲在前面,chatgpt出来的时候就想过将其利用在信息抽取方面,后续也发现了不少基于这种大语言模型的信息抽取的论文,比如之前收集过的: https://github.com/cocacola-lab/ ...
🤗 PEFT: 在低资源硬件上对十亿规模模型进行参数高效微调
动机基于 Transformers 架构的大型语言模型 (LLM),如 GPT.T5 和 BERT,已经在各种自然语言处理 (NLP) 任务中取得了最先进的结果.此外,还开始涉足其他领域,例如计算机 ...
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案. 请注意, ...
【译】使用 ChatGPT 和 Azure Cosmos DB 构建智能应用程序
原文 | Mark Brown 翻译 | 郑子铭随着对智能应用程序的需求不断增长,开发人员越来越多地转向人工智能(AI)和机器学习(ML),以增强其应用程序的功能.聊天机器人已经成为提供对话式人工智 ...
Semantic Kernel 知多少 | 开启面向AI编程新篇章
引言在ChatGPT 火热的当下, 即使没有上手亲自体验,想必也对ChatGPT的强大略有耳闻.当一些人在对ChatGPT犹犹豫豫之时,一些敏锐的企业主和开发者们已经急不可耐的开展基于ChatGPT ...
.NET周报【4月第2期 2023-04-08】
国内文章 LRU缓存替换策略及C#实现 https://www.cnblogs.com/eventhorizon/p/17290125.html 这篇文章讲述了缓存替换策略,特别是LRU算法.LRU算 ...
AI人工智能简史
AI人工智能简史最近学习AI,顺便整理了一份AI人工智能简史,大家参考: 1951年第一台神经网络机,称为SNARC: 1956年达特茅斯学院会议,正式确立了人工智能的研究领域: 1966年 M ...
Python精品书籍
目录 Python精品书籍 * 参考资料基础 Python编程:从入门到实践(第2版) 笨办法学_Python Coding for Kids: Python: Learn to Code with ...
微软开源了一个助力开发LLM 加持的应用的工具包 semantic-kernel
在首席执行官萨蒂亚·纳德拉(Satya Nadella)的支持下,微软似乎正在迅速转变为一家以人工智能为中心的公司.最近微软的众多产品线都采用GPT-4加持,从Microsoft 365等商业产品到& ...
Semantic Kernel 入门系列：🛸LLM降临的时代
不论你是否关心,不可否认,AGI的时代即将到来了. 在这个突如其来的时代中,OpenAI的ChatGPT无疑处于浪潮之巅.而在ChatGPT背后,我们不能忽视的是LLM(Large Language ...

随机推荐

KETTLE 复制次数
作用就是开启多线程. 比如上例设置为6. 总共 17条数据,分为6次执行,可以看出是启用了多线程执行.
Astro v5 x DevNow
先介绍下 DevNow DevNow Github 体验网站 DevNow 是一个精简的开源技术博客项目模版,支持 Vercel 一键部署,支持评论.搜索等功能,欢迎大家体验.同时也支持 Follow ...
HUAWEI SECURITY 2023 山东大学专场 WP
Crypto by Smera1d0 1.ezrsa 题干如下: from Crypto.Util.number import getPrime from secret import flag p = ...
Kettle连接MySQL数据库时提示Driver class 'org.gjt.mm.mysql.Driver' could not be found
使用Kettle连接MySQL数据库时,提示以下连接提示信息导致我们无法对数据库进行连接: Driver class 'org.gjt.mm.mysql.Driver' could not be fo ...
使用 Visual Studio 调试器附加到正在运行的进程
使用 Visual Studio 调试器附加到正在运行的进程使用场景当项目在测试环境上有bug,需要运行代码调试一下,这时就需要在测试环境上安装一个调试工具,然后在本地运行代码,远程链接到测试环境 ...
Vue CLI中views和components文件夹的区别
首先,src/components和文件夹src/views都包含Vue组件. 关键区别在于某些Vue组件充当路由视图. 在Vue中(通常是Vue Router)处理路由时,将定义路由以切换组件中使用 ...
LeetCode题集-7 - 整数反转
题目:给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果.如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ,就返回 0. 假设环境不允许存储 ...
【Amadeus原创】更改域控域用户密码过期日期时间
1,打开服务管理器,点工具,选择Active Directory 管理中心 2,右键域名(本地)-属性 3,选择属性编辑器,把maxPwdAge 从90天改成180天.
liunx安装docker,portainer,mysql,rabbitMQ,nacos
由于公司框架迭代了,故此写个随笔,记录一下,方便日后回顾 1.准备阿里云服务器(liunx CentOS 7.6) 2.前置工作 (1)查看系统版本 lsb_release -a (2)查看系统以及 ...
R数据分析：国产新冠口服药比辉瑞好的文章的统计做法分享
元旦前在人民日报中央厨房上看到一篇文章,叫做"比肩辉瑞的国产新冠药物VV116,是这样研制和临床试验的",想来就把文献原文找来读了读,写下本文分享给大家,本文主要关注文章的正文中主 ...

大型语言模型（LLM）为什么处理日语这么“头大”？

大型语言模型（LLM）为什么处理日语这么“头大”？的更多相关文章

随机推荐

热门专题