业务场景(实时用户交互或 批处理 ) + Corpus语料库/DB数据库 + 自动添加标点符号断句
自动断句:用户实时输入的每个字符/词,计算是断句词的统计概率:
取输入序列向前的 N-Gram长度,统计概率判断。
例如 :[“。”(句号)],[“?”(问号)],[正式,结束],[好了,吗],…,
而这些是可以通过历史交互数据与Corpus/DB,
进行统计学习训练得到的(每个词是断句词的统计概率).
一、业务场景((实时用户交互 OR 周期批处理):
用户发起新会话Session,初始化交互,恢复Context,等待 用户输入 或 传入任务文档;
用户实时输入,触发实时交互,设当前输入句子为S:
当前输入句子 S 长度未定,并且可能是动态字符流式输入:
因此可以用 Sliding Window滑动窗口, 提取 当前输入单词Word 的context。当解析完一个完整的当前输入句子,即刻将其写入输入句子历史记录,
并初始化启动一个新的输入句子的开始。
这就需要开头的“自动断句”的功能.用户主动结束,或设置超时自动断开当前会话Session,
将用户的ID/UID, 连同当前结束时的Context上下文、Session会话信息,
写入ContextHistory、SessionHistory的会话历史记录。设置周期性的批处理大数据任务,对所有用户的历史记录,进行周期性的统计更新有:
5.1 全库用户的Corpus(采样收集部分代表性的用户,建立全库用户Corpus)
每用户 的Corpus(每个用户的历史记录,过滤,抽样建立每用户的Corpus)
5.2 按时间段(当天/近一周/近15天/近1个月/近3个月/近半年/近1年/…/全量)
周期性更新每用户的时间段Corpus
5.3 按业务分(热门业务/用户兴趣业务/…)设置Event-Driving事件驱动的批处理大数据任务,
当用户触发重要的Event, 对有联系大数据批处理,增量更新(通过Message Queue消息队列近似实时)。…
自动断句:用户输入的每个字符/词,取输入序列向前的 N-Gram长度,计算出是断句词的统计概率:
例如 :“。”(句号),“?”(问号),[正式,结束],[好了,吗],…,
而这些是可以通过历史交互数据,与Corpus/DB进行统计学习训练得到的(每个词是断句词的统计概率).
二、Corpus语料库与DB数据库
World Knowledge世界常识库:OALD牛津高阶/Synonyms/Phrases/…, 新华字典/成语词典/辞海, 行业词典,大英百科,Wikipedia,…
全局信息: Corpus语料库、行业通用数据库(例如Springer/Google Scholar/Academia/…学术数据库)/领域库、用户自定义库;
语法信息:输入句子的历史记录;
句法信息:当前动态输入句子;
上下文信息:提取 当前输入词 的 词向量 时用到的长度设为 N 的滑动窗口长度范围的字符序列信息
三、自动添加标点符号与断句
自动断句:用户实时输入的每个字符/词,计算是断句词的统计概率:
取输入序列向前的 N-Gram长度,统计概率判断。
例如 :[“。”(句号)],[“?”(问号)],[正式,结束],[好了,吗],…,
而这些是可以通过历史交互数据与Corpus/DB,
进行统计学习训练得到的(每个词是断句词的统计概率);
甚至一定程度上,可以为用户实时输入,自动判断来添加标点符号。
业务场景(实时用户交互或 批处理 ) + Corpus语料库/DB数据库 + 自动添加标点符号断句的更多相关文章
- 腾讯游戏 K8s 应用实践|更贴近业务场景的 K8s 工作负载:GameDeployment & GameStatefulSet
引言 蓝鲸容器服务(Blueking Container Service,以下简称BCS)是腾讯 IEG 互动娱乐事业群的容器上云平台,底层基于腾讯云容器服务(Tencent Kubernetes E ...
- iOS16新特性 | 灵动岛适配开发与到家业务场景结合的探索实践
作者:京东零售 姜海 灵动岛是苹果在iPhone 14 Pro和iPhone 14 Pro Max上首次提出的全新UI交互形式,创新性的让虚拟软件和硬件的交互变得更为流畅.当有来电.短信等通知时,灵动 ...
- CDN 边缘规则,三秒部署、支持定制、即时生效,多种规则覆盖常用业务场景
2017年的最后一周,又拍云进行了一次重要升级,将自定义 Rewrite 升级为"边缘规则".互联网应用场景的日益多样化,简单.方便.快速的根据不同应用场景实现不同的功能变得越来越 ...
- 【智能合约】编写复杂业务场景下的智能合约——可升级的智能合约设计模式(附Demo)
智能合约的现状 以太坊在区块链上实现了智能合约的概念,用于:同质化通证发行(ERC-20).众筹.投票.存证取证等等,共同点是:合约逻辑简单,只是业务流程中的关键节点,而非整个业务流程.而智能合约想解 ...
- DataPipeline王睿:业务异常实时自动化检测 — 基于人工智能的系统实战
大家好,先自我介绍一下,我是王睿.之前在Facebook/Instagram担任AI技术负责人,现在DataPipeline任Head of AI,负责研发企业级业务异常检测产品,旨在帮助企业一站式解 ...
- 整理分布式锁:业务场景&分布式锁家族&实现原理
1.引入业务场景 业务场景一出现: 因为小T刚接手项目,正在吭哧吭哧对熟悉着代码.部署架构.在看代码过程中发现,下单这块代码可能会出现问题,这可是分布式部署的,如果多个用户同时购买同一个商品,就可能导 ...
- 拨乱反正:DDD 回归具体的业务场景,Domain Model 再再重新设计
首先,把最真挚的情感送与梅西,加油! 写在前面 阅读目录: 重申业务场景 Domain Model 设计 后记 上一篇<设计窘境:来自 Repository 的一丝线索,Domain Model ...
- 【SIGGRAPH】【最终幻想XV】的战斗场景实时演示的要点解说
[SIGGRAPH][最终幻想XV]的战斗场景实时演示的要点解说 原文:西川善司 http://www.4gamer.net/games/999/G999902/20160730004/ ...
- GOF业务场景的设计模式-----观察者模式
定义:定义对象间一种一对多的依赖关系,使得当每一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新. 在软件系统中经常会有这样的需求:如果一个对象的状态发生改变,某些与它相关的对象也要随之做出 ...
- 受教了,memcache比较全面点的介绍,受益匪浅,适用memcached的业务场景有哪些?memcached的cache机制是怎样的?在设计应用时,可以通过Memcached缓存那些内容?
基本问题 1.memcached的基本设置 1)启动Memcache的服务器端 # /usr/local/bin/memcached -d -m 10 -u root -l 192.168.0.200 ...
随机推荐
- Git Reset 彻底解析:--hard 模式操作步骤、风险与完整恢复指北
结论先行 使用 git reset --hard <commit_id> 可强制将本地代码.暂存区.工作目录彻底回退到指定提交状态,但会丢弃目标提交之后的所有提交记录(需谨慎操作,尤其涉及 ...
- HarmonyOS NEXT开发教程:加速web页面访问
在日常app开发中,访问web页面是很常见的功能,在鸿蒙系统中有多种方案来加速web页面的访问,提升用户体验. 首先,可以在Web组件的onAppear方法中对要加载的页面进行预链接,比如: Web( ...
- wqs 二分
初看这个东西可能很难理解,我个人也学习了很多遍,然后发现这个直接理解实际上并不难. wqs 二分主要是解决 恰好分成/选 \(k\) 段 这一类 DP 问题的算法.如果不知道形式可以看一下 P4983 ...
- SQL 强化练习 (十一)
sql 冲冲冲.... 也没啥可犹豫, 作为一名数据分析师, 必须掌握的技能, 就要熟练到写 Python 那样的感觉, 就应该可以了, 但目前还是差的比较远, 原因是, 没有相关的一些比较复杂一些的 ...
- RBMQ案例五:主题模式
在之前的教程中,我们改进了日志系统.我们没有使用只能进行虚拟广播的扇出交换器,而是使用了直接交换器,并获得了选择性接收日志的可能性. 虽然使用直接交换改进了我们的系统,但它仍然有局限性--它不能基于多 ...
- Java HashMap和 ConcurrentHashMap 热门面试题
目录 在日常开发中使用过的java集合类有哪些 谈一下HashMap的特性 HashMap 的数据结构是什么 单链表和红黑树相互转换的条件是什么 链表和红黑树相互转换的阈值为什么是 8 和 6 为什么 ...
- MyBatis常见面试题:#{}和${}的区别是什么?
经常碰到这样的面试题目:#{}和${}的区别是什么? 正确的答案是:#{}是预编译处理,${}是字符串替换. 备注:${}是插值,插值的新认识见:http://www.mybatis.cn ...
- js格式化货币方法
闲来无事自己基于原生js方法封装了一个可用于常见货币格式化的方法,具体方法封装如下: /** * 格式化人民币金额 * @param number num 数字金额 * @param string s ...
- js判断一个变量是否存在值得简单方法
在编码过程中,有时候我们需要对一个变量判断其是否有值,这里有一种比较不错的方法判断: !!variable //返回True为存在值,返回False为不存在值 注意是双感叹号"!!" ...
- ArkUI-X平台差异化
跨平台使用场景是一套ArkTS代码运行在多个终端设备上,如Android.iOS.OpenHarmony(含基于OpenHarmony发行的商业版,如HarmonyOS Next).当不同平台业务逻辑 ...