自动断句:用户实时输入的每个字符/词,计算是断句词的统计概率:

取输入序列向前的 N-Gram长度,统计概率判断。

例如 :[“。”(句号)],[“?”(问号)],[正式,结束],[好了,吗],…,

而这些是可以通过历史交互数据与Corpus/DB,

进行统计学习训练得到的(每个词是断句词的统计概率).

一、业务场景((实时用户交互 OR 周期批处理):

  1. 用户发起新会话Session,初始化交互,恢复Context,等待 用户输入 或 传入任务文档;

  2. 用户实时输入,触发实时交互,设当前输入句子为S:

    当前输入句子 S 长度未定,并且可能是动态字符流式输入:

    因此可以用 Sliding Window滑动窗口, 提取 当前输入单词Word 的context。

  3. 当解析完一个完整的当前输入句子,即刻将其写入输入句子历史记录,

    并初始化启动一个新的输入句子的开始。

    这就需要开头的“自动断句”的功能.

  4. 用户主动结束,或设置超时自动断开当前会话Session,

    将用户的ID/UID, 连同当前结束时的Context上下文、Session会话信息,

    写入ContextHistory、SessionHistory的会话历史记录。

  5. 设置周期性的批处理大数据任务,对所有用户的历史记录,进行周期性的统计更新有:

    5.1 全库用户的Corpus(采样收集部分代表性的用户,建立全库用户Corpus)

    每用户 的Corpus(每个用户的历史记录,过滤,抽样建立每用户的Corpus)

    5.2 按时间段(当天/近一周/近15天/近1个月/近3个月/近半年/近1年/…/全量)

    周期性更新每用户的时间段Corpus

    5.3 按业务分(热门业务/用户兴趣业务/…)

  6. 设置Event-Driving事件驱动的批处理大数据任务,

    当用户触发重要的Event, 对有联系大数据批处理,增量更新(通过Message Queue消息队列近似实时)。

  7. 自动断句:用户输入的每个字符/词,取输入序列向前的 N-Gram长度,计算出是断句词的统计概率:

    例如 :“。”(句号),“?”(问号),[正式,结束],[好了,吗],…,

    而这些是可以通过历史交互数据,与Corpus/DB进行统计学习训练得到的(每个词是断句词的统计概率).

二、Corpus语料库与DB数据库

World Knowledge世界常识库:OALD牛津高阶/Synonyms/Phrases/…, 新华字典/成语词典/辞海, 行业词典,大英百科,Wikipedia,…

全局信息: Corpus语料库、行业通用数据库(例如Springer/Google Scholar/Academia/…学术数据库)/领域库、用户自定义库;

语法信息:输入句子的历史记录;

句法信息:当前动态输入句子;

上下文信息:提取 当前输入词 的 词向量 时用到的长度设为 N 的滑动窗口长度范围的字符序列信息

三、自动添加标点符号与断句

自动断句:用户实时输入的每个字符/词,计算是断句词的统计概率:

取输入序列向前的 N-Gram长度,统计概率判断。

例如 :[“。”(句号)],[“?”(问号)],[正式,结束],[好了,吗],…,

而这些是可以通过历史交互数据与Corpus/DB,

进行统计学习训练得到的(每个词是断句词的统计概率);

甚至一定程度上,可以为用户实时输入,自动判断来添加标点符号。

业务场景(实时用户交互或 批处理 ) + Corpus语料库/DB数据库 + 自动添加标点符号断句的更多相关文章

  1. 腾讯游戏 K8s 应用实践|更贴近业务场景的 K8s 工作负载:GameDeployment & GameStatefulSet

    引言 蓝鲸容器服务(Blueking Container Service,以下简称BCS)是腾讯 IEG 互动娱乐事业群的容器上云平台,底层基于腾讯云容器服务(Tencent Kubernetes E ...

  2. iOS16新特性 | 灵动岛适配开发与到家业务场景结合的探索实践

    作者:京东零售 姜海 灵动岛是苹果在iPhone 14 Pro和iPhone 14 Pro Max上首次提出的全新UI交互形式,创新性的让虚拟软件和硬件的交互变得更为流畅.当有来电.短信等通知时,灵动 ...

  3. CDN 边缘规则,三秒部署、支持定制、即时生效,多种规则覆盖常用业务场景

    2017年的最后一周,又拍云进行了一次重要升级,将自定义 Rewrite 升级为"边缘规则".互联网应用场景的日益多样化,简单.方便.快速的根据不同应用场景实现不同的功能变得越来越 ...

  4. 【智能合约】编写复杂业务场景下的智能合约——可升级的智能合约设计模式(附Demo)

    智能合约的现状 以太坊在区块链上实现了智能合约的概念,用于:同质化通证发行(ERC-20).众筹.投票.存证取证等等,共同点是:合约逻辑简单,只是业务流程中的关键节点,而非整个业务流程.而智能合约想解 ...

  5. DataPipeline王睿:业务异常实时自动化检测 — 基于人工智能的系统实战

    大家好,先自我介绍一下,我是王睿.之前在Facebook/Instagram担任AI技术负责人,现在DataPipeline任Head of AI,负责研发企业级业务异常检测产品,旨在帮助企业一站式解 ...

  6. 整理分布式锁:业务场景&分布式锁家族&实现原理

    1.引入业务场景 业务场景一出现: 因为小T刚接手项目,正在吭哧吭哧对熟悉着代码.部署架构.在看代码过程中发现,下单这块代码可能会出现问题,这可是分布式部署的,如果多个用户同时购买同一个商品,就可能导 ...

  7. 拨乱反正:DDD 回归具体的业务场景,Domain Model 再再重新设计

    首先,把最真挚的情感送与梅西,加油! 写在前面 阅读目录: 重申业务场景 Domain Model 设计 后记 上一篇<设计窘境:来自 Repository 的一丝线索,Domain Model ...

  8. 【SIGGRAPH】【最终幻想XV】的战斗场景实时演示的要点解说

    [SIGGRAPH][最终幻想XV]的战斗场景实时演示的要点解说 原文:西川善司 http://www.4gamer.net/games/999/G999902/20160730004/        ...

  9. GOF业务场景的设计模式-----观察者模式

    定义:定义对象间一种一对多的依赖关系,使得当每一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新. 在软件系统中经常会有这样的需求:如果一个对象的状态发生改变,某些与它相关的对象也要随之做出 ...

  10. 受教了,memcache比较全面点的介绍,受益匪浅,适用memcached的业务场景有哪些?memcached的cache机制是怎样的?在设计应用时,可以通过Memcached缓存那些内容?

    基本问题 1.memcached的基本设置 1)启动Memcache的服务器端 # /usr/local/bin/memcached -d -m 10 -u root -l 192.168.0.200 ...

随机推荐

  1. Git Reset 彻底解析:--hard 模式操作步骤、风险与完整恢复指北

    结论先行 使用 git reset --hard <commit_id> 可强制将本地代码.暂存区.工作目录彻底回退到指定提交状态,但会丢弃目标提交之后的所有提交记录(需谨慎操作,尤其涉及 ...

  2. HarmonyOS NEXT开发教程:加速web页面访问

    在日常app开发中,访问web页面是很常见的功能,在鸿蒙系统中有多种方案来加速web页面的访问,提升用户体验. 首先,可以在Web组件的onAppear方法中对要加载的页面进行预链接,比如: Web( ...

  3. wqs 二分

    初看这个东西可能很难理解,我个人也学习了很多遍,然后发现这个直接理解实际上并不难. wqs 二分主要是解决 恰好分成/选 \(k\) 段 这一类 DP 问题的算法.如果不知道形式可以看一下 P4983 ...

  4. SQL 强化练习 (十一)

    sql 冲冲冲.... 也没啥可犹豫, 作为一名数据分析师, 必须掌握的技能, 就要熟练到写 Python 那样的感觉, 就应该可以了, 但目前还是差的比较远, 原因是, 没有相关的一些比较复杂一些的 ...

  5. RBMQ案例五:主题模式

    在之前的教程中,我们改进了日志系统.我们没有使用只能进行虚拟广播的扇出交换器,而是使用了直接交换器,并获得了选择性接收日志的可能性. 虽然使用直接交换改进了我们的系统,但它仍然有局限性--它不能基于多 ...

  6. Java HashMap和 ConcurrentHashMap 热门面试题

    目录 在日常开发中使用过的java集合类有哪些 谈一下HashMap的特性 HashMap 的数据结构是什么 单链表和红黑树相互转换的条件是什么 链表和红黑树相互转换的阈值为什么是 8 和 6 为什么 ...

  7. MyBatis常见面试题:#{}和${}的区别是什么?

      经常碰到这样的面试题目:#{}和${}的区别是什么?   正确的答案是:#{}是预编译处理,${}是字符串替换.   备注:${}是插值,插值的新认识见:http://www.mybatis.cn ...

  8. js格式化货币方法

    闲来无事自己基于原生js方法封装了一个可用于常见货币格式化的方法,具体方法封装如下: /** * 格式化人民币金额 * @param number num 数字金额 * @param string s ...

  9. js判断一个变量是否存在值得简单方法

    在编码过程中,有时候我们需要对一个变量判断其是否有值,这里有一种比较不错的方法判断: !!variable //返回True为存在值,返回False为不存在值 注意是双感叹号"!!" ...

  10. ArkUI-X平台差异化

    跨平台使用场景是一套ArkTS代码运行在多个终端设备上,如Android.iOS.OpenHarmony(含基于OpenHarmony发行的商业版,如HarmonyOS Next).当不同平台业务逻辑 ...