主要思想

这篇文章主要是利用多个标准进行中文分词，和之前复旦的那篇文章比，它的方法更简洁，不需要复杂的结构，但比之前的方法更有效。

方法

堆叠的LSTM，最上层是CRF。

最底层是字符集的Bi-LSTM。输入：字符集embedding，输出：每个字符的上下文特征表示。

得到ht之后， CRF作为推理层。

打分：

local score：

其中，，这一项是Bi-LSTM隐层ht和bigram 特征embedding的拼接。

global score：

A是转移矩阵tag yi to tag yj.

多标准CWS

在句子开头和结尾加token表明它使用哪一个标准。计算分数的时候再去掉。

训练

Y_X 表示句子X所有可能的 tag sequence。

实验

1. 我们的多标准解决方案是否能够学习异构数据集?

2. 我们的解决方案能否应用于由微小和非正式文本组成的大规模语料库组?

3. 更多的数据，更好的性能?

based on Dynet (Neubig et al., 2017)

动态神经网络框架

数据集

Q1: SIGHAN2005

Q2 3: SIGHAN2008

所有数据集都是通过使用唯一的令牌替换连续的英文字符和数字进行预处理的。对于训练和开发集，行通过标点被分成更短的句子或子句，以便更快地进行批处理。

特别是传统的汉语语料库CityU、AS及CKIP均转换为简体版本，使用流行的中文NLP工具HanLP2。

复现

Run following command to prepare corpora, split them into train/dev/test sets etc.:
python3 convert_corpus.py

2. 生成pkl文件 pku的

3. make & train

论文阅读及复现 | Effective Neural Solution for Multi-Criteria Word Segmentation的更多相关文章

论文笔记：Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...
[论文阅读] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications (MobileNet)
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 本文提出的模型叫Mobi ...
《Cascaded Pyramid Network for Multi-Person Pose Estimation》论文阅读及复现笔记
一.PipeLine 要点 TopDown + GlobalNet + RefineNet 二.Motivation 通过提高对难以识别的关键点的识别准确率,来提升总体识别准确率. 方法:1.refi ...
论文阅读及复现 | Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
两种形式的LSTM变体 Child-Sum Tree-LSTMs N-ary Tree-LSTMs https://paperswithcode.com/paper/improved-semantic ...
论文阅读 | Trojaning Attack on Neural Networks
对神经网络的木马攻击 Q: 1. 模型蒸馏可以做防御吗? 2. 强化学习可以帮助生成木马触发器吗? 3. 怎么挑选建立强连接的units? 本文提出了一种针对神经元网络的木马攻击.模型不直观,不易被人 ...
2018年发表论文阅读：Convolutional Simplex Projection Network for Weakly Supervised Semantic Segmentation
记笔记目的:刻意地.有意地整理其思路,综合对比,以求借鉴.他山之石,可以攻玉. <Convolutional Simplex Projection Network for Weakly Supe ...
论文阅读笔记十一：Rethinking Atrous Convolution for Semantic Image Segmentation（DeepLabv3)(CVPR2017)
论文链接:https://blog.csdn.net/qq_34889607/article/details/8053642 摘要该文重新窥探空洞卷积的神秘,在语义分割领域,空洞卷积是调整卷积核感受 ...
论文阅读笔记五：U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)
前面介绍了两个文本检测的网络,分别为RRCNN和CTPN,接下来鄙人会介绍语义分割的一些经典网络,同样也是论文+代码实现的过程,这里记录一下自己学到的东西,首先从论文下手吧. 英文论文原文地址:htt ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...

随机推荐

[ML] The Basics: Training Your First Model
The problem we will solve is to convert from Celsius to Fahrenheit, where the approximate formula is ...
模板方法（Template Method）---行为型
1 基础知识定义:定义了一个算法的骨架并允许子类为一个或多个步骤提供实现.特征:模板方法使得子类可以在不改变算法结构的前提下重新定义某些步骤. 使用场景: (1)需要固定定义算法骨架,实现一个算法的 ...
Verilog写入变量值到文件语句
integer signed fid_out1,fid_out2; initial begin fid_out1 = $fopen("dataout_i.txt","w& ...
Easily use UUIDs in Laravel
Easily use UUIDs in Laravel Wilbur PoweryOct 29 '18 Updated on Oct 30, 2018 ・1 min read #php #larav ...
BIOS之于系统启动
#BIOS之于操作系统操作系统从开机通电到系统启动成功(执行main函数)分为3个步骤启动BIOS,准备实模式下中断向量表和中断服务程序从启动盘加载操作系统程序(包括boot镜像和root文件系 ...
reboot/shutdown
reboot 重启操作系统 shutdown
Java进阶知识17 Spring Bean对象的创建细节和创建方式
本文知识点(目录): 1.创建细节 1) 对象创建: 单例/多例 2) 什么时候创建? 3)是否延迟创建(懒加载) 4) 创建对象之后, ...
CUDA-F-5-5-常量内存
title: [CUDA 基础]5.5 常量内存 categories: - CUDA - Freshman tags: - CUDA常量内存 - CUDA只读缓存 toc: true date: 2 ...
【Android】【踩坑日记】解决Error:SSL peer shut down incorrectly
前提条件 http://services.gradle.org/distributions/ 复制到浏览浏览器能打开下一步打开Android studiogradle version 配置文件进行 ...
Linux设备驱动程序之 RCU机制
读取-复制-更新(read-copy-update,RCU)是一种高级的互斥机制,在正确的条件下,可以获得高的性能: RCU对它保护的数据结构做了一些限定,它针对经常发生读而很少发生写的情况做了优化, ...

论文阅读及复现 | Effective Neural Solution for Multi-Criteria Word Segmentation

主要思想

方法

多标准CWS

训练

实验

数据集

复现

论文阅读及复现 | Effective Neural Solution for Multi-Criteria Word Segmentation的更多相关文章

随机推荐

热门专题