前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理很多的数据,但是对于 demo 来说非常友好,把英文改成中文,标签改成分词问题中的 "BEMS" 就可以跑起来了. # Make up some training data training_data = [( "the wall street journal reported
翻译学长的一片论文:Long Short-Term Memory Neural Networks for Chinese Word Segmentation 传统的neural Model for Chinese Word Segmentation 中文分词一般是基于字符的序列标签.每个字符可以被标记为集合{B, M, E, S}中的一个元素. B - Begin, M - Middle, E-End of a multi-character segmentation(多字符分割),S 代表