(标题长一点就能让外行人感觉到高大上) 直接切入主题好了,这个比赛还必须一个神经网络才可以 所以我们结合主题,打算写一个神经网络的中文分词 这里主要写一下数据的收集和处理,网络的设计,代码的编写和模型测试 数据问题 这个模型的数据,我们打算分三类来: 用msr, pku, as, cityu的语料作数据 这些是人工分词的数据,作为数据是最合适的 虽然数据量确实不小(共158999行),但我们有几个另外的想法 用已有的多个中文分词工具,对小说.新闻.法律等进行分词,作为数据 很多分词工具的分词结果