在文本分类任务中,语料的特性千差万别,我们需要找到适合模型并抓住数据的特性,最终才能得到较好的model.最近在文本类别标注任务,就是给文本打标签确定该文本的类别.这是一个很费人工的过程,需要认真仔细,因为我们都知道有多少人工就有多少智能. 微信.QQ短文本: (1)如何分段 聊天文本的边界是无法确定的,那我们如何截取一个群聊的文本作为我们的一个训练样本呢.目前初步的做法是:首先约定字数,达到多少文字我们就认定可以是一个样本段落:同时加入聊天时间作为辅助标准,某一时间间隔的数据可以作为一个样本.…