歧义问题方面,笔者一直比较关注利用词向量解决歧义问题: 也许你寄希望于一个词向量能捕获所有的语义信息(例如run即是动车也是名词),但是什么样的词向量都不能很好地进行凸显. 这篇论文有一些利用词向量的办法:Improving Word Representations Via Global Context And Multiple Word Prototypes(Huang et al. 2012) 解决思路:对词窗口进行聚类,并对每个单词词保留聚类标签,例如bank1, bank2等 来源于笔者…
下面是一些工作过程中比较常见的工具方法,但不代表最终答案.希望能对你有所帮助,如果您有更好更多的方法工具,欢迎推荐! 1. 按行读取带json字符串的文件 # -*- coding:utf-8 -*- import json import sys with open("./aldwx-log-20.20190619194001.json.COMPLETED",'r') as load_f: for line in load_f: try: load_dict = json.loads(…