一.任务描述 最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了两个list,词汇list 和 词汇数量list,分别记录新出现的词汇和该词汇出现的次数.遍历整个语料文件,收集各个词汇并计算其出现次数.最后,对词汇数量list进行降序排序,留下出现频率最高的10000个词汇.流程大致如下图: 二.问题描述 在程序实际运行的过程中,发现程序运行的速度实在是太慢.对…