Google BERT应用之<红楼梦>对话人物提取 https://www.jiqizhixin.com/articles/2019-01-24-19…
  人物关系图: https://www.cnblogs.com/images/cnblogs_com/elesos/1120632/o_2033091006.jpg 红楼梦 (古典名著普及文库) (曹雪芹) - 您在位置 #125-125的标注 | 添加于 2018年8月2日星期四 下午2:01:25 觉其行止见识,皆出于我之上. ========== 红楼梦 (古典名著普及文库) (曹雪芹) - 您在位置 #166-166的标注 | 添加于 2018年8月2日星期四 下午2:16:32 消…
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析. 文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术.顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining).从这个意义上讲,文本数据挖掘是数据挖掘的一个分支. 文本分析是指对文本的表示及其特征项的选取:文本分析是文本挖掘.信息检索的一个基本问题,它把从文本中抽取出…
一.程序说明 本程序流程是读取红楼梦txt文件----使用jieba进行分词----借助Counter读取各人名出现次数并排序----使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二.执行结果展示 条形图: 饼状图: 三.程序源代码 import jieba from collections import Counter import matplotlib.pyplot as plt import n…
1. 红楼梦大观园2d图 2. 红楼梦3d图 潇湘馆 注册机:根据电脑名和时间生成一个id,然后根据注册机生成注册码.…
终于效果图: Girl.h // // Girl.h // 12_tableView的增删改 // // Created by beyond on 14-7-27. // Copyright (c) 2014年 com.beyond. All rights reserved. // #import <Foundation/Foundation.h> @interface Girl : NSObject // UI控件用weak,字符串用copy,其它对象用strong // 头像图片名 @pr…
朴素贝叶斯算法简单.高效.接下来我们来介绍其如何应用在<红楼梦>作者的鉴别上. 第一步,当然是先得有文本数据,我在网上随便下载了一个txt(当时急着交初稿...).分类肯定是要一个回合一个回合的分,所以我们拿到文本数据后,先进行回合划分.然后就是去标点符号.分词,做词频统计. # -*- coding: utf- -*- import re import jieba import string import collections as coll jieba.load_userdict('E:…
介绍 在参与的项目和产品中,涉及到模型和算法的需求,主要以自然语言处理(NLP)和知识图谱(KG)为主.NLP涉及面太广,而聚焦在具体场景下,想要生产落地的还需要花很多功夫. 作为NLP的主要方向,情感分析,文本多分类,实体识别等已经在项目中得到应用.例如 通过实体识别,抽取文本中提及到的公司.个人以及金融产品等. 通过情感分析,判别新闻资讯,对其提到的公司和个人是否利好? 通过文本多分类,判断资讯是否是高质量?判断资讯的行业和主题? 具体详情再找时间分享.而文本生成.序列到序列(Sequenc…
1.BERT模型 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的.模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation. 1.1 模型结构 由于模型的构成元素Transformer已经解析过,就不多说了,B…
概述 BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的.模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation. BERT的应用步骤 模型结构 BERT BASE:和OPENAI Transformer大小差不…