本文借助细粒度情感分类技术, 对从网络上抓取大量计算机专业本科教材的评价文本进行情感极性 分析, 从而辅助商家和出版社改进教材的质量、制定 合理的销售策略, 并为潜在消费者的购买决策 供参 考依据.

主要解决了什么问题?

分析、提取对计算机类教材有效的、可靠的评价(当当、京东平台)

1.部分评论有省略号

2.有些评论很简略,没有出现‘书’这个主体对象

主要用到什么方法或技术

流程:

Sep1.去噪

1.1 同一用户针对同一产品发表的多条相同评论、字数多还没有感情色彩的评论、错别字、拼音、英语替换等。

1.2 已去噪的评论数据进行分词和词性 标注

采用技术:

1.1 人工删除等

  

1.2 利用中国科学院计算机所研发的中文分词软件 ICTCLAS2016 对已去噪的评论数据进行分词和词性 标注.

由于 ICTCLAS2016 对一些计算机专业名词、网 络新词等词汇的切分结果不正确, 因此本文自定义了 领域分词词典, 以优化词汇切分效果.

Sep2.构建情感词典

文本选择了基础情感词典, 构建了领域情感词典、网络情感词典和极性修饰情感词典等资源.
  • 公开发表的中文情感词典资源有知网的 HowNet、台湾大学发布的 NTUSD 以及大连理工大学 构建的情感词汇本体库

HowNet 和 NTUSD 仅区分了情感词的极性, 而大连理工大学发布 的情感词典不仅区分了词汇的情感极性, 还 述了词 汇的情感强度.

Sep3.特征词库的构建

需要获取在线评论中用户评价的产品特征.

  产品特征一般是名词和名词性短语, 因此 特征 取则转化为对名词和名词性短语的选取和筛选.

  由于本文选择的分词工具 ICTCLAS2016 仅能标注 出名词, 但不能标注出名词性短语. 为此, 本文在分词 结果的基础上, 制定了以下 3 条规则识别文本中的名词性短语, 这样就能较为完整地选取教材的候选产品特征.

1. “名词+名词”规则
2. “名词+的+名词”规则
3. “动词+名词”规则

Sep4.判断极性

  句法分析工具使用了哈 工大社会计算与信息检索研究中心研发的语言技术平台 (LTP), 通过该平台对优化后的分词结果进行依存关系分析.

  

Sep5.评估本实验所采用的算法的性能

  1. 使用了本文构建的 ***教材评论情感 ***词典, 测试算法在产品特征-情感 述项和产品特征极 性方面的识别结果;
  2. 然后再使用大连理工大学发布的 通用情感词典, 获得相同语料下的识别效果;
  3. 以人工标注结果为基准, 分别计算使用两部情感词典的识别结果的准确率、召回率和 F 值。

NLP论文泛读之《教材在线评论的情感倾向性分析》的更多相关文章

  1. 论文泛读:Click Fraud Detection: Adversarial Pattern Recognition over 5 Years at Microsoft

    这篇论文非常适合工业界的人(比如我)去读,有很多的借鉴意义. 强烈建议自己去读. title:五年微软经验的点击欺诈检测 摘要:1.微软很厉害.2.本文描述了大规模数据挖掘所面临的独特挑战.解决这一问 ...

  2. 论文泛读·Adversarial Learning for Neural Dialogue Generation

    原文翻译 导读 这篇文章的主要工作在于应用了对抗训练(adversarial training)的思路来解决开放式对话生成(open-domain dialogue generation)这样一个无监 ...

  3. 论文泛读 A Novel Ensemble Learning-based Approach for Click Fraud Detection in Mobile Advertising [1/10]

    title:新的基于集成学习的移动广告作弊检测 导语:基于buzzcity数据集,我们提出了对点击欺诈检测是基于一组来自现有属性的新功能的一种新方法.根据所得到的精度.召回率和AUC对所提出的模型进行 ...

  4. Java 垃圾回收(GC) 泛读

    Java 垃圾回收(GC) 泛读 文章地址:https://segmentfault.com/a/1190000008922319 0. 序言 带着问题去看待 垃圾回收(GC) 会比较好,一般来说主要 ...

  5. NLP入门(十)使用LSTM进行文本情感分析

    情感分析简介   文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类.它是对带有情感色彩的主观性 ...

  6. StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎

    StreamDM:基于Spark Streaming.支持在线学习的流式分析算法引擎 streamDM:Data Mining for Spark Streaming,华为诺亚方舟实验室开源了业界第一 ...

  7. AQS源码泛读,梳理设计流程(jdk8)

    一.AQS介绍 AQS(AbstractQueuedSynchronizer)抽象队列同步器,属于多线程编程的基本工具:JDK对其定义得很详细,并提供了多种常用的工具类(重入锁,读写锁,信号量,Cyc ...

  8. 【转载】GAN for NLP 论文笔记

    本篇随笔为转载,原贴地址,知乎:GAN for NLP(论文笔记及解读).

  9. ICCV 2019|70 篇论文抢先读,含目标检测/自动驾驶/GCN/等(提供PDF下载)

    虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(http ...

随机推荐

  1. asp.net core封装layui组件示例分享

    用什么封装?自然是TagHelper啊,是啥?自己瞅文档去 在学习使用TagHelper的时候,最希望的就是能有个Demo能够让自己作为参考 怎么去封装一个组件? 不同的情况怎么去实现? 有没有更好更 ...

  2. express简介

    Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用,和丰富的 HTTP 工具. 使用 Express 可以快速地搭建一个完整功能的网 ...

  3. Java面向对象 IO (二)

     Java面向对象  IO   (二) 知识概要:               (1)字节流概述 (2)字节流复制图片 (3)IO流(读取键盘录入) (4)读取转换流,写入转换流 字节流概述   ...

  4. 简单的CSS颜色查看工具

    可以通过输入ARGB(A代表透明度)格式或者HEX格式查看颜色,也可以进行ARGB格式和者HEX格式转换,如下图 使用C#编写,我已将源代码压缩上传 下载地址:http://files.cnblogs ...

  5. 组件 layui 表单抓取数据四步走

    注意事项: layui 中提交按钮是基于"监听"机制实现的. form.on() 的调用需置于 layui.use 的回调函数中. 末尾的 'return false' 不可或缺, ...

  6. python安装(python2.7)

    1.下载python 进入官网下载安装 点击打开链接(官网地址:https://www.python.org/downloads/),进入官网后根据自己需求选择python2 或者 python3 2 ...

  7. Python 中的装饰器

    说到装饰器是我们每个学Python人中的心痛. 装饰器作用:是用来装饰其他函数的,为其他函数添加新功能. 原则:1.不能改变被修饰函数的源代码. 2.不能修改被修饰函数的调用方式. 学装饰器前还需要了 ...

  8. vue学习前奏——webpack

    "工欲善其事必先利其器",要想学习vue,首先需要我们去了解webpack,便于后期快速构建运行项目.废话不多说,下面开始介绍在开始一个vue项目前我们需要对webpack有一定的 ...

  9. win10 uwp 列表模板选择器

    本文主要讲ListView等列表可以根据内容不同,使用不同模板的列表模板选择器,DataTemplateSelector. 如果在 UWP 需要定义某些列的显示和其他列不同,或者某些行的显示和其他行不 ...

  10. Java中多态的理解

    最近学习Java里面的多态下面是个人的整理: 多态存在的3个必要条件: 1.要有继承 2.要有方法的重写 3.父类引用指向子类对象(对于父类中定义的方法,如果子类中重写了该方法,那么父类类型的引用将会 ...