0-定评论结果:好评、差评,1星、4星,二元化为“积极、消极”,取一元的数据为样本

1-得到词频结果:如手机类的“积极样本”得到前10的高频词:运行(run running ran)、内存(memory)、速度(speed)

2-建立key-value、keys-values的多对多 、n:n键值对,样本继承2

  内存--->大/小

  运行--->快

  速度--->快

  2-1-n:n键值对可“同义词合并”或“卖品实质用户体验一致”聚类为一对一 、1:1,但此处非一一映射

3-根据2中结果进行产销策略调整

未引入   主成份  聚类  检验 等

女装 T恤

与描述相符

4.8

2017夏装新款纯棉t恤女短袖圆领修身简约上衣百搭纯白色打底衫女-tmall.com天猫  2017夏装新款纯棉t恤女短袖圆领修身简约上衣百搭纯白色打底衫女-tmall.com天猫  https://detail.tmall.com/item.htm?id=544012028905&skuId=3276167404508

与描述相符

4.8

夏装新款大码女装POLO衫翻领休闲运动上衣纯棉宽松半袖短袖T恤女-tmall.com天猫  https://detail.tmall.com/item.htm?id=544298509053&ali_trackid=1_5e534393b365310f0108e04d4086a70b

好评度

97%
大小合适(8)质量不错(8)穿上很舒服(6)面料不错(5)和图片一样(4)衣服不错(4)样式不错(3)东西很好(2)背心不错(1)颜色正(1)
 
初语 夏季新款T恤女短袖宽松情侣白色印花棉休闲修身短袖T恤女8620131821 米白 M【图片 价格 品牌 报价】-京东  https://item.jd.com/10253612983.html
 
 
好评度

100%
质量不错(151)面料不错(145)穿上很舒服(142)衣服不错(138)大小合适(135)样式不错(126)东西很好(98)背心不错(84)颜色正(81)领子好看(80)
 
南极人T恤女 短袖2017夏装新款蕾丝百搭民族风休闲上衣女997 白色 M【图片 价格 品牌 报价】-京东  https://item.jd.com/11916048206.html
 
 

电脑

97%
外观漂亮(1555)速度快(1002)性能不错(981)性价比高(947)开机速度(934)东西不错(932)配置不错(692)硬件不错(651)键盘不错(552)散热很好(517)

【AppleMacBook Air】Apple MacBook Air 13.3英寸笔记本电脑 银色(Core i5 处理器/8GB内存/128GB SSD闪存 MMGF2CH/A)【行情 报价 价格 评测】-京东  https://item.jd.com/2342601.html

96%
外观漂亮(15)开机速度(14)性价比高(14)配置不错(11)性能不错(11)散热很好(10)东西不错(9)速度快(6)硬件不错(6)屏幕大(4)
 
清华同方(THTF)锋锐S2 14英寸四核轻薄便携笔记本电脑学生商务办公手提电脑分期 深山灰 四核/4G/128G固态(官方标配)【图片 价格 品牌 报价】-京东  https://item.jd.com/1683564850.html

w

# -*- coding: utf-8 -*-
from nltk import * # TO FIX : No such file or directory
os.chdir(r'E:\zpy') f = open('reviews_text_lt_3.txt', 'r')
f_r = f.read()
strList = f_r.split(' ')
fdist1 = FreqDist(strList)
#总的词数
print fdist1
#表达式 keys()为我们提供了文本中所有不同类型的链表
vocabulary1 = fdist1.keys()
#通过切片看看这个链表的前 50 项
res0_50 =vocabulary1[:50]
print res0_50
C:\>python E:\zpy\wltp.py
<FreqDist with 16789 samples and 180043 outcomes>
['', 'raining', 'disappointing.It', 'uncomfortable...', "lot's", 'uv.\nSo,', 'yellow', 'Seller', 'four', 'vaporizers.I', 'Does', 'completely!!', 'hanging', 'Monday,', 'asap!!This', 'Until', 'instead.The', 'malfunctioned.', 'Lately', 'looking', 'LAST', 'eligible', 'electricity', 'DISAPPOINTED', 'oneWorks', 'powdery', 'unanswered', 'also.', 'refun
'sooooo', 'foul', 'on\nafter', 'fingers.', 'advice:', 'fingers,', 'advice?', 'each),', 'month.I'] C:\>
SELECT
amz_review_text
FROM
amz_reviews_grab_us
WHERE
amz_review_rating < 3
LIMIT 3000;

对于通过亚马逊us美国站的买家而言,在数据库前3000条的时间周期y-m-d内,在不考虑品类、价格、评分相对值等因素的情况下,

暂得出以下推测:
0-卖品属性为yellow,其他条件相同情况下,可能不受欢迎,评分相对低;
1-周一可能会给买家糟糕的购买体验,周一的促销活动须结合其他因素,如人文风俗、新闻事件慎重;
注:dev的当前视角

词频分析 评论标签 nltp APP-分析买家评论的评分-高频词:二维关系的更多相关文章

  1. 某音乐类App评论相关API的分析及SQL注入尝试

    关键字:APIfen.工具使用.sql注入 涉及工具/包:Fiddler.Burpsuite.Js2Py.Closure Compiler.selenium.phantomjs.sqlmap 摘要: ...

  2. 网易云音乐APP分析

    网易云音乐-感受音乐的力量 你选择的产品是?  网易云音乐 为什么选择该产品作为分析? 之前用的一直是QQ音乐,但是有一天一个朋友分享了一首网易云上的音乐(顺便分享一下歌名:Drop By Drop) ...

  3. [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

    [python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...

  4. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  5. Hadoop基础--统计商家id的标签数案例分析

    Hadoop基础--统计商家id的标签数案例分析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求 将“temptags.txt”中的数据进行分析,统计出商家id的评论标 ...

  6. CSDN app分析

    项目 内容 这个作业属于哪个课程 2020春季计算机学院软件工程(罗杰 任健) (北京航空航天大学 - 计算机学院) 这个作业的要求在哪里 个人博客作业-软件案例分析 我的教学班级 005 说说csd ...

  7. Android系统自带APP分析——短信app

    Android操作系统本身就是一个巨大的开源软件仓库,熟悉它既可以了解到Android系统的设计框架,也可以获得高效的应用程序编写方式.本文所分析的源码来自于Google官方的AOSP源码4.0.1_ ...

  8. 【HELLO WAKA】WAKA iOS客户端 之一 APP分析篇

    由于后续篇幅比较大,所以调整了内容结构. 全系列 [HELLO WAKA]WAKA iOS客户端 之一 APP分析篇 [HELLO WAKA]WAKA iOS客户端 之二 架构设计与实现篇 [HELL ...

  9. NetCloud——一个网易云音乐评论抓取和分析的Python库

    在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...

随机推荐

  1. Linux/Unix下pid文件作用浅析

    转载:http://blog.csdn.net/changli_90/article/details/8911191 在Linux系统的目录/var/run下面一般我们都会看到很多的*.pid文件.而 ...

  2. bootstrap中的横的列

    col-md-6都是可以嵌套的,所以12列都是虚拟的 所以bootstrap是怎么完成的?都是通过绝对的像素值吗?还是自动计算出了本区域的像素数,然后设置的? 看样子应该是后者,所以整个bootstr ...

  3. 使用ajax发送文件的三种方式及预览图片的方法,上传按钮美化

    后端代码 def upload(request): if request.method == "GET": return render(request,'upload.html') ...

  4. socket 服务器向指定的客户端发消息

    一.需求 需求如题. 当多个客户端连接服务器时,服务器如何给指定的客户端发送消息. 二.解决方案 核心思想: 在服务器端,需保存不同客户端的socket列表及客户端相关信息. socket含有发送方和 ...

  5. lsattr - 显示文件在Linux第二扩展文件系统上的特有属性

    SYNOPSIS(总览) lsattr [ -RVadv ] [ files... ] DESCRIPTION(描述) lsattr 显示文件在Linux第二扩展文件系统上的特有属性 OPTIONS( ...

  6. 统计学习方法——第二章的c++实现

    1.东西搞丢了,只写一部分 2.算法那收敛性 证明逻辑: a.γ是yi*(wopt*Xi)最小值 b.R是Xi最小值 c.k<=(R/γ)^2 难打公式,直接说,Wk由Wk-1迭代而来,所以事实 ...

  7. 常用sql---表记录数和占用空间统计

    1.每张表的记录数和占用空间 select owner as 用户名, table_name as 表名, num_rows as 记录数, ROUND(t.NUM_ROWS * t.AVG_ROW_ ...

  8. python 写matlab中的加性高斯白噪声AWGN

    定义 原始信号:x 噪声信号:n 信噪比:SNR 信号长度:N def wgn(x, snr): snr = 10**(snr/10.0) xpower = np.sum(x**2)/len(x) n ...

  9. git概述(三)

    Bug分支: 当你接到一个修复一个代号101的bug的任务时,很自然地,你想创建一个分支issue-101来修复它,但是,等等,当前正在dev上进行的工作还没有提交: 并不是你不想提交,而是工作只进行 ...

  10. 【Linux】CentOS6安装jdk1.8

    1.查看官网下载地址 接受协议后,点击下载链接 查看发出的请求,获得下载地址 其中后面的AuthParam参数为本次下载的即时参数,每次都不一样 2.下载安装包 下载完后改个名 wget https: ...