发际线堪忧的小 Q,为了守住头发最后的尊严,深入分析了几十款防脱洗发水的评价,最后综合选了一款他认为最完美的防脱洗发水。

一星期后,他没察觉到任何变化。

一个月后,他用卷尺量了量,发际线竟然后退了 0.5cm!难道防脱要经历一个物极必反的过程,先脱再长?小 Q 不甘心,决定继续坚持。

两个月后,小 Q 心如死灰,忍不住和小 Z 抱怨。

这句话,平地一惊雷,炸出了小 Q 惨痛的网购回忆。

他,屡屡冲着卖家秀而去,却屡屡化身买家秀而归。

说好的椰子!?

我想买两个杯子来着,怎么变成了一个!?

小 Q 曾经因为网购吃亏太多,而为自己的颜值和智商担忧。但经过小 Z 的点拨,他认定了一件事:活成卖家秀,并不是自身的问题,而是万恶的假评价误导了自己的消费决策。

为了自己,为了让更多的朋友免受误导,他和小 Z 一拍即合,决定用数据思维来鉴定刷单。

经过一番翻云覆雨,终于总结出了用数据鉴定刷单的两板斧。

第一板斧:评销比

购买——使用——评价是一个完整的购后链路。消费者在购买了产品之后,一定会使用,但评价则需要一定场景来触发。

比如这个产品超出预期,我要感谢卖家!或者这个产品在侮辱我的智商,我要骂街!

当然,还存在一部分为了刷积分而评价的人,不过正常情况下,主动评论的人占总人数的比重是维持在稳定水平的。

如果有通过大规模红包返现或其他人为手段刷的好评,在同样购买人数的前提下,参与评价的人大概率是高于正常的。

怎么衡量这个比例是否合理呢?这里,我们引入一个叫做评销比的指标。

评销比 = 单款产品总评论数 / 单款产品总销量 * 100,以此来衡量平均每卖出 100 单位的产品,对应着多少条评价。

接下来,我们导入爬取的脱敏真实数据(为了去重广告嫌疑脱的敏)来实践一下:

增加一列计算评销比:

看看评销比分布形态,数据在 20 左右分散开来,略微偏右:

从评销比分布图,可以看出在 40 处有二次下跌,我们暂且把 40(一般也可以尝试平均值)设置为一个筛选阈值,高于阈值的判定为有刷单嫌疑。

第一版斧挥过,12% 疑似刷单的产品应声倒下,小 Z 露出了欣慰的微笑。

小 Q 却眉头紧锁:“这个鉴定逻辑是有一定道理,但是,我买的那款洗发水竟然逃过了筛选!”

不要慌,我们还有第二板斧保驾护航。

第二板斧:内容重复度

第二板斧整个判别逻辑极其简单粗暴:对于一款产品,如果存在不同的用户,在不同的时间,评论了相同的内容,那妥妥的是刷啊!

直接上案例数据,我们爬取了小 Q 购买的那款防脱洗发水评价,共计1706条:

为了让鉴别更加科学,先换位思考:除极端情绪外,我们自己在评论时总会用“还行”、“一般般”、“刚收到,还没用”等短评来敷衍。这些短评非常容易重复,但也不能说是刷的评价。

so,我们在用重复度鉴别时,可以先预设一个评论长度作为筛选标准,比如只对超过 15 个字的评论进行重复度匹配:

长度筛选之后,正好还剩下 1200 条评价,下面开始正式匹配。大家如果想更精细,可以考虑用文本挖掘等高阶方法,在这里我们用最最最简单粗暴的文本排序:

前 6 条评价,有 3 个不同的客户,分别在 19 年的 10 月 16 日、24 日和 21 日发表了相同的内容,他们都受高考压力影响,脱发严重,每天房间、床铺、地上掉满他们的头发。

幸好!!!他们在秃顶前遇到了这款洗发水!用了几次不仅比之前掉的少,还新长出来了一些小碎发!

177 个字,洋洋洒洒,令人动容!

但这到底是偶然的巧合还是有组织刷的评价呢?我们不能这么简单下定论。

继续看一看,这些长篇大论一字不差的重复评论有多少条:

注:A、B、C 三条内容完全一样,则统计为 3 条重复评价

1200 条超过 15 个字的评价,有 378 条是虚伪的,占比高达 31.5%。

他们文风多变,除了“高考压力”,还有“为父分忧而买”、也有“被微博广告安利”、甚至有“担心被骗,用第二套才敢评价的”。

可谓情真而意切,感人而至深!

小 Z 看过评价,深深不能自拔,瞬间理解了小 Q 为什么被忽悠。

“你跺你也麻啊!”

幸好,以后有了这两板斧保驾护航,再也不用担心这些虚评假意了。

发际线堪忧的小 Q,为了守住头发最后的尊严,深入分析了几十款防脱洗发水的评价,最后综合选了一款他认为最完美的防脱洗发水。

一星期后,他没察觉到任何变化。

一个月后,他用卷尺量了量,发际线竟然后退了 0.5cm!难道防脱要经历一个物极必反的过程,先脱再长?小 Q 不甘心,决定继续坚持。

两个月后,小 Q 心如死灰,忍不住和小 Z 抱怨。

这句话,平地一惊雷,炸出了小 Q 惨痛的网购回忆。

他,屡屡冲着卖家秀而去,却屡屡化身买家秀而归。

说好的椰子!?

我想买两个杯子来着,怎么变成了一个!?

小 Q 曾经因为网购吃亏太多,而为自己的颜值和智商担忧。但经过小 Z 的点拨,他认定了一件事:活成卖家秀,并不是自身的问题,而是万恶的假评价误导了自己的消费决策。

为了自己,为了让更多的朋友免受误导,他和小 Z 一拍即合,决定用数据思维来鉴定刷单。

经过一番翻云覆雨,终于总结出了用数据鉴定刷单的两板斧。

第一板斧:评销比

购买——使用——评价是一个完整的购后链路。消费者在购买了产品之后,一定会使用,但评价则需要一定场景来触发。

比如这个产品超出预期,我要感谢卖家!或者这个产品在侮辱我的智商,我要骂街!

当然,还存在一部分为了刷积分而评价的人,不过正常情况下,主动评论的人占总人数的比重是维持在稳定水平的。

 

如果有通过大规模红包返现或其他人为手段刷的好评,在同样购买人数的前提下,参与评价的人大概率是高于正常的。

怎么衡量这个比例是否合理呢?这里,我们引入一个叫做评销比的指标。

评销比 = 单款产品总评论数 / 单款产品总销量 * 100,以此来衡量平均每卖出 100 单位的产品,对应着多少条评价。

接下来,我们导入爬取的脱敏真实数据(为了去重广告嫌疑脱的敏)来实践一下:

增加一列计算评销比:

看看评销比分布形态,数据在 20 左右分散开来,略微偏右:

从评销比分布图,可以看出在 40 处有二次下跌,我们暂且把 40(一般也可以尝试平均值)设置为一个筛选阈值,高于阈值的判定为有刷单嫌疑。

第一版斧挥过,12% 疑似刷单的产品应声倒下,小 Z 露出了欣慰的微笑。

小 Q 却眉头紧锁:“这个鉴定逻辑是有一定道理,但是,我买的那款洗发水竟然逃过了筛选!”

不要慌,我们还有第二板斧保驾护航。

第二板斧:内容重复度

第二板斧整个判别逻辑极其简单粗暴:对于一款产品,如果存在不同的用户,在不同的时间,评论了相同的内容,那妥妥的是刷啊!

直接上案例数据,我们爬取了小 Q 购买的那款防脱洗发水评价,共计1706条:

为了让鉴别更加科学,先换位思考:除极端情绪外,我们自己在评论时总会用“还行”、“一般般”、“刚收到,还没用”等短评来敷衍。这些短评非常容易重复,但也不能说是刷的评价。

so,我们在用重复度鉴别时,可以先预设一个评论长度作为筛选标准,比如只对超过 15 个字的评论进行重复度匹配:

长度筛选之后,正好还剩下 1200 条评价,下面开始正式匹配。大家如果想更精细,可以考虑用文本挖掘等高阶方法,在这里我们用最最最简单粗暴的文本排序:

前 6 条评价,有 3 个不同的客户,分别在 19 年的 10 月 16 日、24 日和 21 日发表了相同的内容,他们都受高考压力影响,脱发严重,每天房间、床铺、地上掉满他们的头发。

幸好!!!他们在秃顶前遇到了这款洗发水!用了几次不仅比之前掉的少,还新长出来了一些小碎发!

177 个字,洋洋洒洒,令人动容!

但这到底是偶然的巧合还是有组织刷的评价呢?我们不能这么简单下定论。

继续看一看,这些长篇大论一字不差的重复评论有多少条:

注:A、B、C 三条内容完全一样,则统计为 3 条重复评价

1200 条超过 15 个字的评价,有 378 条是虚伪的,占比高达 31.5%。

他们文风多变,除了“高考压力”,还有“为父分忧而买”、也有“被微博广告安利”、甚至有“担心被骗,用第二套才敢评价的”。

可谓情真而意切,感人而至深!

小 Z 看过评价,深深不能自拔,瞬间理解了小 Q 为什么被忽悠。

“你跺你也麻啊!”

幸好,以后有了这两板斧保驾护航,再也不用担心这些虚评假意了。

Python 教你识别淘宝刷单,买到称心如意的商品的更多相关文章

  1. 两个月淘宝刷单,连续死N次血泪史 (转)

    两个月淘宝刷单,连续死N次血泪史 派代网 2014/10/13 刷单 分享到:3 [思路网注] 看来是靠刷流量刷销量是行不通了,点击率与展现无法匹配,这是致命的!!那么,贵就贵点,直通车来吧!!再删宝 ...

  2. python:爬虫获取淘宝/天猫的商品信息

    [需求]输入关键字,如书包,可以搜索出对应商品的信息,包括:商品标题.商品链接.价格范围:且最终的商品信息需要符合:包邮.价格差不会超过某数值 #coding=utf-8 ""&q ...

  3. 用Python完成毫秒级抢单,助你秒杀淘宝大单

    目录: 引言 环境 需求分析&前期准备 淘宝购物流程回顾 秒杀的实现 代码梳理 总结 0 引言 年中购物618大狂欢开始了,各大电商又开始了大力度的折扣促销,我们的小胖又给大家谋了一波福利,淘 ...

  4. Python模拟简易版淘宝客服机器人

    对于用Python制作一个简易版的淘宝客服机器人,大概思路是:首先从数据库中用sql语句获取相关数据信息并将其封装成函数,然后定义机器问答的主体函数,对于问题的识别可以利用正则表达式来进行分析,结合现 ...

  5. 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页  4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  6. python(27) 抓取淘宝买家秀

    selenium 是Web应用测试工具,可以利用selenium和python,以及chromedriver等工具实现一些动态加密网站的抓取.本文利用这些工具抓取淘宝内衣评价买家秀图片. 准备工作 下 ...

  7. Appium+python自动化3-启动淘宝app

    前言 前面两篇环境已经搭建好了,接下来就是需要启动APP,如何启动app呢?首先要获取包名,然后获取launcherActivity.获取这两个关键东西的方法很多,这里就不一一多说,小伙伴们可以各显神 ...

  8. 【python】抄写爬淘宝已买到的宝贝的代码

    教程地址:http://cuiqingcai.com/1076.html 这一篇掌握的不好.虽然代码可以跑,但是里面的很多东西都一知半解.需要有空的时候系统整理. 原代码中的正则表达式已经失效了,我自 ...

  9. Python 002- 爬虫爬取淘宝上耳机的信息

    参照:https://mp.weixin.qq.com/s/gwzym3Za-qQAiEnVP2eYjQ 一般看源码就可以解决问题啦 #-*- coding:utf-8 -*- import re i ...

随机推荐

  1. 【JS】380- JavaScript 正则新特性

    概括 如果你曾用 JavaScript 进行过复杂的文本处理操作,那么你将会喜欢 ES2018 中引入的新特性.本文将详细介绍第9版标准如何提高 JavaScript 的文本处理能力. 大多数编程语言 ...

  2. scikit-learn与数据预处理

    .caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...

  3. LAMP两种模式

    [LAMP] Linux(Centos)LAMP环境搭建,LAMP源码安装及LAMP架构原理详解 Wish_亮关注2人评论9469人阅读2018-08-20 01:33:10   本章blog主要介绍 ...

  4. 【TCP/IP网络编程】:04基于TCP的服务器端/客户端

    摘要:结合前面所讲述的知识,本篇文章主要介绍了简单服务器端和客户端实现的框架流程及相关函数接口. 理解TCP和UDP 根据数据传输方式的不同,基于网络协议的套接字一般分为TCP套接字和UDP套接字(本 ...

  5. Chrome浏览器字体设置低于12px无效

    在Chrome 在IE11                 本来以为是padding问题导致出现左右两边的底部不在同一直线(在IE上),在Chrome显示是正常的,查了一下,IE11和Chrome都是 ...

  6. 深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird

    深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...

  7. Java并发之synchronized关键字深度解析(三)

    前言 本篇主要介绍一下synchronized的批量重偏向和批量撤销机制,属于深水区,大家提前备好氧气瓶. 上一篇说完synchronized锁的膨胀过程,下面我们再延伸一下synchronized锁 ...

  8. Linux服务器部署.Net Core笔记:五、安装Nginx

    我们搜索一下yum库关于nginx的rpm包:yum list | grep nginx 找到rpm安装包,我们就可以使用yum直接安装了:yum install nginx 修改nginx配置文件: ...

  9. JS---DOM---part4 课程介绍 & part3 复习

    part4 课程介绍 事件 1. 绑定事件的区别 2. 移除绑定事件的方式及区别和兼容代码 3. 事件的三个阶段 4. 事件冒泡 5. 为同一个元素绑定多个不同的事件,指向的是同一个事件处理函数 6. ...

  10. Reproduction CVE_2019_0708

    Xx_introduction Please protection,respect,love,"China's Internet Security Act"! For learni ...