论文:      Millions of online book co-purchases reveal partisan differences in the consumption of science

发表期刊:Nature 2017 (Human Behavior)

作者:       Feng Shi, Yongren Shi, Fedor a. Dokshin, James a. evans and Michael W. Macy

单位:     Computation Institute, University of Chicago

Yale Institute for Network Science, Yale University

Department of Sociology, Cornell University

Department of Sociology, University of Chicago

原文链接:https://www.nature.com/articles/s41562-017-0079

前言:这篇利用亚马逊购书数据对用户政治倾向做分析的文章,发表在Nature2017期刊上。仔细研读并思考了这篇论文值得学习和借鉴的地方,总结如下,希望与大家一起交流。

一、写作动机

人们在面对一些问题,如:气候变化,干细胞研究时持有的不同态度,其本质上是在科学的立场上,不同文化之间的战争。文章通过电子商务网站上人们对不同书籍的购买记录,分析科学书籍与不同政治倾向(保守,自由)书籍之间共同购买的联系。(从而可以从用户对科学书籍的喜好,推断其政治倾向)

二、数据处理:

1.书籍收集:选取两个种子书籍,根据 ”购买该商品的人同样也购买了XXX” 滚雪球式迭代收集所有书籍数据直至不再增加,得到26,467,385共同购买的关系,1,303,504本书籍。数据集来自:Amazon 和barnesandnoble。

2.书籍分类:分为政治类(3530),科学类(428,433),非科学类(494,278)。其中政治类的书籍来自亚马逊“liberalism & Conservatism”类目,与该类目书籍共同购买次数最多书籍,作者为政治家的书籍三个部分。 科学类和非科学类是按照library of congress and dewey decimal classification systems【美国国会图书馆和杜威十进制分类法系统】划分。科学类书籍进一步细分到27个子类目,归并为学校中的四大学科,如:humanities, physical sciences, life sciences and social sciences。非科学类书籍归并为:arts, sports, literature and religion四大类。

3. 政治类书籍倾向划分: 根据三个coder(两个independent coder 和一个tiebreaker)对政治类的书籍(3530本)进行划分为三类:保守派(红色:673本)和自由派(蓝色:583本), 不确定性书籍(不被采用:2274本)。

三、数据分析及发现

数据的分析基于书籍共同购买关系网络,即:"购买xxx商品的人同样也购买了xxx",网络中的结点为书籍,边为共同购买关系(红色:保守倾向的政治书籍, 蓝色: 自由倾向的政治书籍,灰色:科学书籍)。

1. Figure1:  a, 共同购买关系中90%以上书籍拥有相同的政治倾向(97.2% red-red, 93.7% blue-blue); b, 与自由倾向的书籍共同购买的科学书籍更为广泛,与保守倾向的书籍共同购买的科学书籍分布相对集中。如下图:

2. Figure 2:分析科学书籍与非科学书籍各个子类目下的政治的相关性和极化程度(偏向于某一政治倾向的程度)以及其极性(保守或自由,用颜色表示)。(计算方法见定量计算)

发现:科学书籍要比非科学书籍的政治相关性高,且极化程度高,尤其在科学的子类目social science 和 humanities. 非科学书籍中的艺术类政治相关性最低,且其政治倾向极性最偏向自由。

3. Figure 3: a, 在科学类书籍的不同子科目下,每类书籍的极性。发现:气候类、医药类、法律类、历史类的书籍政治倾向更为保守;而工程学的书籍政治倾向更为自由; b, 不同书籍子类目实用程度越高,政治倾向越偏向于保守。

4. Figure4: 可视化分析不同科学子学科下,与不同倾向的政治书籍共同购买的科学书籍的分布。发现: 在哲学学科,不同倾向的政治书籍共同购买的科学书籍最为不同。经济学科,保守和自由倾向的政治书籍共同购买的科学书籍最为相似。

四、定量分析指标

1. 政治相关性(relevance)和极性(alignment)的计算:用来估计书籍与政治类书籍共同购买的概率,二项式分布在节点度数较少时存在误差,选用beta分布,即按照其与不同政治倾向书籍购买概率的分布计算, beta分布的先验用随机模型估计。同样,在计算所属保守或是自由的极性时,也同样按照政治书籍中保守和自由书籍概率的分布,即beta分布计算。Figure 2.

(beta分布解释参见:https://www.zhihu.com/question/30269898)

2. 政治极化程度(polarization)的计算: 用来估计该书籍共同购买书籍的政治倾向单一的程度。数值越大,单一倾向程度越高。Figure2.

3. 实用程度(applied index): 由美国专利数据库中所引用各类书籍的量用来度量该书籍实用程度。Figure 3.

4. 科学幅度(scientific breadth):衡量与政治书籍共同购买的科学书籍的范围。Figure 4.

五、总结和思考

我们之前基于亚马逊的购物,评论数做过也看过不少研究分析,而这篇简单而严谨的文章能够发在nature如此高质量的期刊上,着实需要好好学习。

总结几点:1,一个新颖的问题,将购物数据用在判别政治倾向的问题上,研究问题有趣。

2, 政治倾向判断,人工标注数据本身具有一定的难度和工作量。可以继续研究, 关于政治倾向的自动判别标注方法。

3, 文章可视化分析方式, 也是值得借鉴的。

4, 文章以政治倾向为研究点,来分析科学类书籍的偏好不同,没有深入到购买者的角度,此方向也可以进一步研究。

2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记的更多相关文章

  1. 阅读文章《DDD 领域驱动设计-如何 DDD?》的阅读笔记

    文章链接: https://www.cnblogs.com/xishuai/p/how-to-implement-ddd.html 文章作者: 田园里的蟋蟀 首先感谢作者写出这么好的文章. 以下是我的 ...

  2. Nature/Science 论文阅读笔记

    Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...

  3. 2017上半年技术文章集合【Android】—184篇文章分类汇总

    地址: http://blog.csdn.net/androidstarjack/article/details/77923753 声明 | 本文是于亚豪 原创 终端研发部 前言: 2017年已经过大 ...

  4. 【CFD之道】2017年原创文章汇总

    1 Fluent案例(21篇) [Fluent案例]01 空气流经障碍物 [Fluent案例]02:Tesla阀 [Fluent案例]03:RAE2822翼型外流场计算 [Fluent案例]04:多孔 ...

  5. 知乎Live总结-重复nature文章笔记Single-cell

    来自知乎Live-孟浩巍 1.文章重要技术及图讲解 首先在转录组RNA-seq中,有基因表达差异.基因融合.可变剪切.RNA单点突变. 在基因组中,单点变异.结构变异,CNV变异(拷贝数变异) 三类基 ...

  6. 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions

    综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...

  7. 2017年人工智能相关会议论文阅读笔记 (已添加ISSCC17,慢慢补充中)

    ISSCC 2017 Session14 Deep Learning Processors: 关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据 ...

  8. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  9. 潭州课堂25班:Ph201805201 django 项目 第四十课 后台 文章发布,更新实现,热门新闻管理,轮播图管理(课堂笔记)

    把图片上传到 七牛云,必须经过后台的许可, 在虚拟机中安装七牛云所需模块pip install qiniu # 创建utils/secrets/qiniu_secret_info.py文件 # 从七牛 ...

随机推荐

  1. c#Udp分包组包方法

    udp通信协议,相信大家都知道这个.由于是无连接的协议,所有udp的传输效率比tcp高.但是udp协议传输较大的数据文件得分包 最近写了个分包组包的方法,拿来和大家分享,如果有什么不妥的地方,欢迎点评 ...

  2. gym101201F Illumination 2-SAT

    题目传送门 题目大意: 给出n*n的网格,l栈灯,每盏灯可以选择照亮竖着的2*r+1的范围,或者横着的2*r+1的范围,要求一个格子不会同时被一盏以上的横着的灯照亮,也不能被一盏以上的竖着的灯照亮,所 ...

  3. CFD

                                                        Were  it free , it would Soar , cloud Sky. 1. 明显 ...

  4. drf(djangorestframework)

    一.django restful_framework 核心思想: 缩减编写api接口的代码 Django REST framework是一个建立在Django基础之上的Web 应用开发框架,可以快速的 ...

  5. 2.3 if switch for等流程控制

    if条件中可以写多个语句,语句的作用域仅限于if,不可在if之外的地方使用 package main import ( "fmt" "io/ioutil" ) ...

  6. Android应用捕获全局异常自定义处理

    [2016-06-30]最新的全局异常处理DRCrashHandler已经集成在DR_support_lib库中 具体请看: https://coding.net/u/wrcold520/p/DR_s ...

  7. 企业的VI设计需要包含哪些元素

    VI设计,即视觉识别系统,企业VI设计是企业品牌建设的重中之重.最近很多人都在问,一套完整的企业VI设计都包括哪些内容?现在我们站在一个高级设计师的角度,来简单谈一谈VI设计包括哪些内容.文中指出,一 ...

  8. keepalived heartbeat lvs haproxy

    一, keeplived @ 01,keeplived 是什么? Keepalived起初是为LVS设计的,专门用来监控集群系统中各个服务节点的状态,它根据TCP/IP参考模型的第三.第四层.第五层交 ...

  9. linux 运维基础之http协议详解

    引言 这尼玛博客还得自己在这里写,难受一匹本来排版好的...每次都这样嗨....本内容属于借鉴资源,侵权删! HTTP是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系 ...

  10. linux系统优化基础

    linux系统优化基础 tags: linux 优化 kingle---### 1, 查看centos版本:cat etc/redhat-release 看看centos架构信息:uname -m 查 ...