论文:      Millions of online book co-purchases reveal partisan differences in the consumption of science

发表期刊:Nature 2017 (Human Behavior)

作者:       Feng Shi, Yongren Shi, Fedor a. Dokshin, James a. evans and Michael W. Macy

单位:     Computation Institute, University of Chicago

Yale Institute for Network Science, Yale University

Department of Sociology, Cornell University

Department of Sociology, University of Chicago

原文链接:https://www.nature.com/articles/s41562-017-0079

前言:这篇利用亚马逊购书数据对用户政治倾向做分析的文章,发表在Nature2017期刊上。仔细研读并思考了这篇论文值得学习和借鉴的地方,总结如下,希望与大家一起交流。

一、写作动机

人们在面对一些问题,如:气候变化,干细胞研究时持有的不同态度,其本质上是在科学的立场上,不同文化之间的战争。文章通过电子商务网站上人们对不同书籍的购买记录,分析科学书籍与不同政治倾向(保守,自由)书籍之间共同购买的联系。(从而可以从用户对科学书籍的喜好,推断其政治倾向)

二、数据处理:

1.书籍收集:选取两个种子书籍,根据 ”购买该商品的人同样也购买了XXX” 滚雪球式迭代收集所有书籍数据直至不再增加,得到26,467,385共同购买的关系,1,303,504本书籍。数据集来自:Amazon 和barnesandnoble。

2.书籍分类:分为政治类(3530),科学类(428,433),非科学类(494,278)。其中政治类的书籍来自亚马逊“liberalism & Conservatism”类目,与该类目书籍共同购买次数最多书籍,作者为政治家的书籍三个部分。 科学类和非科学类是按照library of congress and dewey decimal classification systems【美国国会图书馆和杜威十进制分类法系统】划分。科学类书籍进一步细分到27个子类目,归并为学校中的四大学科,如:humanities, physical sciences, life sciences and social sciences。非科学类书籍归并为:arts, sports, literature and religion四大类。

3. 政治类书籍倾向划分: 根据三个coder(两个independent coder 和一个tiebreaker)对政治类的书籍(3530本)进行划分为三类:保守派(红色:673本)和自由派(蓝色:583本), 不确定性书籍(不被采用:2274本)。

三、数据分析及发现

数据的分析基于书籍共同购买关系网络,即:"购买xxx商品的人同样也购买了xxx",网络中的结点为书籍,边为共同购买关系(红色:保守倾向的政治书籍, 蓝色: 自由倾向的政治书籍,灰色:科学书籍)。

1. Figure1:  a, 共同购买关系中90%以上书籍拥有相同的政治倾向(97.2% red-red, 93.7% blue-blue); b, 与自由倾向的书籍共同购买的科学书籍更为广泛,与保守倾向的书籍共同购买的科学书籍分布相对集中。如下图:

2. Figure 2:分析科学书籍与非科学书籍各个子类目下的政治的相关性和极化程度(偏向于某一政治倾向的程度)以及其极性(保守或自由,用颜色表示)。(计算方法见定量计算)

发现:科学书籍要比非科学书籍的政治相关性高,且极化程度高,尤其在科学的子类目social science 和 humanities. 非科学书籍中的艺术类政治相关性最低,且其政治倾向极性最偏向自由。

3. Figure 3: a, 在科学类书籍的不同子科目下,每类书籍的极性。发现:气候类、医药类、法律类、历史类的书籍政治倾向更为保守;而工程学的书籍政治倾向更为自由; b, 不同书籍子类目实用程度越高,政治倾向越偏向于保守。

4. Figure4: 可视化分析不同科学子学科下,与不同倾向的政治书籍共同购买的科学书籍的分布。发现: 在哲学学科,不同倾向的政治书籍共同购买的科学书籍最为不同。经济学科,保守和自由倾向的政治书籍共同购买的科学书籍最为相似。

四、定量分析指标

1. 政治相关性(relevance)和极性(alignment)的计算:用来估计书籍与政治类书籍共同购买的概率,二项式分布在节点度数较少时存在误差,选用beta分布,即按照其与不同政治倾向书籍购买概率的分布计算, beta分布的先验用随机模型估计。同样,在计算所属保守或是自由的极性时,也同样按照政治书籍中保守和自由书籍概率的分布,即beta分布计算。Figure 2.

(beta分布解释参见:https://www.zhihu.com/question/30269898)

2. 政治极化程度(polarization)的计算: 用来估计该书籍共同购买书籍的政治倾向单一的程度。数值越大,单一倾向程度越高。Figure2.

3. 实用程度(applied index): 由美国专利数据库中所引用各类书籍的量用来度量该书籍实用程度。Figure 3.

4. 科学幅度(scientific breadth):衡量与政治书籍共同购买的科学书籍的范围。Figure 4.

五、总结和思考

我们之前基于亚马逊的购物,评论数做过也看过不少研究分析,而这篇简单而严谨的文章能够发在nature如此高质量的期刊上,着实需要好好学习。

总结几点:1,一个新颖的问题,将购物数据用在判别政治倾向的问题上,研究问题有趣。

2, 政治倾向判断,人工标注数据本身具有一定的难度和工作量。可以继续研究, 关于政治倾向的自动判别标注方法。

3, 文章可视化分析方式, 也是值得借鉴的。

4, 文章以政治倾向为研究点,来分析科学类书籍的偏好不同,没有深入到购买者的角度,此方向也可以进一步研究。

2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记的更多相关文章

  1. 阅读文章《DDD 领域驱动设计-如何 DDD?》的阅读笔记

    文章链接: https://www.cnblogs.com/xishuai/p/how-to-implement-ddd.html 文章作者: 田园里的蟋蟀 首先感谢作者写出这么好的文章. 以下是我的 ...

  2. Nature/Science 论文阅读笔记

    Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...

  3. 2017上半年技术文章集合【Android】—184篇文章分类汇总

    地址: http://blog.csdn.net/androidstarjack/article/details/77923753 声明 | 本文是于亚豪 原创 终端研发部 前言: 2017年已经过大 ...

  4. 【CFD之道】2017年原创文章汇总

    1 Fluent案例(21篇) [Fluent案例]01 空气流经障碍物 [Fluent案例]02:Tesla阀 [Fluent案例]03:RAE2822翼型外流场计算 [Fluent案例]04:多孔 ...

  5. 知乎Live总结-重复nature文章笔记Single-cell

    来自知乎Live-孟浩巍 1.文章重要技术及图讲解 首先在转录组RNA-seq中,有基因表达差异.基因融合.可变剪切.RNA单点突变. 在基因组中,单点变异.结构变异,CNV变异(拷贝数变异) 三类基 ...

  6. 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions

    综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...

  7. 2017年人工智能相关会议论文阅读笔记 (已添加ISSCC17,慢慢补充中)

    ISSCC 2017 Session14 Deep Learning Processors: 关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据 ...

  8. 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

    论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...

  9. 潭州课堂25班:Ph201805201 django 项目 第四十课 后台 文章发布,更新实现,热门新闻管理,轮播图管理(课堂笔记)

    把图片上传到 七牛云,必须经过后台的许可, 在虚拟机中安装七牛云所需模块pip install qiniu # 创建utils/secrets/qiniu_secret_info.py文件 # 从七牛 ...

随机推荐

  1. Qt 学习之路 2(61):使用 SAX 处理 XML

    Qt 学习之路 2(61):使用 SAX 处理 XML  豆子  2013年8月13日  Qt 学习之路 2  没有评论 前面两章我们介绍了使用流和 DOM 的方式处理 XML 的相关内容,本章将介绍 ...

  2. 关于Apache显示port 80 in use 无法解决的情况,这个世界对程序媛太不友好了

    学到Ajax时下载了Apache,百度的安装教程,配置文件参数分别是: 1. httpd.conf里的80改为8000或者其他的,共三处(用记事本打开,按ctrl+F找方便) 2. httpd-ssl ...

  3. PyQt 5+qtDesigner

    https://blog.csdn.net/view994/article/details/84402069 https://blog.csdn.net/yizhou2010/article/deta ...

  4. linux 检测服务器端口工具

    #nmp# nmap 127.0.0.1 #netstat# netstat -anlp | grep 22 #telnet# 服务器端口即使处于监听状态,但是防火墙iptables屏蔽了该端口,是无 ...

  5. cenos安装erlang

    https://blog.zfanw.com/install-erlang-on-centos/

  6. ZOJ - 3632 DP 单调优化

    题意:买瓜,每天的瓜有不同的价格和xu命时间,要求能苟到第n天的最小代价 定义DP方程\(dp[i]\),指苟到第\(i\)天的最小代价,所求即为\(dp[n]\) 那么怎么转移就是问题,这里的状态表 ...

  7. Docker的基本构架

    不多说,直接上干货! Docker的基本构架 Docker基于Client-Server架构,Docker daemon是服务端,Docker client是客户端. Docker的基本架构,如下图所 ...

  8. java集合常用操作

    收集一些常用集合操作的代码,用于治疗健忘症,:) set转list //构造Map数据 Map<String, String> map = new HashMap<String, S ...

  9. 018-面向接口编程的BeanFactory模板代码

    1 BeanFactory工具类 package www.test.utils; import org.dom4j.Document; import org.dom4j.Element; import ...

  10. 解决eclipse中org.w3c.dom.Node类老报The method getTextContent() is undefined 问题

    http://www.cnblogs.com/itspy007/articles/4431581.html