2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记
论文: Millions of online book co-purchases reveal partisan differences in the consumption of science
发表期刊:Nature 2017 (Human Behavior)
作者: Feng Shi, Yongren Shi, Fedor a. Dokshin, James a. evans and Michael W. Macy
单位: Computation Institute, University of Chicago
Yale Institute for Network Science, Yale University
Department of Sociology, Cornell University
Department of Sociology, University of Chicago
原文链接:https://www.nature.com/articles/s41562-017-0079
前言:这篇利用亚马逊购书数据对用户政治倾向做分析的文章,发表在Nature2017期刊上。仔细研读并思考了这篇论文值得学习和借鉴的地方,总结如下,希望与大家一起交流。
一、写作动机
人们在面对一些问题,如:气候变化,干细胞研究时持有的不同态度,其本质上是在科学的立场上,不同文化之间的战争。文章通过电子商务网站上人们对不同书籍的购买记录,分析科学书籍与不同政治倾向(保守,自由)书籍之间共同购买的联系。(从而可以从用户对科学书籍的喜好,推断其政治倾向)
二、数据处理:
1.书籍收集:选取两个种子书籍,根据 ”购买该商品的人同样也购买了XXX” 滚雪球式迭代收集所有书籍数据直至不再增加,得到26,467,385共同购买的关系,1,303,504本书籍。数据集来自:Amazon 和barnesandnoble。
2.书籍分类:分为政治类(3530),科学类(428,433),非科学类(494,278)。其中政治类的书籍来自亚马逊“liberalism & Conservatism”类目,与该类目书籍共同购买次数最多书籍,作者为政治家的书籍三个部分。 科学类和非科学类是按照library of congress and dewey decimal classification systems【美国国会图书馆和杜威十进制分类法系统】划分。科学类书籍进一步细分到27个子类目,归并为学校中的四大学科,如:humanities, physical sciences, life sciences and social sciences。非科学类书籍归并为:arts, sports, literature and religion四大类。
3. 政治类书籍倾向划分: 根据三个coder(两个independent coder 和一个tiebreaker)对政治类的书籍(3530本)进行划分为三类:保守派(红色:673本)和自由派(蓝色:583本), 不确定性书籍(不被采用:2274本)。
三、数据分析及发现
数据的分析基于书籍共同购买关系网络,即:"购买xxx商品的人同样也购买了xxx",网络中的结点为书籍,边为共同购买关系(红色:保守倾向的政治书籍, 蓝色: 自由倾向的政治书籍,灰色:科学书籍)。
1. Figure1: a, 共同购买关系中90%以上书籍拥有相同的政治倾向(97.2% red-red, 93.7% blue-blue); b, 与自由倾向的书籍共同购买的科学书籍更为广泛,与保守倾向的书籍共同购买的科学书籍分布相对集中。如下图:

2. Figure 2:分析科学书籍与非科学书籍各个子类目下的政治的相关性和极化程度(偏向于某一政治倾向的程度)以及其极性(保守或自由,用颜色表示)。(计算方法见定量计算)
发现:科学书籍要比非科学书籍的政治相关性高,且极化程度高,尤其在科学的子类目social science 和 humanities. 非科学书籍中的艺术类政治相关性最低,且其政治倾向极性最偏向自由。

3. Figure 3: a, 在科学类书籍的不同子科目下,每类书籍的极性。发现:气候类、医药类、法律类、历史类的书籍政治倾向更为保守;而工程学的书籍政治倾向更为自由; b, 不同书籍子类目实用程度越高,政治倾向越偏向于保守。


4. Figure4: 可视化分析不同科学子学科下,与不同倾向的政治书籍共同购买的科学书籍的分布。发现: 在哲学学科,不同倾向的政治书籍共同购买的科学书籍最为不同。经济学科,保守和自由倾向的政治书籍共同购买的科学书籍最为相似。

四、定量分析指标
1. 政治相关性(relevance)和极性(alignment)的计算:用来估计书籍与政治类书籍共同购买的概率,二项式分布在节点度数较少时存在误差,选用beta分布,即按照其与不同政治倾向书籍购买概率的分布计算, beta分布的先验用随机模型估计。同样,在计算所属保守或是自由的极性时,也同样按照政治书籍中保守和自由书籍概率的分布,即beta分布计算。Figure 2.
(beta分布解释参见:https://www.zhihu.com/question/30269898)
2. 政治极化程度(polarization)的计算: 用来估计该书籍共同购买书籍的政治倾向单一的程度。数值越大,单一倾向程度越高。Figure2.
3. 实用程度(applied index): 由美国专利数据库中所引用各类书籍的量用来度量该书籍实用程度。Figure 3.
4. 科学幅度(scientific breadth):衡量与政治书籍共同购买的科学书籍的范围。Figure 4.
五、总结和思考
我们之前基于亚马逊的购物,评论数做过也看过不少研究分析,而这篇简单而严谨的文章能够发在nature如此高质量的期刊上,着实需要好好学习。
总结几点:1,一个新颖的问题,将购物数据用在判别政治倾向的问题上,研究问题有趣。
2, 政治倾向判断,人工标注数据本身具有一定的难度和工作量。可以继续研究, 关于政治倾向的自动判别标注方法。
3, 文章可视化分析方式, 也是值得借鉴的。
4, 文章以政治倾向为研究点,来分析科学类书籍的偏好不同,没有深入到购买者的角度,此方向也可以进一步研究。
2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记的更多相关文章
- 阅读文章《DDD 领域驱动设计-如何 DDD?》的阅读笔记
文章链接: https://www.cnblogs.com/xishuai/p/how-to-implement-ddd.html 文章作者: 田园里的蟋蟀 首先感谢作者写出这么好的文章. 以下是我的 ...
- Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
- 2017上半年技术文章集合【Android】—184篇文章分类汇总
地址: http://blog.csdn.net/androidstarjack/article/details/77923753 声明 | 本文是于亚豪 原创 终端研发部 前言: 2017年已经过大 ...
- 【CFD之道】2017年原创文章汇总
1 Fluent案例(21篇) [Fluent案例]01 空气流经障碍物 [Fluent案例]02:Tesla阀 [Fluent案例]03:RAE2822翼型外流场计算 [Fluent案例]04:多孔 ...
- 知乎Live总结-重复nature文章笔记Single-cell
来自知乎Live-孟浩巍 1.文章重要技术及图讲解 首先在转录组RNA-seq中,有基因表达差异.基因融合.可变剪切.RNA单点突变. 在基因组中,单点变异.结构变异,CNV变异(拷贝数变异) 三类基 ...
- 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions
综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...
- 2017年人工智能相关会议论文阅读笔记 (已添加ISSCC17,慢慢补充中)
ISSCC 2017 Session14 Deep Learning Processors: 关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据 ...
- 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...
- 潭州课堂25班:Ph201805201 django 项目 第四十课 后台 文章发布,更新实现,热门新闻管理,轮播图管理(课堂笔记)
把图片上传到 七牛云,必须经过后台的许可, 在虚拟机中安装七牛云所需模块pip install qiniu # 创建utils/secrets/qiniu_secret_info.py文件 # 从七牛 ...
随机推荐
- asp.net MVC中的@model与Model
asp.net MVC中的@model与Model https://blog.csdn.net/ydm19891101/article/details/44301201 在MVC的实际使用中,我们经常 ...
- QQ在线状态的使用
在网页中显示QQ在线状态并点击后发起对话,是很多门户网站常见的一个功能,这两天就碰到这样一个.原以为很简单,结果还是折腾了半天,虽然是个小问题,但也值得记录一下. 按以前的经验,网上有很多QQ在线代码 ...
- poj 1220 NUMBER BASE CONVERSION
NUMBER BASE CONVERSION Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 5976 Accepted: ...
- Bound Found(思维+尺取)
Signals of most probably extra-terrestrial origin have been received and digitalized by The Aeronaut ...
- java的Spring学习2- junit和mock
<!-- 引用Mock --> <dependency> <groupId>org.mockito</groupId> <artifactId&g ...
- python附录-builtins.py模块str类源码(含str官方文档链接)
python附录-builtins.py模块str类源码 str官方文档链接:https://docs.python.org/3/library/stdtypes.html#text-sequence ...
- 螺旋队列(p98)
先判断这个坐标代表的数位于哪一层,然后依据该层最大的数去计算这个坐标所代表的数. #include"iostream" #include"stdio.h" #i ...
- python3.6从含有html代码的json的中取出某个值
python3.6从含有html代码的json的中取出某个值 之前在做接口测试的时候,网站的后端是用java写的,然后接口的response返回的都是json格式,json很简单,就是字典,类似这样子 ...
- html简单布局
转载:https://jingyan.baidu.com/article/ca41422f7e52831eae99eda2.html
- matplotlib中绘图配色
Python中绘图配色(参照博文: Python-画图(散点图scatter.保存savefig)及颜色大全) # 可以直接使用配色编码 c=["#A52A2A" if tag = ...