2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记
论文: Millions of online book co-purchases reveal partisan differences in the consumption of science
发表期刊:Nature 2017 (Human Behavior)
作者: Feng Shi, Yongren Shi, Fedor a. Dokshin, James a. evans and Michael W. Macy
单位: Computation Institute, University of Chicago
Yale Institute for Network Science, Yale University
Department of Sociology, Cornell University
Department of Sociology, University of Chicago
原文链接:https://www.nature.com/articles/s41562-017-0079
前言:这篇利用亚马逊购书数据对用户政治倾向做分析的文章,发表在Nature2017期刊上。仔细研读并思考了这篇论文值得学习和借鉴的地方,总结如下,希望与大家一起交流。
一、写作动机
人们在面对一些问题,如:气候变化,干细胞研究时持有的不同态度,其本质上是在科学的立场上,不同文化之间的战争。文章通过电子商务网站上人们对不同书籍的购买记录,分析科学书籍与不同政治倾向(保守,自由)书籍之间共同购买的联系。(从而可以从用户对科学书籍的喜好,推断其政治倾向)
二、数据处理:
1.书籍收集:选取两个种子书籍,根据 ”购买该商品的人同样也购买了XXX” 滚雪球式迭代收集所有书籍数据直至不再增加,得到26,467,385共同购买的关系,1,303,504本书籍。数据集来自:Amazon 和barnesandnoble。
2.书籍分类:分为政治类(3530),科学类(428,433),非科学类(494,278)。其中政治类的书籍来自亚马逊“liberalism & Conservatism”类目,与该类目书籍共同购买次数最多书籍,作者为政治家的书籍三个部分。 科学类和非科学类是按照library of congress and dewey decimal classification systems【美国国会图书馆和杜威十进制分类法系统】划分。科学类书籍进一步细分到27个子类目,归并为学校中的四大学科,如:humanities, physical sciences, life sciences and social sciences。非科学类书籍归并为:arts, sports, literature and religion四大类。
3. 政治类书籍倾向划分: 根据三个coder(两个independent coder 和一个tiebreaker)对政治类的书籍(3530本)进行划分为三类:保守派(红色:673本)和自由派(蓝色:583本), 不确定性书籍(不被采用:2274本)。
三、数据分析及发现
数据的分析基于书籍共同购买关系网络,即:"购买xxx商品的人同样也购买了xxx",网络中的结点为书籍,边为共同购买关系(红色:保守倾向的政治书籍, 蓝色: 自由倾向的政治书籍,灰色:科学书籍)。
1. Figure1: a, 共同购买关系中90%以上书籍拥有相同的政治倾向(97.2% red-red, 93.7% blue-blue); b, 与自由倾向的书籍共同购买的科学书籍更为广泛,与保守倾向的书籍共同购买的科学书籍分布相对集中。如下图:

2. Figure 2:分析科学书籍与非科学书籍各个子类目下的政治的相关性和极化程度(偏向于某一政治倾向的程度)以及其极性(保守或自由,用颜色表示)。(计算方法见定量计算)
发现:科学书籍要比非科学书籍的政治相关性高,且极化程度高,尤其在科学的子类目social science 和 humanities. 非科学书籍中的艺术类政治相关性最低,且其政治倾向极性最偏向自由。

3. Figure 3: a, 在科学类书籍的不同子科目下,每类书籍的极性。发现:气候类、医药类、法律类、历史类的书籍政治倾向更为保守;而工程学的书籍政治倾向更为自由; b, 不同书籍子类目实用程度越高,政治倾向越偏向于保守。


4. Figure4: 可视化分析不同科学子学科下,与不同倾向的政治书籍共同购买的科学书籍的分布。发现: 在哲学学科,不同倾向的政治书籍共同购买的科学书籍最为不同。经济学科,保守和自由倾向的政治书籍共同购买的科学书籍最为相似。

四、定量分析指标
1. 政治相关性(relevance)和极性(alignment)的计算:用来估计书籍与政治类书籍共同购买的概率,二项式分布在节点度数较少时存在误差,选用beta分布,即按照其与不同政治倾向书籍购买概率的分布计算, beta分布的先验用随机模型估计。同样,在计算所属保守或是自由的极性时,也同样按照政治书籍中保守和自由书籍概率的分布,即beta分布计算。Figure 2.
(beta分布解释参见:https://www.zhihu.com/question/30269898)
2. 政治极化程度(polarization)的计算: 用来估计该书籍共同购买书籍的政治倾向单一的程度。数值越大,单一倾向程度越高。Figure2.
3. 实用程度(applied index): 由美国专利数据库中所引用各类书籍的量用来度量该书籍实用程度。Figure 3.
4. 科学幅度(scientific breadth):衡量与政治书籍共同购买的科学书籍的范围。Figure 4.
五、总结和思考
我们之前基于亚马逊的购物,评论数做过也看过不少研究分析,而这篇简单而严谨的文章能够发在nature如此高质量的期刊上,着实需要好好学习。
总结几点:1,一个新颖的问题,将购物数据用在判别政治倾向的问题上,研究问题有趣。
2, 政治倾向判断,人工标注数据本身具有一定的难度和工作量。可以继续研究, 关于政治倾向的自动判别标注方法。
3, 文章可视化分析方式, 也是值得借鉴的。
4, 文章以政治倾向为研究点,来分析科学类书籍的偏好不同,没有深入到购买者的角度,此方向也可以进一步研究。
2017年Nature文章“Millions of online book co-purchases reveal partisan differences in the consumption of science”阅读笔记的更多相关文章
- 阅读文章《DDD 领域驱动设计-如何 DDD?》的阅读笔记
文章链接: https://www.cnblogs.com/xishuai/p/how-to-implement-ddd.html 文章作者: 田园里的蟋蟀 首先感谢作者写出这么好的文章. 以下是我的 ...
- Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
- 2017上半年技术文章集合【Android】—184篇文章分类汇总
地址: http://blog.csdn.net/androidstarjack/article/details/77923753 声明 | 本文是于亚豪 原创 终端研发部 前言: 2017年已经过大 ...
- 【CFD之道】2017年原创文章汇总
1 Fluent案例(21篇) [Fluent案例]01 空气流经障碍物 [Fluent案例]02:Tesla阀 [Fluent案例]03:RAE2822翼型外流场计算 [Fluent案例]04:多孔 ...
- 知乎Live总结-重复nature文章笔记Single-cell
来自知乎Live-孟浩巍 1.文章重要技术及图讲解 首先在转录组RNA-seq中,有基因表达差异.基因融合.可变剪切.RNA单点突变. 在基因组中,单点变异.结构变异,CNV变异(拷贝数变异) 三类基 ...
- 综述类文章(Peng 等)阅读笔记Cross-media analysis and reasoning: advances and directions
综述类文章 Cross-media analysis and reasoning: advances and directions Yu-xin PENG et al. Front Inform Te ...
- 2017年人工智能相关会议论文阅读笔记 (已添加ISSCC17,慢慢补充中)
ISSCC 2017 Session14 Deep Learning Processors: 关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据 ...
- 论文阅读笔记三十三:Feature Pyramid Networks for Object Detection(FPN CVPR 2017)
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的 ...
- 潭州课堂25班:Ph201805201 django 项目 第四十课 后台 文章发布,更新实现,热门新闻管理,轮播图管理(课堂笔记)
把图片上传到 七牛云,必须经过后台的许可, 在虚拟机中安装七牛云所需模块pip install qiniu # 创建utils/secrets/qiniu_secret_info.py文件 # 从七牛 ...
随机推荐
- 30 个 Java 集合面试问题及答案
30 个 Java 集合面试问题及答案 Java集合框架为Java编程语言的基础,也是Java面试中很重要的一个知识点.这里,我列出了一些关于Java集合的重要问题和答案. 1.Java集合框架是什么 ...
- 16. js 判断变量类型,包括ES6 新类型Symbol
相信大家在开发中遇到需要判断变量类型的问题,js变量按存储类型可分为值类型和引用类型,值类型包括Undefined.String.Number.Boolean,引用类型包括object.Array.F ...
- CentOS 7 系统区域和键盘设置
系统区域设置包括语言.键盘布局等,可以通过修改/etc/locale.conf配置文件或使用localectl实用程序来进行设置,一般在安装时设置为默认选择(英文.美式键盘)即可 修改配置文件 [ro ...
- liunx php-fpm
查看php-fpm 相关信息 查看php-fpm是否开启 :ps -ef|grep php 查看php-fpm的位置:whereis php-fpm 查看php-fpm进程数:ps aux | gre ...
- 自动生成缓存Key值的CacheKeyHelper
/// <summary> /// CacheKeyHelper /// </summary> public class CacheKeyHelper { /// <su ...
- 1136 A Delayed Palindrome (20 分)
Consider a positive integer N written in standard notation with k+1 digits ai as ak⋯a1a0 ...
- [转] Mysql命令基础
[From] http://c.biancheng.net/cpp/u/mysql_ml/ 连接Mysql数据库 mysql命令格式: mysql -h主机地址 -u用户名 -p用户密码 1) 连接到 ...
- [转] 利用CORS实现跨域请求
[From] http://newhtml.net/using-cors/ 跨域请求一直是网页编程中的一个难题,在过去,绝大多数人都倾向于使用JSONP来解决这一问题.不过现在,我们可以考虑一下W3C ...
- web安全漏洞种类
(参考知道创宇) SQL注入: SQL注入(SQL Injection),是一个常见的发生于应用程序和数据库之间的web安全漏洞,由于在开发过程中的设计不当导致程序中忽略了检查,没有有效的过滤用户的输 ...
- daterangepicker
官方文档 http://www.daterangepicker.com/#examples 与angular结合 html <div date-range-picker class=" ...