YFCC 100M数据集分析笔记

——从YFCC 100M数据集中筛选出Geo信息位于中国的数据集

1.YFCC 100M简介

YFCC 100M数据库是2014年来基于雅虎Flickr的影像数据库。该库由1亿条产生于2004年至2014年间的多条媒体数据组成，其中包含了9920万的照片数据以及80万条视频数据。

YFCC 100M数据集并不包含照片或视频数据，而是一个文本数据文档，文档中每一行都是一条照片或视频的元数据。每一行包含23个项目，他们分别代表：

[0]     Photo/video identifier    照片/视频标识符

[1]     User NSID    用户NSID

[2]     User nickname    用户昵称

[3]     Date taken    拍摄日期

[4]     Date uploaded    上传日期

[5]     Capture device    使用设备

[6]     Title    标题

[7]     Description    描述

[8]     User tags (comma-separated)    用户标签（逗号分隔）

[9]     Machine tags (comma-separated)    机器标签（逗号分隔）

[10]    Longitude    经度

[11]    Latitude    纬度

[12]    Accuracy    准确性

[13]    Photo/video page URL    照片/视频页面URL

[14]    Photo/video download URL    照片/视频下载网址

[15]    License name    许可证名称

[16]    License URL    许可网址

[17]    Photo/video server identifier    照片/视频服务器标识符

[18]    Photo/video farm identifier    照片/视频农场标识符

[19]    Photo/video secret    照片/视频秘密

[20]    Photo/video secret original    照片/视频秘密原件

[21]    Extension of the original photo    扩展原始照片

[22]    Photos/video marker (0 = photo, 1 = video)    照片/视频标记（0 =照片，1 =视频）

其中，我使用到的有

[0]     Photo/video identifier	照片/视频标识符

[10]    Longitude	经度

[11]    Latitude	纬度

代码见 https://github.com/libaoquan95/flickrAnalyse

2.从数据集中挑选出具有Geo信息的数据集

Geo信息，就是地理位置信息，现在很多摄影设备都带有GPS模块，可以记录照片拍摄时的地理位置信息，即经度和纬度。但需要注意的是，并不是所有的元数据都带有Geo信息，所以要筛出不含Geo信息的元数据。

'''      readDataset.py      '''

# 从原始数据集中提取带有geo标签的数据

# @param fliename原始文件名

# @return none

def getGeoDataFromDataset(fliename):

    # 打开数据集

    inFile = open(fliename)

    outFile = open(fliename + '-geo', 'w')

    i = 0

    count = 0

    # 读取原数据集 infile

    for line in inFile:

        # 分割元数据

        meteData = line.strip().split('\t')

        # 此照片或视频带有geo信息

        if(meteData[10] != '' and meteData[11] != ''):

            outFile.write(line)

            count = count + 1

        if(i % 1000000 == 0):

            print ('处理了 %d 行, geo有 %d 行' % (i, count))

        i = i + 1

    print ('共 %d 行, geo共 %d 行' % (i, count))

    inFile.close()

    outFile.close()

3.筛选出Geo信息位于中国的数据集

可以根据经纬度获取坐标点的实际地址，再通过分析实际地址后判断此坐标点是否位于中国。

可以使用geopy包来进行经纬度到实际地址的转换。但geopy需联网使用，在处理大量数据时非常耗时。所以可以先根据中国的经纬度范围大致筛选，然后使用geopy进行精确筛选。

中国的经纬度范围是：

最东端东经135度2分30秒黑龙江和乌苏里江交汇处

最西端东经73度40分帕米尔高原乌兹别里山口（乌恰县）

最南端北纬3度52分南沙群岛曾母暗沙

最北端北纬53度33分漠河以北黑龙江主航道（漠河县）

'''      readDataset.py      '''

# 从带有geo标签的数据集中提取出geo大概在中国范围内的数据

# 最东端 东经135度2分30秒 黑龙江和乌苏里江交汇处

# 最西端 东经73度40分 帕米尔高原乌兹别里山口（乌恰县）

# 最南端 北纬3度52分 南沙群岛曾母暗沙

# 最北端 北纬53度33分 漠河以北黑龙江主航道（漠河)

# 转换后

# 经：   73.66667  -  135.04167

# 纬：   3.86667  -  53.55

# @param fliename原始文件名

# @return none

def getAbortChinaFromGeoData(fliename):

    # 打开数据集

    inFile = open(fliename)

    outFile = open(fliename + '-abortchina', 'w')

    i = 0

    count = 0

    # 读取原数据集 infile

    for line in inFile:

        # 分割元数据

        meteData = line.strip().split('\t')

        # 此geo信息位于中国

        if(float(meteData[10]) >= 73.66667 and float(meteData[10]) <= 135.04167 and \

           float(meteData[11]) >= 3.86667  and float(meteData[11]) <= 53.55):

            newLine = '\t'.join(meteData)

            outFile.write(newLine + '\n')

            count = count + 1

        if(i % 1000000 == 0):

            print ('处理了 %d 行, 中国geo有 %d 行' % (i, count))

        i = i + 1

    print ('共 %d 行, 中国geo共 %d 行' % (i, count))

    inFile.close()

    outFile.close()

之后使用geopy来获取精确地址。

geopy使用可以参考http://www.cnblogs.com/giserliu/p/4982187.html

基于python的地理编码库geopy 是用于地理编码的常用工具，使用它可获取多种地图服务的坐标。目前Python2和Python3下都支持。Python开发者可以使用geopy很容易的获取全球的某个街道地址，城市，国家和地块的地理坐标，它是通过第三方的地理编码器和数据源来解析的。

'''      readDataset.py      '''

# 从带有geo标签的数据集中提取出geo实际在中国范围内的数据

# 通过Geopy，有经纬度获取实际地址

# geopy的函数参数是纬度在前，经度在后

# @param fliename原始文件名，lonIndex经度下标，latIndex维度下标,操作次数n

# @return none

def getChinaFromDatasetByGeopy(filename, lonIndex, latIndex, n=10):

    # 打开数据集

    inFile = open(filename)

    datas = []

    isFinsih = []

    # 读取原数据集 infile

    for line in inFile:

        # 分割元数据

        meteData = line.strip().split('\t')

        datas.append(meteData)

        isFinsih.append(0)

    inFile.close()

    inFile = open(filename, 'w', encoding='utf-8')

    outFile = open(filename + '-china-address', 'a', encoding='utf-8')

    outFile2 = open(filename + '-china', 'a', encoding='utf-8')

    # 逐条获取数据的实际地址

    # 若地址位于中国，将信息写入新文件

    # 将未处理的数据重新写入到原文件

    geolocator = Nominatim()

    i = 0

    count = 0

    error_count = 0

    none_count = 0

    while i<n and i<len(datas):

        try:

            # 根据经纬坐标获取实际地址

            location = geolocator.reverse("" + datas[i][latIndex] +"," +  datas[i][lonIndex])

            if (location.address != None):

                addressArr = location.address.split(',')

                country = addressArr[len(addressArr)-1].strip()

                # 标记已处理

                isFinsih[i] = 1

                # 地址位于中国

                if(country in ["中国","臺灣"]):

                    outFile.write(datas[i][0] + '\t' +  country + '\t' + location.address + '\n')

                    outFile2.write('\t'.join(datas[i]) + '\n')

                    count += 1

            else:

                none_count += 1

                isFinsih[i] = 2

        except GeocoderTimedOut as e:

            #print('tiom out: ' + datas[i][0])

            error_count += 1

        i += 1

        sys.stdout.write('处理 %d 行, 中国 %d 行，请求超时 %d 行，none %d 行\r' % (i, count, error_count, none_count))

        sys.stdout.flush()

        #if(i % 10 == 0):

        #    print ('处理 %d 行, 中国 %d 行，请求超时 %d 行，none %d 行' % (i, count, error_count, none_count))

    print('')

    # 重新写入未处理数据

    length = len(isFinsih)

    for i in range(length):

        if(isFinsih[i] == 0):

            inFile.write('\t'.join(datas[i]) + '\n')

    for i in range(length):

        if(isFinsih[i] == 2):

            inFile.write('\t'.join(datas[i]) + '\n')

    inFile.close()

    outFile.close()

    outFile2.close()

4.数据可视化

使用geopy真的非常耗时，我大概使用了5天的空余时间才提取了一个压缩文件的数据（yfcc100m_dataset-0），共60015条。使用散点图将数据可视化：

'''      drawMap.py      '''

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

from mpl_toolkits.basemap import Basemap

from matplotlib.animation import FuncAnimation

from matplotlib.patches import Polygon

# 画出中国地图，并将数据集中的经纬点在图中标记

# @param filename:数据集，lonIndex:经度下标，latIndex:维度下标

def drawMap(filename,  lonIndex,  latIndex):

    inFile = open(filename)

    datas = []

    lon = []

    lat = []

    # 读取原数据集 infile

    for line in inFile:

        # 分割元数据

        meteData = line.strip().split('\t')

        datas.append(meteData)

        lon.append(float(meteData[lonIndex]))

        lat.append(float(meteData[latIndex]))

    fig = plt.gcf()

    map = Basemap(projection='stere',

                  lat_0=35,

                  lon_0=110,

                  llcrnrlon=82.33,

                  llcrnrlat=3.01,

                  urcrnrlon=138.16,

                  urcrnrlat=53.123,

                  resolution='l',

                  area_thresh=10000,

                  rsphere=6371200.)

    # CHN_adm1的数据是中国各省区域

    shp_info = map.readshapefile("CHN_adm_shp/CHN_adm1", 'states', drawbounds=True)

    #map.drawmapboundary()   # 绘制边界

    #map.fillcontinents()    # 填充大陆，发现填充之后无法显示散点图，应该是被覆盖了

    #map.drawstates()        # 绘制州

    #map.drawcoastlines()    # 绘制海岸线

    #map.drawcountries()     # 绘制国家

    #map.drawcounties()      # 绘制县

    fig.set_size_inches(30,  30)

    parallels = np.arange(0., 90, 10.)

    map.drawparallels(parallels, labels=[1, 0, 0, 0], fontsize=10) # 绘制纬线

    meridians = np.arange(80., 140., 10.)

    map.drawmeridians(meridians, labels=[0, 0, 0, 1], fontsize=10) # 绘制经线

    x, y = map(lon, lat)

    # map.scatter(x, y, edgecolors='r', facecolors='r', marker='*', s=320)

    map.scatter(x, y, s=10)

    plt.title("flick point in China")

    fig.savefig('yfcc100m_dataset-0/China.png',  dpi=100)

    #plt.show()

    inFile.close()

drawMap('yfcc100m_dataset-0/flick-0-geo-abortchina-china', 10, 11)

YFCC 100M数据集分析笔记的更多相关文章

Spark 实践——基于 Spark MLlib 和 YFCC 100M 数据集的景点推荐系统
1.前言上接 YFCC 100M数据集分析笔记和使用百度地图api可视化聚类结果, 在对 YFCC 100M 聚类出的景点信息的基础上,使用 Spark MLlib 提供的 ALS 算法构建推荐 ...
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇 ...
3.View绘制分析笔记之onLayout
上一篇文章我们了解了View的onMeasure,那么今天我们继续来学习Android View绘制三部曲的第二步,onLayout,布局. ViewRootImpl#performLayout pr ...
4.View绘制分析笔记之onDraw
上一篇文章我们了解了View的onLayout,那么今天我们来学习Android View绘制三部曲的最后一步,onDraw,绘制. ViewRootImpl#performDraw private ...
2.View绘制分析笔记之onMeasure
今天主要学习记录一下Android View绘制三部曲的第一步,onMeasure,测量. 起源在Activity中,所有的View都是DecorView的子View,然后DecorView又是被V ...
1.Android 视图及View绘制分析笔记之setContentView
自从1983年第一台图形用户界面的个人电脑问世以来,几乎所有的PC操作系统都支持可视化操作,Android也不例外.对于所有Android Developer来说,我们接触最多的控件就是View.通常 ...
zeromq源码分析笔记之线程间收发命令（2）
在zeromq源码分析笔记之架构说到了zmq的整体架构,可以看到线程间通信包括两类,一类是用于收发命令,告知对象该调用什么方法去做什么事情,命令的结构由command_t结构体确定:另一类是socke ...
R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
glusterfs 4.0.1 api 分析笔记1
一般来说,我们写个客户端程序大概的样子是这样的: /* glfs_example.c */ // gcc -o glfs_example glfs_example.c -L /usr/lib64/ - ...

随机推荐

小程序犯错（一）：“ReferenceError: 模拟服务器传来的数据 is not defined”
学习数据绑定,在onLoad中模拟服务器传数据时,报错:模拟服务器传来的数据 is not defined 我这里粗心的忘记注释说明了,如下: 把该行无关的错误数据注释或删除即可.这里提醒同学们,出现 ...
20155236范晨歌_MSF基础应用
20155236范晨歌_MSF基础应用 20155236范晨歌_MSF基础应用目录概述 MS08-067漏洞攻击 MS11-050漏洞攻击 MS10-087漏洞攻击辅助模块概述 MSF的六种模 ...
20145209刘一阳《JAVA程序设计》第六周课堂测试
第六周课堂测试 1.现有以下代码,哪些选项插入到第5行可以通过编译?(BDF) 1.import java.util.*; 2． 3.Class FindStuff { 4.public static ...
linux java jdk环境变量设置之后,依旧提示 No such file or directory
今天又默默的在linux下安装java 明明是很简单的事情,在~/.bashrc中添加如下内容: export JAVA_HOME=/home/ubuntu/jdkexport CLASSPATH=. ...
关于iptables命令
iptables 指令语法:iptables [-t table] command [match] [-j target/jump]-t 参数用来指定规则表,内建的规则表有三个,分别是:nat.man ...
POJ-2299 Ultra-QuickSort (树状数组)
题目链接:Ultra-QuickSort 题意: 给出了一个序列,序列中有n个数,现在每次操作能交换相邻的两个数,要求操作几次可以将这个序列转换为一个从小到大排序的序列. 题解: 我的解法是先把所有的 ...
洛咕P4542 [ZJOI2011]营救皮卡丘
套路题? 感觉讲不清,先写建图把每个点拆成两个,A和B, S->Ai流量=1费用=0,Bi->T流量=1费用=0, Ai->Bj流量=1费用=ij最短路还有一个特殊的s点,S-& ...
电子设备 Kindle如何删除书籍或漫画
需要在亚马逊的官方设置好国家: 再在这里就可以管理了要在kindle的上方小齿轮那里设置(飞行模式右边): 同步kindle 这样就能管理了
android prgoressBar setProgressDrawable 在4.0系统式正常，在2.3系统上不能正常使用的问题
上次在做一个电池电量的进度显示时,需要根据背景主题色来切换电池电量的进度的颜色, 但是在对prgoressBar的setProgressDrawable进行设置之后发现,在4.0系统上能够正常,而在2 ...
C#，清晨随手写
关于昨晚“猜拳”的博客大家一定要记得,C#的书写规范是很严格的很严格很严格很严格简单的说下面这样就没办法取值但是这样就可以取值插眼,开撸