【Tech】POI标签分类

寒假老板给的任务，让我重现这个实验http://www.liuhaihua.cn/archives/15565.html。自己就随便试了下，用的都是比较经典(lao)的算法和知识，记录一下。

一、从网页上爬取POI数据

找了一圈，感觉这个网站比较靠谱：http://www.poi86.com，因为这里只需要POI标签，不需要其他类似地址啊什么的信息，所以这个网站足够用了。

爬网站使用的scrapy这个开源库，核心代码如下：

 import re

 import json

 from scrapy.spider import BaseSpider

 class spider(BaseSpider):

     name = "poi86"

     allowed_domains = ["poi86.com"]

     indexes = range(1,1000)

     start_urls = []

     for i in indexes:

         url = 'http://www.poi86.com/poi/category/43/%s.html' % i

         start_urls.append(url);

     def parse(self,response):

         filename = response.url.split("/")[-1]

         open(filename,'wb').write(response.body)

以上代码只做了“下载网页并保存”的工作，接下来的代码从每个网页中提取POI标签信息。

 import os

 d = '/Users/sunshineatnoon/Documents/POI/train/'

 article_number = [0,344,1143,1943,2572,3137]

 names = ['finace','hotel','resturant','transport','amusment']

 for i in range(1,len(article_number)):

     begin = article_number[i-1]+1

     all_shops = []

     for k in range(begin,article_number[i]+1):

         filename = str(k)+'.html';

         file_object = open(d+filename)

         all_text = file_object.read()

         all_text_split = all_text.split('<table class="table table-bordered table-hover">')

         names_split = all_text_split[1].split('title="">')

         for j in range(1,len(names_split)):

             shop_name_list = names_split[j].split('</a></td>')

             all_shops.append(shop_name_list[0])

     all_shops = list(set(all_shops))

     output = open('/Users/sunshineatnoon/Documents/POI/preprocess/'+names[i-1],'w')

     for item in all_shops:

         output.write(item+'\n')

     output.close()

最后的数据量大概是这样的：

类别	页面数量	POI标签数目
金融	344	9186
宾馆	799	37985
餐饮	800	37248
交通	629	22012
休闲娱乐	565	25737
总计	3137	132168

二、分词

下载到的POI标签信息，都是短文本，这里利用向量空间来表征这些短文本的特征。那么首先要进行分词，这里使用jieba分词，该工具有三种分词模式：精确模式，全模式，搜索引擎模式；这里使用的是精确模式。分词的核心代码如下：

 seg_list = jieba.cut(line,cut_all=False)

 word_list = " ".join(seg_list)

 word_list = word_list.split(" ")

分词完成后，选取词频大于等于5的词作为初步处理得到的字典。

三、根据信息增益选取特征词

将POI信息中单词的信息增益值作为衡量单词对分类作用的大小，挑选出信息增益top10%(约1000个单词)的单词作为POI信息的特征。其中单词的信息增益计算公式如下：

其中上式中第一项为训练数据集中原始信息熵，对于所有的单词是相同的，所以这里只计算上式中后两项之和，即根据t分类后数据的信息熵，然后根据从小到大的顺序选取1000个单词作为特征词。

熵值排名前20的单词如下所示：百货店，宾馆，停车场，支行，酒店，加油站，中国，银行，网吧，邮政储蓄，中国农业银行，KTV，所，会，分理处，网络，客运站，旅馆，财产保险，公寓；可以看出上述大部分单词都是以上五个类别（金融，交通，休闲娱乐，宾馆，餐饮）的典型代表词。

四、多项式朴素贝叶斯模型

上述特征词形成了一组“特征”，根据这组特征词，可以将一个POI信息表示为0-1向量，该向量作为POI信息的向量空间表示，输入到朴素贝叶斯模型进行分类。后续实验中利用weka中得朴素贝叶斯模型，所以这里将向量整理为weka输入格式，如下所示：

@RELATION POI

@ATTRIBUTE 1 NUMERIC

@ATTRIBUTE 2 NUMERIC

……

@ATTRIBUTE 1006 NUMERIC

@ATTRIBUTE class {1,2,3,4,5}

@DATA

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1

……

其中最后的1表示该样本属于第一类，即finance类.

这里借助weka分类工具，训练多项式朴素贝叶斯分类模型，并通过十折交叉验证得到模型准确率。结果如下：

模型准确率为88.6%。

参考资料：

【1】http://www.liuhaihua.cn/archives/15565.html

【2】http://www.cnblogs.com/wentingtu/archive/2012/03/24/2416235.html

【3】http://scrapy.org

【4】http://www.cs.waikato.ac.nz/~ml/weka/

【Tech】POI标签分类的更多相关文章

scikit-learn一般实例之八:多标签分类
本例模拟一个多标签文档分类问题.数据集基于下面的处理随机生成: 选取标签的数目:泊松(n~Poisson,n_labels) n次,选取类别C:多项式(c~Multinomial,theta) 选取文 ...
CSS.02 -- 样式表及标签分类（块、行、行内块元素）、CSS三大特性、背景属性
样式表书写位置内嵌式写法 <head> <style type="text/css"> 样式表写法 </style> </head&g ...
html(常用标签,标签分类)，页面模板， CSS(css的三种引入方式)，三种引入方式优先级
HTML 标记语言为非编程语言负责完成页面的结构组成: 标签:被<>包裹的由字母开头,可以结合合法字符( -|数字 ),能被浏览器解析的特殊符号,标签有头有尾指令:被<>包 ...
Python-HTML 最强标签分类
编程: 使用(展示)数据存储数据处理数据前端 1. 前端是做什么的? 2. 我们为什么要学前端? 3. 前端都有哪些内容? 1. HTML 2. CSS 3. JavaScript 4.jQue ...
前端 HTML 标签分类
三种: 1.块级标签: 独占一行,可设置宽度,高度.如果设置了宽度和高度,则就是当前的宽高.如果宽度和高度没有设置,宽度是父盒子的宽度,高度根据内容填充. 2.行内标签:在一行内显示,不能设置宽度,高 ...
htm基础知识，css的链入以及标签分类。
<!DocTYPE> DOC--Document 文档 TYPE 类型文档类型告诉浏览器这是什么文件单标签: meta 设置 charset 设置编码双标签: 开始 ...
如何用softmax和sigmoid来做多分类和多标签分类
首先,说下多类分类和多标签分类的区别多标签分类:一个样本可以属于多个类别(或标签),不同类之间是有关联的,比如一个文本被被划分成“人物”和“体育人物”两个标签.很显然这两个标签不是互斥的,而是有关联 ...
前端入门html（常用标签及标签分类）
day47 参考:https://www.cnblogs.com/liwenzhou/p/7988087.html 任何标签都有有三个属性:ID,class.style <!DOCTYPE ht ...
使用 scikit-learn 实现多类别及多标签分类算法
多标签分类格式对于多标签分类问题而言,一个样本可能同时属于多个类别.如一个新闻属于多个话题.这种情况下,因变量yy需要使用一个矩阵表达出来. 而多类别分类指的是y的可能取值大于2,但是y所属类别是唯 ...

随机推荐

LeetCode406. Queue Reconstruction by Height Add to List
Description Suppose you have a random list of people standing in a queue. Each person is described b ...
HTML5实现端访问时禁止放大和缩小网页
<title>html5禁止和移动.缩放网页</title><meta name="viewport" content="width=dev ...
优先队列——二项队列（binominal queue）
[0]README 0.1) 本文文字描述部分转自数据结构与算法分析, 旨在理解优先队列——二项队列(binominal queue) 的基础知识: 0.2) 本文核心的剖析思路均为原创(inse ...
001windows已遇到一个关键性问题一分钟后自动重启
重装了系统Window7,出现了如题的提示"windows已遇到一个关键性问题一分钟后自动重启" 查找原因: 通过事件管理器可以查看如上提示遇到的问题.一般是因为一些系统的服务没 ...
最新win7系统安全稳定版
最新win7系统32位安全稳定版 V2016年2月,具有更安全.更稳定.更人性化等特点.集成最常用的装机软件,集成最全面的硬件驱动,精心挑选的系统维护工具,加上萝卜独有人性化的设计.是电脑城.个人.公 ...
【OC学习-13】什么是组合，它和继承是什么关系？
继承有两缺点:(1)当层级越来越多时,假如每一个层级都有实例变量,那么最下层的子类继承的实例变量会超级多,沉重.(2)当消息传递自子类往上时.层级越多,效率越低下. 所以就有了组合.说实话区分继承和组 ...
Editor编辑器的一些用法
共有两个脚本,一个是有关Inspector面板的,一个是window的 using UnityEngine; using System.Collections; using UnityEditor; ...
【matlab】View视点函数
view(az,el) view(az,el);或view([az el]);均可.
Lucene索引文件组成
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
python发送邮件（yagmail模块）
import yagmail user = 'xxxx@qq.com' passwd = 'xxxx' # 授权码,不是密码,需要在邮箱中设置,看邮箱类型,有的需要设置 res = yagmail.S ...

【Tech】POI标签分类

【Tech】POI标签分类的更多相关文章

随机推荐

热门专题