python 中文字数统计/分词

因为想把一段文字分词，所以，需要明确一定的词语关系。

在网上随便下载了一篇中文小说。随便的txt小说，就1mb多。要数数这1mb多的中文到底有多少字，多少分词，这些分词的词性是什么样的。

这里是思路

1）先把小说读到内存里面去。

2）再把小说根据正则表达法开始分词，获得小说中汉字总数

3）将内存中的小说每段POST到提供分词服务的API里面去，获取分词结果

4）按照API说明，取词

素材：

、linux/GNU => debian/ubuntu 12.04/Linuxmint  Preferred

、python

、中文分词API， 这里我们使用的是 http://www.vapsec.com/fenci/

、分词属性的说明文件下载 http://vdisk.weibo.com/s/qR7KSFDa9ON 或者 http://ishare.iask.sina.com.cn/f/68191875.html

这里已经写好了一个测试脚本。只是单个进程访问。还没有加入并发的测试。

在以后的测试中，我会加入并发的概念的。

下面是测试脚本 test.py

#!/usr/bin/env python

#coding: utf-8

import sys

import urllib

import urllib2

import os

import re

from datetime import datetime, timedelta

def url_post(word='My name is Jake Anderson', geshi="json"):

    url = "http://open.vapsec.com/segment/get_word"

    postDict = {

            "word":word,

            "format":geshi

    }

    postData = urllib.urlencode(postDict)

    request = urllib2.Request(url, postData)

    request.get_method = lambda : 'POST'

    #request.add_header('Authorization', basic)

    response = urllib2.urlopen(request)

    r = response.readlines()

    print r

if __name__ == "__main__":

    f = open('novel2.txt', 'r')

    # get Chinese characters quantity

    regex=re.compile(r"(?x) (?: [\w-]+ | [\x80-\xff]{3} )")

    count = 0

    for line in f:

        line = line.decode('gbk')

        line = line.encode('utf8')

        word = [w for w in regex.split(line)]

        count += len(word)

    #print count

    f = open('novel2.txt', 'r')

    start_time = datetime.now()

    for line in f:

        line = line.decode('gbk')

        line = line.encode('utf8')

        word2 = [w for w in regex.split(line)]

        print line

        url_post(line)

    end_time = datetime.now()

    tdelta = start_time - end_time

    print "It takes " + str(tdelta.total_seconds()) + " seconds to segment " + str(count) + " Chinese words!"

    print "This means it can segment " + str(count/tdelta.total_seconds()) + " Chinese characters per second!"

novel2.txt 是下载的小说。这个小说1.2MB大小。大约有580000字吧。

小说是GBK的格式，所以下载后，要转码成 utf-8的格式。

可以看到的终端效果大致是这样的。

把小说中所有的词，进行远程分词服务。

python 中文字数统计/分词的更多相关文章

Python中文词频统计
以下是关于小说的中文词频统计这里有三个文件,分别为novel.txt.punctuation.txt.meaningless.txt. 这三个是小说文本.特殊符号和无意义词 Python代码统计词频 ...
Python 中文文件统计词频 + 中文词云
1. 词频统计: import jieba txt = open("threekingdoms3.txt", "r", encoding='utf-8').re ...
PHP 中如何正确统计中文字数
PHP 中如何正确统计中文字数?这个是困扰我很久的问题,PHP 中有很多函数可以计算字符串的长度,比如下面的例子,分别使用了 strlen,mb_strlen,mb_strwidth 这个三个函数去测 ...
Python中文分词组件 jieba
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分 ...
jieba分词-强大的Python 中文分词库
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. 很多人学习pytho ...
jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...
Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
Python实现代码统计工具——终极加速篇
Python实现代码统计工具--终极加速篇声明本文对于先前系列文章中实现的C/Python代码统计工具(CPLineCounter),通过C扩展接口重写核心算法加以优化,并与网上常见的统计工具做对 ...

随机推荐

JVM相关知识（1）
1.JVM内存管理的机制内存空间划分为:Sun JDK在实现时遵照JVM规范,将内存空间划分为堆.JVM方法栈.方法区.本地方法栈.PC寄存器. 堆: 堆用于存储对象实例及数组值,可以认为Java中 ...
C#抓取AJAX页面的内容
原文 C#抓取AJAX页面的内容现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面 ...
js 正则之控制字符 \cX
原文:js 正则之控制字符 \cX 前些天在司徒正美的群里有人问了这么个问题:正则表达式里特殊字符 \cX 到底是什么?确实,我之前也挺在意的,但是一直没去看到底是什么.在MDN上只说是控制字符(详 ...
php 常用小知识点
PHP 邮箱正则表达式代码如下: /^([a-z0-9])(([-a-z0-9._])*([a-z0-9]))*\@([a-z0-9])*(\.([a-z0-9])([-a-z0-9_-])([a-z ...
经常使用Javascript CDN 对照
[前言] 请参阅某种网上文章: http://c7sky.com/javascript-libraries-cdn.html 本文加入的各个cdn对一些库的更新情况.以及响应时间. [更新] 发表文章 ...
SQL SERVER 2005中如何获取日期（一个月的最后一日、上个月第一天、最后一天、一年的第一日等等）
原文:[转]SQL SERVER 2005中如何获取日期(一个月的最后一日.上个月第一天.最后一天.一年的第一日等等) 在网上找到的一篇文章,相当不错哦O(∩_∩)O~ //C#本周第一天 ...
CSS学习笔记之元素分类
在讲解CSS布局之前,我们需要提前知道一些知识,在CSS中,html中的标签元素大体被分为三种不同的类型:块状元素.内联元素(又叫行内元素)和内联块状元素. 常用的块状元素有: <div> ...
图文解说PhpStorm 7.0版本支持PHP 5.5
PhpStorm7.0版本终于在2013年与广大开发者见面了!鉴于PhpStorm 7.0测试版中对PHP语言最新版的支持,JetBrains没让大家失望,PhpStorm 7.0正式版本中,最大的变 ...
Libgdx Box2D现实---这缓释微丸（两：Box2D介绍）
Box2D官方网站 : http://box2d.org/ Box2D v2.1.0用户手冊翻译 : http://blog.csdn.net/complex_ok/article/catego ...

python 中文字数统计/分词

python 中文字数统计/分词的更多相关文章

随机推荐

热门专题