挑战:使用机器学习对 RSS 提要进行分类 最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统.目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领域当中.客户网站的内容.导航和搜索功能都将由这个每日自动提要检索和分类结果驱动. 客户建议使用机器学习,或许还会使用 Apache Mahout 和 Hadoop 来实现该任务,因为客户最近阅读了有关这些技术的文章.但是,客户的开发团队和我们的开发团队都更熟悉 Ruby,而不是 Java™ 技术.本文…
PEP 8——Python编码风格指南标签(空格分隔): Python PEP8 编码规范原文:https://lizhe2004.gitbooks.io/code-style-guideline-cn/content/python/python-pep8.html https://python.freelycode.com/contribution/detail/47------PEP8中文版 -- Python编码风格指南(上,中,下) https://python.freelycode.c…
小学生都能学会的python(编码 and 字符串) 一,编码 最早的计算机编码是ASCII. 有英文+数字+特殊字符 8bit => 1byte 没有中文, 后面的编码必须兼容ASCII          GBK 把中国的文字进行编码. 对ASCII扩充. 16bit  => 2byte 主要包含了中文, 日文, 韩文, 英文(兼容ASCII)          UNICODE 32bit 兼容各个国家的编码.万国码. 浪费空间  32bit => 4byte          UTF…
写在前面 本系列目的:一篇文章,不求鞭辟入里,但使得心应手. 迭代是数据处理的基石,在扫描内存无法装载的数据集时,我们需要一种惰性获取数据的能力(即一次获取一部分数据到内存).在Python中,具有这种能力的对象就是迭代器.生成器是迭代器的一种特殊表现形式. 个人认为生成器是Python中最有用的高级特性之一(甚至没有之一).虽然初级编码中使用寥寥,但随着学习深入,会发现生成器是协程,异步等高级知识的基石.Python最有野心的asyncio库,就是用协程砌造的. 注:生成器和协程本质相同.PE…
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128) 为了解决问题,我花时间去研究了一下 Python 的字符编码处理.网上也有不少文章讲 Python 的字符编码,但是我看过一遍,觉得自己…
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python字符串的编解码问题,这也是为什么在python中,只有字符串,才有decode和encode方法.在python中,字符串为str类型,其父类为basestring.unicode和ascii是str类型的两种常见编码,ascii是字符串的默认编码,如 str(12).ascii编码的字符串,7bi…
Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View--选中Toolbar工具条…
python编码规范 文件及目录规范 文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格 空格 设置用空格符替换TAB符. 代码缩进为4个空格符. 仅在运算符前后(如+,-,=,==)各加一个空格,不要在用于指定关键字参数或默认参数值的'='号周围使用空格,其他语句和表达式中都不要加空格. 分行 程序头部声明和import之间.import和程序之间用一个空行分隔. 类定义之间以及程序与if __name__ =="_…
认识常见编码 GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码 GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名 cp936:中文本地系统是Windows中的cmd,默认codepage是CP936,cp936就是指系统里第936号编码格式,即GB2312的编码. (当然有其它编码格式:cp950 繁体中文.cp932 日语.cp1250 中欧语言...) Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案.UTF…
http://blog.csdn.net/willhuo/article/details/49300441 决定开始Python之路了,利用业余时间,争取更深入学习Python.编程语言不是艺术,而是工作或者说是工具,所以整理并遵循一套编码规范是十分必要的.所以今天下午我根据PEP 8整理了一份,以后都照此编码了,还会持续更新. PEP8 Python 编码规范 一 代码编排1 缩进.4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格.2 每行最大长度79,换行可…