一.分类问题 分类是为了给那些已经给定的输入选择正确的标签. 在基本的分类任务中,每个输入都被认为与其他的输入是隔离的.每个类别的标签集是预先定义好的(只有把类别划分好了,才能给输入划分类别). 分类任务举例: 判断电子是否是垃圾邮件 从一个固定的主题领域列表里,比如有‘体育’.‘技术’.‘政治’等,来判断新闻报道的主题 判断给定词‘bank’的意思是指河的坡岸.金融机构.还是金融机构里的存储行为 基本分类任务: 多样分类:每个实例可以分配多个标签 开放性分类:标签集没有事先定义 序列分类:输入…
一.选择正确的特征 1.建立分类器的工作中如何选择相关特征,并且为其编码来表示这些特征是首要问题. 2.特征提取,要避免过拟合或者欠拟合 过拟合,是提供的特征太多,使得算法高度依赖训练数据的特性,而对于一般化的新例子不起作用,在小型训练集上通常会出现这种问题. 欠拟合,是特征太少,算法不能很好地反映实例的特性 3.用错误分析的方法来完善特征集,首先选择开发集,其中包含用于创建模型的语料数据.然后开发集分为训练集和开发测试集. >>> train_names = names[1500:]…
一. NLTK的几个常用函数 1. Concordance 实例如下: >>> text1.concordance("monstrous") Displaying of matches: ong the former , one was of a most monstrous size . ... This came towards us , ON OF THE PSALMS . " Touching that monstrous bulk of the w…
一, 获取文本语料库 一个文本语料库是一大段文本.它通常包含多个单独的文本,但为了处理方便,我们把他们头尾连接起来当做一个文本对待. 1. 古腾堡语料库 nltk包含古腾堡项目(Project Gutenberg)电子文本档案的一小部分文本.要使用该语料库通常需要用Python解释器加载nltk包,然后尝试nltk.corpus.gutenberg.fileids().实例如下: >>> import nltk >>> nltk.corpus.gutenberg.fil…
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). 键值对(PaiRDD) 1.创建 #在Python中使用第一个单词作为键创建一个pairRDD,使用map()函数 pairs = lines.map(lambda x:(x.split(" ")[0],x)) 2.转化(Transformation) 转化操作很多,有reduceByK…
目录 语料库基本函数表 文本语料库分类 常见语料库及其用法 载入自定义语料库 词典资源 停用词语料库 WordNet面向语义的英语字典 语义相似度 语料库基本函数表 示例 描述 fileids() 语料库中的文件 fileids([categories]) 对应分类中的语料库文件 categories() 语料库的分类 categories([fileids]) 文件对应的语料库分类 raw(fileids=[f1,f2..],categories=[c1,c2...]) 对应文件和分类中原始内…
面向对象的编程: 类和对象是面向对象编程的两个主要方面.类创建一个新类型,而对象是这个类的实例.对象可以使用普通的属于对象的变量存储数据.属于一个对象或类的变量被称为域.对象也可以使用属于类的函数来具有功能.这样的函数被称为类的方法.这些术语帮助我们把它们与孤立的函数和变量区分开来.域和方法可以合称为类的属性. 域有两种类型--属于每个实例/类的对象或属于类的本身.分别是实例变量和类变量. self 类的方法与普通函数只有一个区别--它们必须有一个额外的第一个参数名称,但是调用这个方法的时候你不…
自己开始一个脚本开始学习: # coding = utf-8 from selenium import webdriver browser = webdriver.Firefox() browser.get("http://www.baidu.com") browser.find_element_by_id("kw").send_keys("selenium") browser.find_element_by_id("su")…
1. Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用.[Python Requests快速入门 :]http://cn.python-requests.org/zh_CN/latest/ 2. 没有经过测试的东西都是不完整的.[测试 Flask 应用]http://docs.jinkan.org/docs/flask/testing.html 3. Requests接口测试实例(1)导入需要的模块,并创建unittest.TestCase(这里默认安装好了R…
1.列表 ①列表的创建: ②列表的查询(索引): ③列表的切片操作: 此处要注意到:返回索引0到3的元素,顾头不顾尾. ④列表的增加: s.append()  #直接在结尾追加 s.insert()  #在指定列表索引值的位置,插入指定元素,例如: ⑤列表的删除: s.remove():删除从左找到的第一个指定元素 s.pop():删除最后一个元素,并返回最后一个元素的值 del s[]:用python全局的删除方法删除指定元素 注意:del s[1:6]是删除多个元素 ⑥列表的循环操作: ⑦列…