假期学习【十一】Python切词，以及从百度爬取词典

今天主要对从CSDN爬取的标题利用jieba（结巴）进行分词，但在分词过程中发现，如大数据被分成了大/数据，云计算被分隔成了云/计算。

后来又从百度百科---》信息领域爬取了相关词语作为词典，预计今天晚上完成切词任务。

其中分割代码如下：

 import jieba

 import io

 #对句子进行分词

 def cut():

     f=open("E://luntan.txt","r+",encoding="utf-8")

     for line in f:

         seg_list=jieba.cut(line)

         #print(' '.join(seg_list))

         for i in seg_list:

             print(i)

             write(i+" ")

         #write(' '.join(seg_list))

 #分词后写入

 def write(contents):

     f=open("E://luntan_cut.txt","a+",encoding="utf-8")

     f.write(contents)

     print("写入成功！")

     f.close()

 #创建停用词

 def stopwordslist(filepath):

     stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

     return stopwords

 # 对句子进行去除停用词

 def seg_sentence(sentence):

     sentence_seged = jieba.cut(sentence.strip())

     stopwords = stopwordslist('E://stop.txt')  # 这里加载停用词的路径

     outstr = ''

     for word in sentence_seged:

         if word not in stopwords:

             if word != '\t':

                 outstr += word

                 outstr += " "

     return outstr

 #循环去除

 def cut_all():

     inputs = open('E://luntan_cut.txt', 'r', encoding='utf-8')

     outputs = open('E//luntan_stop', 'w')

     for line in inputs:

         line_seg = seg_sentence(line)  # 这里的返回值是字符串

         outputs.write(line_seg + '\n')

     outputs.close()

     inputs.close()

 if __name__=="__main__":

     cut()

分割后的文本

从百度爬取词典要把百度页面地址：https://baike.baidu.com/wikitag/taglist?tagId=76607

该页拉到最下，并存为本地mhtml格式，在浏览器打开然后右击查看源代码，源代码保存为txt格式文件，

代码如下：

 import io

 import re

 patton=re.compile(r'title=".*"')

 def read():

     f=open("E://mhtml.txt","r+",encoding="utf-8")

     for line in f:

         line=line.rstrip("\n")

         m=patton.findall(line)

         #print(line)

         if len(m)!=0:

             print(m)

             write(str(m).lstrip("['title=\"").rstrip("\"']")+"\r")

 def write(contents):

     f=open("E://xinxi.txt","a+",encoding="utf-8")

     f.write(contents)

     print("写入成功！")

     f.close()

 if __name__=="__main__":

     read()

效果：

假期学习【十一】Python切词，以及从百度爬取词典的更多相关文章

【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫：通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...

随机推荐

普通版js运动框架
//获取样式 function getStyle(obj){ if(obj.currentStyle){ return obj.currentStyle[attr]; }else{ return ge ...
数组翻转（非reverse）
var arr = [1,2,3,4]; var arr2 = []; while(arr.length) { var num = arr.pop(); //删除数组最后一个元素并返回被删除的元素 a ...
string的基本操作
在C++中,string 可以来定义一个字符串,用之前得调用下相应的库 #include<string> . 可以不用初始化字符串容量大小,系统会根据后续的赋值自动安排其容量大 ...
Dijkstra算法2
// 再来一手精髓的Dijkstra // 复杂度O( E*log(V) ) #include <cstdio> #include <iostream> #include &l ...
有关鼠标在页面body获取点击事件的问题
首先说到这个问题我们先来谈谈body的高度问题,关于body高度的设置. 有些小伙伴可能就会说这个是多么的简单,直接进行如下操作不就可以了 body{ height:100%; } 这个设置虽然是想法 ...
如何修改Tomcat运行时jvm编码
问题: 最近在部署项目的时候出现数据乱码的情况,经过一番查看项目都是用的UTF-8编码格式,数据也是,但是经过调用接口传给对方就乱码了. 由于是部署在Windows环境下,Windows默认编码GBK ...
LeetCode 面试题22. 链表中倒数第k个节点
题目链接:https://leetcode-cn.com/problems/lian-biao-zhong-dao-shu-di-kge-jie-dian-lcof/ 输入一个链表,输出该链表中倒数第 ...
vue 3.0 项目搭建移动端 (六) 命名路由同级控制
const Tabbar = () => import('@/components/Tabbar'); export default [ { path: '/', name: 'home', c ...
论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild
Introduction 当前主要的非监督方法都采用相同的训练数据集,这些数据集在不同摄像头中是对称的,即不存在单个行人的错误项,这些方法将在实际场景中效果下降.在本方法中,作者引入了非对称数据,如下 ...
两行配置完全解放gradle编译慢问题
Android Studio编译经常出现gradle编译缓慢甚至超时问题,抛开电脑硬件配置不说,主要问题还是国内网络环境的因素影响,可以通过修改项目根目录下的build.gradle文件如下: bui ...

假期学习【十一】Python切词，以及从百度爬取词典

假期学习【十一】Python切词，以及从百度爬取词典的更多相关文章

随机推荐

热门专题