爬虫再探实战（五）———爬取APP数据——超级课程表【四】—

　　　　仔细看的话，会发现之前的词频分析并没有什么卵用。。。文本分析真正的大哥是NLP，不过，这个坑太大，小白不大敢跳。。。不过还是忍不住在坑边上往下瞅瞅2333.

言归正传，今天刚了解到boson公司有python关于自然语言处理的API，于是试着用了一下，官方文档很不错，简单明了。首先是pip install bosonnlp。下面是一些简单应用，其实就是改一点官方的例子Orz...密钥的话，我的不给看（因为有请求次数限制的。。。），自己在这里注册一下就有啦。

# -*- coding: utf-8 -*-

# 情感分析

from __future__ import print_function, unicode_literals

from bosonnlp import BosonNLP

nlp = BosonNLP('这里应该是你的密钥')

print(nlp.sentiment("楼主真是帅啊"))

print(nlp.sentiment("楼主真是太弱了"))

　　　　　输出如下：

　　　　两个列表对应着两句话，列表里面的两个数字，分别为正面指数，负面指数。额。。那个结果，，还算是挺合理的吧。

　　　　也可以换个姿势，再请求一遍这两段文本：

import json

import requests

SENTIMENT_URL = 'http://api.bosonnlp.com/sentiment/analysis'

# 注意：在测试时请更换为您的API Token

headers = {'X-Token': '这里应该是你的密钥'}

s = ['楼主真是帅啊', '楼主真是太弱了']

data = json.dumps(s)

resp = requests.post(SENTIMENT_URL, headers=headers, data=data.encode('utf-8'))

print(resp.text)

　　输出结果也是一样的：

　　　　还有很多有趣的用法，这个就留在以后有空的时候再深入研究啦。

　　　　这个，其实我还是想分析一下那些帖子的文本信息，用API做当然可以，不过那样虽然严谨，但是，没有直接利用boson提供的页面解析文本方便些。

于是，我就开始了，无耻的粘贴和复制。。。效果如下：

　　　　这个关键词提取还是可以的2333。。。其中精髓，自己联想吧！不过，也许是自己太与世隔绝orz。。。不明白dogo是什么，查了下，不解释啦，是它！

　　　　至此，和超级课程表的交集就算完结了。

爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析的更多相关文章

爬虫(十)：AJAX、爬取AJAX数据
1. AJAX 1.1 什么是AJAX AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML)可以使网页实现异步更新,就是不重新加载整个网页的 ...
爬虫再探实战（三）———爬取动态加载页面——selenium
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
Python自动化爬取App数据
基本环境配置版本:Python3 系统:Windows 需要安装: 1.JDK - Download JDK,Appium要求用户必须配置JAVA环境, 否则启动Seesion报错. 很多人学习py ...
爬虫再探实战（四）———爬取动态加载页面——请求json
还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...
分布式爬虫系统设计、实现与实战：爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
http://blog.51cto.com/xpleaf/2093952 1 概述在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
Python爬虫实战（一）使用urllib库爬取拉勾网数据
本笔记写于2020年2月4日.Python版本为3.7.4,编辑器是VS code 主要参考资料有: B站视频av44518113 Python官方文档 PS:如果笔记中有任何错误,欢迎在评论中指出, ...

随机推荐

Jquery 操作Html 控件 CheckBox、Radio、Select 控件【转】http://www.cnblogs.com/lxblog/archive/2013/01/09/2853056.html
Jquery 操作Html 控件 CheckBox.Radio.Select 控件在使用 Javascript 编写前台脚本的时候,经常会操作 Html 控件,比如 checkbox.radio ...
关于位域如何节省内存（C++）
位域: 最先使用在c语言中后来C++继承了这一优良的特点. 举个栗子: int --> 4字节 2^32位 ,如果我们只需要其表达一个0~16的数字, 使用一个int就显得稍稍 ...
IntelliSense: 应输入声明的解决方案
出现问题的原因暂时没搞清楚,只是找到了解决方案,方案如下: 工具-->选项-->文本编辑器-->C/C++-->高级-->禁用自动更新-->True
超实用的JavaScript代码段 Item8 -- js对象的(深)拷贝
js 对象浅拷贝和深拷贝 1.浅拷贝拷贝就是把父对像的属性,全部拷贝给子对象. 下面这个函数,就是在做拷贝: var Chinese = { nation:'中国' } var Doctor ...
20145236 《Java程序设计》第7周学习总结
20145236 <Java程序设计>第7周学习总结教材学习内容总结第十三章时间与日期认识时间与日期时间的度量格林威治标准时间GMT 格林威治标准时间的正午是太阳抵达天空最高点 ...
Css3动画缩放
Css3缩放动画 transform-scale() scale();值 0~1 0-隐藏 1-默认小于0缩放大于1放大例:transform:scale(0.98);
Cookie实例，理解cookie
一.一句话了解cookie是什么 cookie是服务端发送给客户端的.用来记录一些信息(如用户名),定制主页,聚焦广告的.最终以文件形式存在于客户端电脑磁盘下的小型文档. 二.用实例来认清cookie ...
Split的应用
public string qu(string ss) { string s1 = "" ; string[] s = ss.Split(); for (int i = 0; i ...
spring mvc表单自动装入实体对象
<form action="/springmvc1/user/add" method="post"> id: <input type=&quo ...
API 菜单函数
AppendMenu 在指定的菜单里添加一个菜单项 CheckMenuItem 复选或撤消复选指定的菜单条目 CheckMenuRadioItem 指定一个菜单条目被复选成"单选" ...

爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析

爬虫再探实战（五）———爬取APP数据——超级课程表【四】——情感分析的更多相关文章

随机推荐

热门专题