百度词汇检索，计算PMI值

'''词汇检索百度返回值,并且计算PMI值的类'''

from bs4 import BeautifulSoup

import requests

import re

import pandas as pd

import time

import numpy as np

class PMI():

    def __init__(self):

        self.url = 'https://www.baidu.com/s?wd='

        #self.vocab = vocab

    def getHtml(self, url):  # 只输入URL的主体部分，后面的参数用下面的字典附加上

        '''注意这里必须加一个user-Agent,不然request发送请求是是以Python名义发送的，百度知道是Python发的就不给你返回需要的内容，伪装一下'''

        try:

            header = {

                "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36",

            }

            r = requests.get(url, headers=header)

            r.raise_for_status()

            r.encoding = 'utf-8'

            return r.text

        except:

            print('爬取失败')

    def getNum(self, html):  # 返回搜索的数字

        soup = BeautifulSoup(html, 'html.parser')

        content = soup.find_all('span', {

            'class': 'nums_text'})  # 返回内容为   <span class="nums_text">百度为您找到相关结果约100,000,000个</span>

        num = re.findall(r'[\d+,*]+', content[0].string)[

            0]  # 返回我们需要的搜索次数，内容是字符串型的数字.形如'100,000,000'，数字内部包含逗号，下一步需要剔除掉逗号

        return int(re.sub(r',', '', num))  # 将逗号替换掉，并强制转换为整数

    def retrieveNum(self, vocab):  # url主体和爬取网页的数量

        url = self.url + vocab

        html = self.getHtml(url)

        num = self.getNum(html)

        return num

    def getPmi(self,vocab):

        n_p = 100000000

        n_f = self.retrieveNum(vocab)

        n_pf = self.retrieveNum(' '.join(['手机', vocab]))

        # print(' '.join(['手机',word]))

        # print(n_pf)

        pmi = np.log10(n_pf / (n_p * n_f))

        return pmi

    def getPmiList(self,words_list):#返回输入词列表的pmi值,以列表形式

        pmi_list=[]

        for i in words_list:

            pmi_list.append(self.getPmi(i))

        return pmi_list

if __name__ =='__main__':

    time_start = time.time()

    url = 'https://www.baidu.com/s?wd='

    #print(getHtml( url+'爸爸'))

    # file=pd.DataFrame(columns=name,data=comm)

    # file.to_csv('D:/machinelearning data/crawlerData/huaWei_P20_JD100-110.csv',index=False)

    # num = retrieveNum('办法')

    # print('搜索次数为:', num)

    d=PMI()

    a=['快递','傻子','总体','物流', '验机', '物流', '游戏']#['鸡楚', '留香王者', '系列', '性能', '电池', '电', '视频', '游戏','中华民族', '性价比', '王者', '卡', '天', '红米.', '老婆', '电池', '电', '王者', '时间', '游戏', '相机', '感触', '粉色', '妹妹']

    pmi=d.getPmiList(a)

    print('PMI:',list(pmi))

    time_end = time.time()

    print('耗时%s秒' % (time_end - time_start))

百度词汇检索，计算PMI值的更多相关文章

geotrellis使用（十七）使用缓冲区分析的方式解决单瓦片计算边缘值问题
Geotrellis系列文章链接地址http://www.cnblogs.com/shoufengwei/p/5619419.html 目录前言需求分析实现方案总结一.前言最 ...
百度地图API显示多个标注点并添加百度样式检索窗口
原作者博客地址:http://blog.csdn.net/a497785609/article/details/24009031 在此基础上进行了修改: 1.添加闭包,将i传入内部 2.添加地图和卫星 ...
treetable 前台累计计算树值提交后台
treetable 累计计算树值效果图 html 代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//E ...
ylbtech-Unitity-cs:计算阶乘值
ylbtech-Unitity-cs:计算阶乘值 1.A,效果图返回顶部 1.B,源代码返回顶部 1.B.1, using System; namespace Functions { public ...
C#计算时间差值
/// <summary> /// 计算时间差值 /// </summary> /// <param name="DateTime1">< ...
利用Python计算π的值，并显示进度条
利用Python计算π的值,并显示进度条第一步:下载tqdm 第二步;编写代码 from math import * from tqdm import tqdm from time import ...
excel计算时间差值
excel计算时间差值 2018/10/1 10:59:00 减去 2018/9/21 1:05:13 获取多少天. 如1.2天.这种. ==
使用不同的方法计算TF-IDF值
摘要这篇文章主要介绍了计算TF-IDF的不同方法实现,主要有三种方法: 用gensim库来计算tfidf值用sklearn库来计算tfidf值用python手动实现tfidf的计算总结之所以 ...
C#实现像Git那样计算Hash值
从Git Tip of the Week: Objects一文中得知,Git是这样计算提交内容的Hash值的: Hash算法用的是SHA1 计算前,会在内容前面添加"blob 内容长度\0& ...

随机推荐

hbase权限管理
给用户分配对每个表的操作权限,有RWXCA五种,对应READ, WRITE, EXEC, CREATE, ADMIN hbase(main):222:0> help "grant&qu ...
scala.XML处理
XML scala提供了对xml字面量的内建支持,我们可以很容易的在程序代码中生成xml片段, scala类库也包含了对xml常用处理的支持有时候scala会错误识别出xml字面量如x < ...
YII assets使用
为什么用YII assets 1.assets的作用是方便模块化,插件化的,一般来说出于安全原因不允许通过url访问protected下面的文件 ,但是我们又希望将module单独出来,所以需要使用发 ...
ABAP-关于COMMIT WORK 和COMMIT WORK AND WAIT
转载:https://blog.csdn.net/champaignwolf/article/details/6925019 首先说明一点:更新是异步的,更新是由SAP中UPD1和UPD2两个进程执行 ...
Shiro权限总结
参考学习地址 shiro 瞅完就会用(ssm+shiro) Spring Shiro配置实现用户认证和授权 anon:它对应的过滤器里面是空的,什么都没做,另外.do和.jsp后面的*表示参 ...
ArcGIS案例学习笔记1_1
ArcGIS案例学习笔记1_1 联系方式:谢老师,135_4855_4328, xiexiaokui#qq.com 时间:第一天上午准备 0.U盘复制ArcGIS培训*** 1.练习数据不要放到桌面 ...
JDA 8.0.0.0小版本升级
一.升级前关服务和进行备份二.开始升级三. 开以下四个服务 1237 四个服务开启后需重新执行SSIS中的startingFP(去掉backupdata 05 importFP) 当以下值为0,代 ...
Array Product(模拟)
Array Product http://codeforces.com/problemset/problem/1042/C You are given an array aa consisting o ...
The Doors(几何+最短路，好题)
The Doors http://poj.org/problem?id=1556 Time Limit: 1000MS Memory Limit: 10000K Total Submissions ...
SSH框架整合思想
--------------------siwuxie095 SSH 框架整合思想 1.SSH 框架,即 Struts2 ...

百度词汇检索，计算PMI值

百度词汇检索，计算PMI值的更多相关文章

随机推荐

热门专题