Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

日期：2020.01.27

博客期：135

星期一

　　【本博客的代码如若要使用，请在下方评论区留言，之后再用（就是跟我说一声）】

　　所有相关跳转：

　　a.【简单准备】（本期博客）

　　b.【云图制作+数据导入】

　　c.【拓扑数据】

　　d.【数据修复】

　　e.【解释修复+热词引用】

　　 f.【JSP演示+页面跳转】

　　g.【热词分类+目录生成】

　　h.【热词关系图+报告生成】

　　i . 【App制作】

　　j . 【安全性改造】

　　今天问了一下老师，信息领域热词从哪里爬，老师说是IT方面的新闻，嗯~有点儿意思了！

　　我找到了好多IT网站，但是大多数广告又多，名词也不专一针对信息领域，所以啊我就暂且用例一个相对还好的例子：

　　数据来源网址：https://news.51cto.com/（最终不一定使用此网站的爬取数据）

　　网站的相关热词来源截图：

　　如图，“智能”、“技术”、“区块链”为爬取目标

　　进行爬取（因为每一次执行js都会加重爬取任务的负担），当你执行到第100次的时候，你现在要执行第101次的JS，它所消耗的时间大概是27s！所以，这种方法我就爬100次，得到5607条数据：

　　爬取代码：

 import parsel

 from urllib import request

 import codecs

 from selenium import webdriver

 import time

 # [ 对字符串的特殊处理方法-集合 ]

 class StrSpecialDealer:

     @staticmethod

     def getReaction(stri):

         strs = str(stri).replace(" ","")

         strs = strs[strs.find('>')+1:strs.rfind('<')]

         strs = strs.replace("\t","")

         strs = strs.replace("\r","")

         strs = strs.replace("\n","")

         return  strs

 class StringWriter:

     filePath = ""

     def __init__(self,str):

         self.filePath = str

         pass

     def makeFileNull(self):

         f = codecs.open(self.filePath, "w+", 'utf-8')

         f.write("")

         f.close()

     def write(self,stri):

         f = codecs.open(self.filePath, "a+", 'utf-8')

         f.write(stri + "\n")

         f.close()

 # [ 连续网页爬取的对象 ]

 class WebConnector:

     profile = ""

     sw = ""

     # ---[定义构造方法]

     def __init__(self):

         self.profile = webdriver.Firefox()

         self.profile.get('https://news.51cto.com/')

         self.sw = StringWriter("../testFile/info.txt")

         self.sw.makeFileNull()

     # ---[定义释放方法]

     def __close__(self):

         self.profile.quit()

     # 获取 url 的内部 HTML 代码

     def getHTMLText(self):

         a = self.profile.page_source

         return a

     # 获取页面内的基本链接

     def getFirstChanel(self):

         index_html = self.getHTMLText()

         index_sel = parsel.Selector(index_html)

         links = index_sel.css('.tag').extract()

         num = links.__len__()

         print("Len="+str(num))

         for i in range(0,num):

             tpl = StrSpecialDealer.getReaction(links[i])

             self.sw.write(tpl)

     def getMore(self):

         self.profile.find_element_by_css_selector(".listsmore").click()

         time.sleep(1)

 def main():

     wc = WebConnector()

     for i in range(0,100):

         print(i)

         wc.getMore()

     wc.getFirstChanel()

     wc.__close__()

 main()

Director.py

　　之后再使用MapReduce进行次数统计，就可以了（还可以配合维基百科和百度百科获取（爬取）相关热词的其他信息）

　　然后是词频统计（因为测试用，数据量不大，就写了简单的Python词频统计程序）：

 import codecs

 class StringWriter:

     filePath = ""

     def __init__(self,str):

         self.filePath = str

         pass

     def makeFileNull(self):

         f = codecs.open(self.filePath, "w+", 'utf-8')

         f.write("")

         f.close()

     def write(self,stri):

         f = codecs.open(self.filePath, "a+", 'utf-8')

         f.write(stri + "\n")

         f.close()

 class Multi:

     filePath = ""

     def __init__(self, filepath):

         self.filePath = filepath

         pass

     def read(self):

         fw = open(self.filePath, mode='r', encoding='utf-8')

         tmp = fw.readlines()

         return tmp

 class Bean :

     name = ""

     num = 0

     def __init__(self,name,num):

         self.name = name

         self.num = num

     def __addOne__(self):

         self.num = self.num + 1

     def __toString__(self):

         return self.name+"\t"+str(self.num)

     def __isName__(self,str):

         if str==self.name:

             return True

         else:

             return False

 class BeanGroup:

     data = []

     def __init__(self):

         self.data = []

     def __exist__(self, str):

         num = self.data.__len__()

         for i in range(0, num):

             if self.data[i].__isName__(str):

                 return True

         return False

     def __addItem__(self,str):

         # 存在

         if self.__exist__(str):

             num = self.data.__len__()

             for i in range(0, num):

                 if self.data[i].__isName__(str):

                     self.data[i].__addOne__()

         # 不存在

         else :

             self.data.append(Bean(str,1))

     def __len__(self):

         return self.data.__len__()

 def takenum(ele):

     return ele.num

 def main():

     sw = StringWriter("../testFile/output.txt")

     sw.makeFileNull()

     bg = BeanGroup()

     m = Multi("../testFile/info.txt")

     lines = m.read()

     num = lines.__len__()

     for i in range(0,num):

         strs = str(lines[i]).replace("\n","").replace("\r","")

         bg.__addItem__(strs)

     bg.data.sort(key=takenum,reverse=True)

     nums = bg.__len__()

     for i in range(0,nums):

         sw.write(str(bg.data[i].__toString__()))

 main()

Multi.py

　　统计结果如下：

　　突然发现哈，找到的结果里存在Github和GitHub这两个完全相同的词语，我给当成区分的了！导入数据库的时候就出来问题了，哈哈哈！

　　整治以后代码：

 import codecs

 class StringWriter:

     filePath = ""

     def __init__(self,str):

         self.filePath = str

         pass

     def makeFileNull(self):

         f = codecs.open(self.filePath, "w+", 'utf-8')

         f.write("")

         f.close()

     def write(self,stri):

         f = codecs.open(self.filePath, "a+", 'utf-8')

         f.write(stri + "\n")

         f.close()

 class Multi:

     filePath = ""

     def __init__(self, filepath):

         self.filePath = filepath

         pass

     def read(self):

         fw = open(self.filePath, mode='r', encoding='utf-8')

         tmp = fw.readlines()

         return tmp

 class Bean :

     name = ""

     num = 0

     def __init__(self,name,num):

         self.name = name

         self.num = num

     def __addOne__(self):

         self.num = self.num + 1

     def __toString__(self):

         return self.name+"\t"+str(self.num)

     def __toSql__(self):

         return "Insert into data VALUES ('" + self.name + "'," + str(self.num) + ");"

     def __isName__(self,str):

         if compare(str,self.name):

             return True

         else:

             return False

 class BeanGroup:

     data = []

     def __init__(self):

         self.data = []

     def __exist__(self, str):

         num = self.data.__len__()

         for i in range(0, num):

             if self.data[i].__isName__(str):

                 return True

         return False

     def __addItem__(self,str):

         # 存在

         if self.__exist__(str):

             num = self.data.__len__()

             for i in range(0, num):

                 if self.data[i].__isName__(str):

                     self.data[i].__addOne__()

         # 不存在

         else :

             self.data.append(Bean(str,1))

     def __len__(self):

         return self.data.__len__()

 def takenum(ele):

     return ele.num

 def compare(str,dud):

     if str == dud :

         return True

     else:

         if str.lower() == dud.lower() :

             return True

         else:

             return False

 def main():

     sw = StringWriter("../testFile/output.txt")

     sw.makeFileNull()

     bg = BeanGroup()

     m = Multi("../testFile/info.txt")

     lines = m.read()

     num = lines.__len__()

     for i in range(0,num):

         strs = str(lines[i]).replace("\n","").replace("\r","")

         bg.__addItem__(strs)

     bg.data.sort(key=takenum,reverse=True)

     nums = bg.__len__()

     for i in range(0,nums):

         sw.write(str(bg.data[i].__toString__()))

 main()

Multi.py

　　这就没问题了!

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）的更多相关文章

Python 爬取热词并进行分类数据分析-[解释修复+热词引用]
日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[云图制作+数据导入]
日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[热词分类+目录生成]
日期:2020.02.04 博客期:143 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[ ...
Python 爬取热词并进行分类数据分析-[拓扑数据]
日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[App制作]
日期:2020.02.14 博客期:154 星期五 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[JSP演示+页面跳转]
日期:2020.02.03 博客期:142 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
Python 爬取热词并进行分类数据分析-[热词关系图+报告生成]
日期:2020.02.05 博客期:144 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
python爬取信息到数据库与mysql简单的表操作
python 爬取豆瓣top250并导入到mysql数据库中 import pymysql import requests import re url='https://movie.douban.co ...

随机推荐

git 本地回滚与远程库回滚
不说废话,开始: 一.本地回滚: git reset --hard commit-id //回滚到commit-id 二.远程回滚操作分3步:①将本地分支退回到某个commit ②删除远程分支 ...
python+tkinter制作一个可自定义的动态时钟及详细解释，珍藏版
1.效果图 2.完整代码 #第1步:导出模块 from tkinter import * import math,time #第2步:定义窗口的相关设置 root = Tk() root.title( ...
C#中的注释
帮助程序员便于阅读代码单行注释 // 多行注释 /* * */ 文档注释 /// <summary> /// ... /// <summary>
iframe内外的操作
因为iframe涉及到跨域问题,有时候有的比较多,这不今天遇到了一个问题,处在iframe里头的js要操作iframe元素,查找百度,是可以实现的: 用jQuery在IFRAME里取得父窗口的某个元素 ...
Jmeter BeanShell笔记
前言:beanshell是支持java语法的,因此当一些复杂的数据结构jmeter处理不了的时候,我们可以借助于java来实现 1,使用beanshell处理JDBC请求返回的值数据库结构当JDB ...
位运算（&、|、^、~、>>、<<）
1.位运算概述从现代计算机中所有的数据二进制的形式存储在设备中.即0.1两种状态,计算机对二进制数据进行的运算(+.-.*./)都是叫位运算,即将符号位共同参与运算的运算. 口说无凭,举一个简单的例 ...
BugReport-智慧农业APP
1.展示的界面显示不全 bug Description: 测试环境:win10.工具eclipse: 测试步骤:打开运行程序后模拟器启动,第一个界面显示过几秒跳到了另一个界面,问题是第一个界面显示不全 ...
Kakfa概述及安装过程
一.概述 1. Kafka是由LinkedIn(领英)开发的一个分布式的消息系统,最初是用作LinkedIn的活动流(Activity Stream)和运营数据处理的基础 a. 活动流数据包括页面访问 ...
Python中令人迷惑的4个引用
第一个:执行时机的差异 1. array = [1, 8, 15] g = (x for x in array if array.count(x) > 0) array = [2, 8, 22] ...
Python - 八大排序算法
1.序言本文使用Python实现了一些常用的排序方法.文章结构如下: 1.直接插入排序 2.希尔排序 3.冒泡排序 4.快速排序 5.简单选择排序 6.堆排序 7.归并排序 8.基数排序上述所有的 ...

Python 爬取 热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

Python 爬取 热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）的更多相关文章

随机推荐

热门专题

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）

Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）的更多相关文章