python小白的爬虫之旅

1、爬www.haha56.net/main/youmo网站的内容

ieimport requests

import re

response=requests.get("http://www.haha56.net/main/youmo/")

response.encoding="gb2312"

data=response.text

#print(data)

content_res = re.findall('<dd class="preview">(.*?)</dd>', data)

title_res = re.findall('<a href=".*?" target="_blank">(.*?)</a>', data)

title_res=title_res[1:11]

content_res = content_res[1:11]

for i in range(len(content_res)):

        print(title_res[i])

        print(content_res[i])

2、爬https://www.doutula.com/photo/list/网站的图片

import requests

import re

response=requests.get('https://www.doutula.com/photo/list/')

data=response.text

img_res=re.findall('data-original="(.*?)"',data)

for i in img_res:

    img_respone=requests.get(i)

    img_data=img_respone.content

    img_name=i.split('/')[-1]

    f=open(img_name,'wb')

    f.write(img_data)

3、对www.haha56.net/main/youmo网站的内容进行词频分析

import jieba

f=open(r'E:\实习\编程\实习\day07\2.txt','r',encoding='gb2312')

data=f.read()

data_jieba=jieba.lcut(data)

dict={}

for word in data_jieba:

   if len(word)==1:

       continue

   if word in{"一二","货在","一家","猛吃","时说","没带","一顿"}:

       continue

   if word in dict:

       dict[word]+=1

   else:

       dict[word]=1

def func(i):

    return i[1]

data_list=list(dict.items())

data_list.sort(key=func)

for i in data_list[0:10]:

    print(f'{i[0]:^6}{i[1]^5}')

4、对www.haha56.net/main/youmo网站的内容进行词云制作

# coding=gbk

import wordcloud

from imageio import imread

mask=imread(r'E:\实习\编程\实习\day07\3.png')

f=open(r'E:\实习\编程\实习\day07\2.txt')

data=f.read()

w=wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simfang',mask=mask,width=700,height=700,background_color="black")

w.generate(data)

w.to_file('outfile.png')

python小白的爬虫之旅的更多相关文章

Python爬虫之旅（一）：小白也能懂的爬虫入门
Python爬虫之旅(一):小白也能懂的爬虫入门爬虫是什么爬虫就是按照一定的规则,去抓取网页中的信息.爬虫流程大致分为以下几步: 向目标网页发送请求获取请求的响应内容按照一定的规则解析返回 ...
python小白的初步爬虫
前序: 最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗.果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息...巴拉巴拉.好吧,去做吧. 我当时的内心是崩溃的,pyt ...
Python3.0版本从听说python可以做爬虫到自己第一成功做出爬虫的经历
前言我自己是个python小白,工作也不是软件行业,但是日常没事时喜欢捣鼓一些小玩意,自身有点C语言基础. 听说python很火,可以做出爬虫去爬一些数据图片视频之类的东东,我的兴趣一下子就来了.然 ...
第十四章 web前端开发小白学爬虫
老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构.html标签.js脚本.css样式.xml解析.cookies.http ...
《小白的CFD之旅》招募写手
<小白的CFD之旅>系列招募写手. 由于工作繁忙,<小白的CFD之旅>系列更新缓慢,现招募志愿者写手.这是一个分享平台,欢迎各位愿意分享自己CFD学习经历的朋友们. <小 ...
【小白的CFD之旅】13 敲门实例【续3】
接上文[小白的CFD之旅]12 敲门实例[续2] 4 Results4.1 计算监测图形4.2 Graphics4.2.1 壁面温度分布4.2.2 创建截面4.2.3 显示截面物理量4.2.4 Pat ...
【小白的CFD之旅】12 敲门实例【续2】
接上文[小白的CFD之旅]敲门实例[续] 主要内容 3 Solution3.1 Solution Methods3.2 Solution Controls3.3 Monitors3.4 Report ...
【小白的CFD之旅】11 敲门实例【续】
主要内容: 接上文[小白的CFD之旅]10 敲门实例 2.4 Materials设置2.5 Cell Zone Conditions2.6 Boundary Conditons2.7 Dynamic ...
【小白的CFD之旅】01 引子
小白的CFD之旅写在前面 CFD是计算流体力学的英文简称,是计算机辅助工程(CAE)的主要分支,目前广泛应用与科学研究.工程设计中.这是一门综合了数学.计算机及流体力学的综合学科,涉及到众多的专业理 ...

随机推荐

CodeForces 1144D
原题https://vjudge.net/problem/CodeForces-1144D /*求序列就经过几次step变成同一个数, 其实能发现一个数经过step1或者step2变成相邻的数, 所以 ...
解决前端js、css缓存问题
去js标签库查询jquery.i18n.properties.js这个js引用到页面上: 新建一个配置文件:用上面的那个js方法调取配置文件里的版本号给其他的js加上: 示例: <script ...
document.getElementById("id").value与$("#id").val()之间的区别
本文链接:https://blog.csdn.net/mottohlm/article/details/78364196....今天在项目中遇到这么一个JS报错:原因是代码中有这么一段:对,就是var ...
codeforces 1283E New Year Parties （贪心）
链接:https://codeforces.com/contest/1283/problem/E 题意: 有n个人住在一些房子里,有的人住在同一个房子里.每个人可以选择搬去他的房子左边那个房子或者右边 ...
题解 SP27102/UVA1747 【Swap Space】
SP27102 [Swap Space] 双倍经验:UVA1747 Swap Space 用(a,b)表示每个硬盘的原容量和新文件系统下的容量.分两种情况考虑:a≤b和a>b 第一类a≤b格式化 ...
NlogN复杂度寻找数组中两个数字和等于给定值
算法导论:22页2.3-7 描述一个运行时间为O(nlogn)的算法,找出n个元素的S数组中是否存在两个元素相加等于给定x值 AC解: a=[1,3,6,7,9,15,29] def find2sum ...
深度学习之numpy.poly1d()函数
1.np.poly1d()此函数有两个参数: 参数1:为一个数组,若没有参数2,则生成一个多项式,例如: p = np.poly1d([2,3,5,7]) print(p) ==>> ...
jenkins集成robot
一.jenkins集成robot的非gui的运行命令 pybot 配置文件用例地址或者robot 配置文件用例地址二.展示robot 运行结果图表 1.在系统配置中增加Rob ...
Centos7 FRPS
#下载Sever端 wget https://github.com/fatedier/frp/releases/download/v0.16.1/frp_0.16.1_linux_amd64.tar. ...
EAC3 mantissa quantization(VQ & GAQ)
EAC3基于hebap来决定mantissa的quantizer. hebap如下: mantissa 使用VQ(vector quantization) 和GAQ(gain adaptive qua ...

python小白的爬虫之旅

python小白的爬虫之旅的更多相关文章

随机推荐

热门专题