requests库/爬取zhihu表情包

　　先学了requests库的一些基本操作，简单的爬了一下。

　　用到了requests.get()方法，就是以GET方式请求网页，得到一个Response对象。不加headers的话可能会400error所以加上: page=requests.get(url='https://www.zhihu.com/question/46508954',headers=hd)

　　还用到了一些os模块的方法，os.mkdir(x)用于在x目录下创建一个文件夹，os.path.exists(path)用于检测当前路径是否存在。

　　还有就是regex了，由于很简单就不说了。

先用requests.get()进入知乎问题界面，然后观察html发现每个jpg都包含在一个<figure>语句内，然后搞个正则提取出所有图片的url，注意有jpg和gif两种区分下。然后对每个图片进行下载，当做二进制文件。一开始有若干图片会400加上headers就好了。

 import re

 import requests

 import os

 import random

 hd={

         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 98 Safari/537.36'

 }

 adr='C:/face'

 def dowload(i,url):

     global adr

     if url==None:

         return

     res=requests.get(url,headers=hd)

     if url.find('jpg')!=-1:

         with open(adr+'/zhihu'+str(i)+'.jpg','wb') as f:

             f.write(res.content)

     elif url.find('gif')!=-1:

         with open(adr+'/zhihu'+str(i)+'.gif','wb') as f:

             f.write(res.content)

     else:

         print('error',url)

 def gethtml():

     page=requests.get(url='https://www.zhihu.com/question/46508954',headers=hd)

     page.encoding='utf-8'

     pattern=re.compile(r'<figure>.*?(https.*?(?:jpg|gif)).*?</figure>')

     res=pattern.findall(page.text)

     global adr

     if os.path.exists(adr)==False:

         os.mkdir(adr)

     else:

         adr=adr+str(random.randint(1,1000))

     pre,tot=0,len(res)

     for i,url in enumerate(res):

         dowload(i,url)

         rate=int((i+1)/tot*100)

         if rate!=pre:

             pre=rate

             print(str(rate)+'%')

 gethtml()

 print('图片已保存在'+adr+'目录！')

requests库/爬取zhihu表情包的更多相关文章

用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
requests库爬取豆瓣热门国产电视剧数据并保存到本地
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
python requests库爬取网页小实例：ip地址查询
ip地址查询的全代码: 智力使用ip183网站进行ip地址归属地的查询,我们在查询的过程是通过构造url进行查询的,将要查询的ip地址以参数的形式添加在ip183url后面即可. #ip地址查询的全代 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...

随机推荐

Nginx Install 记录
一.安装编译工具及库文件 yum -y install gcc yum -y install gcc-c++ yum -y install zlib; yum -y install pcre-deve ...
CentOS7编译安装SVN(subversion1.9.7)
参考连接0:http://www.programering.com/a/MDMzYDMwATg.html参考连接1:http://www.zsythink.net/archives/13180.系统信 ...
2018-2019-2 20165335『网络对抗技术』Exp5：MSF基础应用
主动攻击的实践: ms17_010(成功) 浏览器攻击的实践:ms14_064(成功) 客户端攻击的实践:adobe reader PDF的攻击(成功) 运用辅助模块的实践:VNC弱口令破解/绕过(失 ...
20175208 《Java程序设计》第六周学习总结
20175208 <Java程序设计>第六周学习总结一.教材知识点总结: 第七章 1.内部类: 成员内部类.静态嵌套类.方法内部类.匿名内部类 .(1).内部类仍然是一个独立的类,在编译 ...
从centos镜像创建maven仓库
创建镜像 1. 使用centos7作为基础镜像2. 将jdk1.8(官方要求1.8)和nexus3解压后的两个文件放进cp进去3. export环境变量后启动一下试一试4. docker commit ...
vue使用v-for时vscode报错 Elements in iteration expect to have 'v-bind:key' directives
vue使用v-for时vscode报错 Elements in iteration expect to have 'v-bind:key' directives Vue 2.2.0+的版本里,当在组件 ...
C#导出文本内容到word文档源码
将做工程过程中较好的代码片段珍藏起来,下面的代码内容是关于C#导出文本内容到word文档的代码,希望能对小伙伴们也有好处.<%@ Page Language="C#" Aut ...
SQL大数据查询优化
常写的SQL可能主要以实现查询出结果为主,但如果数据量一大,就会突出SQL查询语句优化的性能独特之处.一般的数据库设计都会建索引查询,这样较全盘扫描查询的确快了不少.下面总结下SQL查询语句的几个优化 ...
python-支付宝支付示例
项目演示: 1.输入金额 2.扫码支付: 3.支付完成: 4.跳转回商户一.注册账号 https://openhome.alipay.com/platform/appDaily.htm?tab= ...
win10电脑只有自带浏览器能上网
今天遇到了个奇葩问题,开机后登陆微信,怎么也登陆不上,用360检测,修复不了,找来大神一枚,打开我的Edge浏览器,各种网页浏览正常.......就告诉我就修好了.WTF!!! 现象:只有自带浏览器能 ...

requests库/爬取zhihu表情包

requests库/爬取zhihu表情包的更多相关文章

随机推荐

热门专题