requests库/爬取zhihu表情包

　　先学了requests库的一些基本操作，简单的爬了一下。

　　用到了requests.get()方法，就是以GET方式请求网页，得到一个Response对象。不加headers的话可能会400error所以加上: page=requests.get(url='https://www.zhihu.com/question/46508954',headers=hd)

　　还用到了一些os模块的方法，os.mkdir(x)用于在x目录下创建一个文件夹，os.path.exists(path)用于检测当前路径是否存在。

　　还有就是regex了，由于很简单就不说了。

先用requests.get()进入知乎问题界面，然后观察html发现每个jpg都包含在一个<figure>语句内，然后搞个正则提取出所有图片的url，注意有jpg和gif两种区分下。然后对每个图片进行下载，当做二进制文件。一开始有若干图片会400加上headers就好了。

 import re

 import requests

 import os

 import random

 hd={

         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 98 Safari/537.36'

 }

 adr='C:/face'

 def dowload(i,url):

     global adr

     if url==None:

         return

     res=requests.get(url,headers=hd)

     if url.find('jpg')!=-1:

         with open(adr+'/zhihu'+str(i)+'.jpg','wb') as f:

             f.write(res.content)

     elif url.find('gif')!=-1:

         with open(adr+'/zhihu'+str(i)+'.gif','wb') as f:

             f.write(res.content)

     else:

         print('error',url)

 def gethtml():

     page=requests.get(url='https://www.zhihu.com/question/46508954',headers=hd)

     page.encoding='utf-8'

     pattern=re.compile(r'<figure>.*?(https.*?(?:jpg|gif)).*?</figure>')

     res=pattern.findall(page.text)

     global adr

     if os.path.exists(adr)==False:

         os.mkdir(adr)

     else:

         adr=adr+str(random.randint(1,1000))

     pre,tot=0,len(res)

     for i,url in enumerate(res):

         dowload(i,url)

         rate=int((i+1)/tot*100)

         if rate!=pre:

             pre=rate

             print(str(rate)+'%')

 gethtml()

 print('图片已保存在'+adr+'目录！')

requests库/爬取zhihu表情包的更多相关文章

用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
requests库爬取豆瓣热门国产电视剧数据并保存到本地
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
python requests库爬取网页小实例：ip地址查询
ip地址查询的全代码: 智力使用ip183网站进行ip地址归属地的查询,我们在查询的过程是通过构造url进行查询的,将要查询的ip地址以参数的形式添加在ip183url后面即可. #ip地址查询的全代 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
python学习(23)requests库爬取猫眼电影排行信息
本文介绍如何结合前面讲解的基本知识,采用requests,正则表达式,cookies结合起来,做一次实战,抓取猫眼电影排名信息. 用requests写一个基本的爬虫排行信息大致如下图网址链接为ht ...

随机推荐

JQ得到当前登录城市和天气
$(function () { findWeather(); }); function findWeather() { var cityUrl = 'http://int.dpool.sina.com ...
Excel坐标自动在AutoCad绘图_1
众所周知,Excel对数据处理的功能非常强大,它可以进行数据处理.统计分析已经辅助决策的操作,该软件已经渗透到各个领域.作为一个测绘人,GISer, 也经常利用excel完成一些测量表格的自动化计算, ...
hdu4780 最小费用最大流
提交题意: 给了M个机器,N个糖果要被生产,每个糖果有一个Si和Ti的时间,只能在Si或者在Si<=t<Ti的时间开始生产每个机器进行转化生产产品的时候都会产生一个代价,然后求最小的代 ...
内存泄漏(I)
Block 解决内存泄漏使用 weakSelf 进行解决 NSTimer 的内存泄漏与解决方案内存泄漏
python垃圾回收机制与小整数池
python垃圾回收机制当引用计数为0时,python会删除这个值. 引用计数 x = 10 y = x del x print(y) 10 引用计数+1,引用计数+1,引用计数-1,此时引用计数为 ...
【记录】VMware解决网络找不到服务器的问题
本想在虚拟机上的Linux上练习安装Mysql8.0版本的,网络连不上的问题卡了N天简直 1. 点击虚拟机右键设置,虚拟机默认设置为NAT模式,这里无需修改. 2. 点击编辑,虚拟网络设置,勾选主机连 ...
h5完美实现无刷新上传并附带上传效果
附带上传源码如下: <!DOCTYPE html> <html> <head> <title>测试上传功能</title> <meta ...
image management in kubernet
Image How can I edit an existing docker image metadata? docker-copyedit Registry Disk kubevirtis a g ...
algs4 使用 DrJava 编写 Hello World on Windows
前阶段读了 Yinwang 的博客, 对 Scheme and Lisp 产生了很大的兴趣, 用学生模式的 DrRacket IDE一步一步开始实现 How to Design Programs. ...
自动化运维 --- git
一. git 概括二.常用指令 git init 初始化 git status 查看git的状态 git add 将文件放到缓存区 git commit -m 将缓存区的内容提交到本地仓库 git ...

requests库/爬取zhihu表情包

requests库/爬取zhihu表情包的更多相关文章

随机推荐

热门专题