喜欢去知乎炸鱼?用python吧

知乎高赞贴：

有一双大长腿是什么体验？

有一副迷人的身材是什么体验？

别用手机费劲的翻了，python帮你一臂之力

import re

import requests

import os

import urllib.request

import ssl

from urllib.parse import urlsplit

from os.path import basename

# 全局禁用证书验证

ssl._create_default_https_context = ssl._create_unverified_context

headers = {

    'User-Agent': "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",

    'Accept-Encoding': 'gzip, deflate'

}

def mkdir(path):

    if not os.path.exists(path):

        print('新建文件夹：', path)

        os.makedirs(path)

        return True

    else:

        print(u"图片存放于：", os.getcwd() + os.sep + path)

        return False

def download_pic2(img_lists, dir_name):

    print("一共有{num}张照片".format(num=len(img_lists)))

    # 标记下载进度

    index = 

    for image_url in img_lists:

        file_name = dir_name + os.sep + basename(urlsplit(image_url)[])

        # 已经下载的文件跳过

        if os.path.exists(file_name):

            print("文件{file_name}已存在。".format(file_name=file_name))

            index +=

            continue

        auto_download(image_url, file_name)

        print("下载{pic_name}完成！({index}/{sum})".format(pic_name=file_name, index=index, sum=len(img_lists)))

        index += 

def auto_download(url, file_name):

    # 递归下载，直到文件下载成功

    try:

        urllib.request.urlretrieve(url, file_name)

    except urllib.request.ContentTooShortError:

        print("文件下载不完整，重新下载。")

        auto_download(url, file_name)

    except urllib.request.URLError:

        print("网络连接出错，尝试重新下载。")

        auto_download(url, file_name)

def download_pic(img_lists, dir_name):

    print("一共有{num}张照片".format(num=len(img_lists)))

    for image_url in img_lists:

        response = requests.get(image_url, stream=True)

        if response.status_code == :

            image = response.content

        else:

            continue

        file_name = dir_name + os.sep + basename(urlsplit(image_url)[])

        try:

            with open(file_name, "wb") as picture:

                picture.write(image)

        except IOError:

            print("IO Error\n")

            continue

        finally:

            picture.close()

        print("下载{pic_name}完成！".format(pic_name=file_name))

def get_image_url(qid, headers):

    # 利用正则表达式把源代码中的图片地址过滤出来

    # reg = r'data-actualsrc="(.*?)">'

    tmp_url = "https://www.zhihu.com/node/QuestionAnswerListV2"

    size =

    image_urls = []

    session = requests.Session()

    while True:

        postdata = {'method': 'next',

                    'params': '{"url_token":' + str(qid) + ',"pagesize": "10",' + '"offset":' + str(size) + "}"}

        page = session.post(tmp_url, headers=headers, data=postdata)

        ret = eval(page.text)

        answers = ret['msg']

        print(u"答案数：%d" % (len(answers)))

        size += 

        if not answers:

            print("图片 URL 获取完毕, 页数: ", (size - ) / )

            return image_urls

        # reg = r'https://pic\d.zhimg.com/[a-fA-F0-9]{5,32}_\w+.jpg'

        imgreg = re.compile('data-original="(.*?)"', re.S)

        for answer in answers:

            tmp_list = []

            url_items = re.findall(imgreg, answer)

            for item in url_items:  # 这里去掉得到的图片 URL 中的转义字符'\\'

                image_url = item.replace("\\", "")

                tmp_list.append(image_url)

            # 清理掉头像和去重 获取 data-original 的内容

            tmp_list = list(set(tmp_list))  # 去重

            for item in tmp_list:

                if item.endswith('r.jpg'):

                    print(item)

                    image_urls.append(item)

        print('size: %d, num : %d' % (size, len(image_urls)))

if __name__ == '__main__':

    title = '拥有一副令人羡慕的好身材是怎样的体验？'

    question_id = 

    # title = '身材好是一种怎样的体验？'

    # question_id = 

    # title = '女孩子胸大是什么体验？'

    # question_id = 

    # title = '女生什么样的腿是美腿？'

    # question_id = 

    # title = '你的择偶标准是怎样的？'

    # question_id = 

    # title = '什么样才叫好看的腿？'

    # question_id = 

    # title = '身材对女生很重要吗？'

    # question_id = 

    # title = '女生腿长是什么样的体验？'

    # question_id = 

    # title = '女生腕线过裆是怎样一种体验？'

    # question_id = 

    # title = '有着一双大长腿是什么感觉？'

    # question_id = 

    # title = '拥有一双大长腿是怎样的体验？'

    # question_id = 

    # title = '大胸女生如何穿衣搭配？'

    # question_id = 

    # title = '胸大到底怎么穿衣服好看?'

    # question_id = 

    zhihu_url = "https://www.zhihu.com/question/{qid}".format(qid=question_id)

    path = str(question_id) + '_' + title

    mkdir(path)  # 创建本地文件夹

    img_list = get_image_url(question_id, headers)  # 获取图片的地址列表

    download_pic2(img_list, path)  # 保存图片

喜欢去知乎炸鱼?用python吧的更多相关文章

爬去知乎百万用户信息之UserTask
UserTask是获取用户信息的爬虫模块 public class UserManage { private string html; private string url_token; } 构造函数 ...
遇到自己喜欢的视频无法下载，python帮你解决
问题描述 python是一种非常好用的爬虫工具.对于大多数的爬虫小白来说,python是更加简洁,高效的代码.今天就用实际案例讲解如何爬取动态的网站视频. 环境配置:python3:爬虫库reques ...
如何让程序像人一样的去批量下载歌曲？Python爬取付费歌曲
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 今天来教大家一个自动化爬虫的工具 selenium selenium Se ...
我用python爬取了知乎Top沙雕问题排行榜
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 数据森麟 PS:如有需要Python学习资料的小伙伴可以加点击下方 ...
用Python做一个知乎沙雕问题总结
用Python做一个知乎沙雕问题总结松鼠爱吃饼干2020-04-01 13:40 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以 ...
为什么我不建议你通过 Python 去找工作？
二哥,你好,我是一名大专生,学校把 Python 做为主语言教给我们,但是我也去了解过,其实 Python 门槛挺高的,所以我在自学 Java,但是我现在并不清楚到底要不要全心的去学 Java,学校里 ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
知乎Python后端面试总结
一面写个快速排序热热身,分析一下复杂度,如果不使用额外的空间,应该怎么写? 说一下Flask中g是怎么实现的,原理是什么? 说一下浏览器从输入url到页面渲染的过程,越详细越好: 了解web安全吗? ...

随机推荐

Entity Framework Core 练习参考
项目地址:https://gitee.com/dhclly/IceDog.EFCore 项目介绍对 Microsoft EntityFramework Core 框架的练习测试参考文档教程官方文 ...
给 VS2017、VS2019 安装 ILSpy 插件
关于 ILSpy is the open-source .NET assembly browser and decompiler. ILSpy 主页地址:https://github.com/icsh ...
ubuntu 换源 aliyun
sudo sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list sudo sed -i 's/securit ...
PHP--常用配置项
一.简介 PHP的配置项可以在配置文件php.ini中配置,也可以在脚本中使用ini_set()函数临时配置. 二.常用配置项 1.错误信息相关配置 1)display_errors 设定PHP是否将 ...
css sprite responsive实现探究
在做web app前端设计时,为了减少http的请求,提高系统响应时间,有一个非常常见的优化措施是:将所有用到的静态的图片通过合并形成一个sprite.png,并且配合background-posit ...
怎么进入bios设置界面，电脑如何进入BIOS进行设置,怎么进入BIOS的方法集合
怎么进入bios设置界面,电脑如何进入BIOS进行设置,怎么进入BIOS的方法集合开机出现电脑商家图标时,按住F10键进入BIOS界面.进入BIOS界面一般都是开机后按<del,Esc,F1, ...
倒计时3天！i春秋四周年盛典狂欢，钜惠不停
六月注定是不平凡的感恩父亲节父爱如山亦如海难忘毕业季青春无悔不散场嗨购618 优惠福利送不停更值得期待的是在这个不平凡的六月迎来了i春秋四周年庆典当周年庆遇到618 会擦出怎样的火花 ...
记录几个 Android x86 系统的官网
首先是官网:https://www.android-x86.org/ 国内: 凤凰OS(Android 7.1):http://www.phoenixos.com/download_x86 技德Rem ...
Django框架（十八）—— drf：序列化组件（serializer）
序列化组件 # 模型层 from django.db import models class Book(models.Model): nid = models.AutoField(primary_ke ...
经典的卷积神经网络及其Pytorch代码实现
1.LeNet LeNet是指LeNet-5,它是第一个成功应用于数字识别的卷积神经网络.在MNIST数据集上,可以达到99.2%的准确率.LeNet-5模型总共有7层,包括两个卷积层,两个池化层,两 ...

喜欢去知乎炸鱼?用python吧

喜欢去知乎炸鱼?用python吧的更多相关文章

随机推荐

热门专题