Python 爬取陈都灵百度图片

标签（空格分隔）：随笔

今天意外发现了自己以前写的一篇爬虫脚本，爬取的是我的女神陈都灵，尝试运行了一下发现居然还能用。故把脚本贴出来分享一下。

import requests

import os

import json

#import random

#firsturl='https://image.baidu.com/search/acjson?'

#header={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

def get_chenduling(le):

    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

    url = 'https://image.baidu.com/search/acjson?'

    data={'tn':'resultjson_com',

    'ipn':'rj',

    'ct':'201326592',

    'is':'',

    'fp':'result',

    'queryWord':'陈都灵',

    'cl':'2',

    'lm':'-1',

    'ie':'utf-8',

    'oe':'utf-8',

    'adpicid':'',

    'st':'',

    'z':'',

    'ic':'',

    'word':'陈都灵',

    's':'',

    'se':'',

    'tab':'',

    'width':'',

    'height':'',

    'face':'',

    'istype':'',

    'qc':'',

    'nc':'',

    'fr':'',

    'cg':'star',

    'pn':'30',

    'rn':'30',

    'gsm':le,

    }

    response=requests.get(url,params=data,headers=header)

    #print(response.text[:3000])

    chen=json.loads(response.text)

   #

    if chen and 'data' in chen:

        for item in chen.get('data'):

            newurl=item.get('middleURL')

            #print(newurl)

            if newurl:

                dd=savechen(newurl,header)

                resave(newurl,dd)

    nextle=chen.get('gsm')

    #print(nextle)

    get_chenduling(nextle)

def savechen(item,header):

    try:

        dudu=requests.get(item,headers=header)

        dudu.raise_for_status()

        #fpath='{0}.{1}.{2}'.format('d:\chenduling\\',item.split('.')[-2],'jpg')

        return dudu.content

    except:

        print('有毛病。。。。')

def resave(item,html):

    fpath = '{0}.{1}'.format('d:\chenduling', item.split(',')[-1])

    if not os.path.exists(fpath):

        with open (fpath,'wb') as ff:

            print('downloading.....{0}'.format(item))

            ff.write(html)

def main():

    le='le'

    #firsturl = 'https://image.baidu.com/search/acjson?'

    #header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

    get_chenduling(le)

if __name__ =='__main__':

    main()

运行了一下，一点问题都没有，图片都存放到D盘了，拓展到其他图片估计也没问题，至于le这个参数干嘛的，我也记不清了。隐约记得有一个请求头部包含一串数字，但是这串数字并没有卵用。

Python 爬取陈都灵百度图片的更多相关文章

python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
Python爬取 | 唯美女生图片
这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...
【Python网络爬虫四】通过关键字爬取多张百度图片的图片
最近看了女神的新剧<逃避虽然可耻但有用>,同样男主也是一名程序员,所以很有共鸣被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣本文主要分为4个部分: 1.下载 ...
python爬取网页文本、图片
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址 ...
python: 爬取[博海拾贝]图片脚本
练手代码,聊作备忘: # encoding: utf-8 # from __future__ import unicode_literals import urllib import urllib2 ...
python 爬取全量百度POI
在网上找了很多关于爬取百度POI的文章,但是对“全量”的做法并没有得到最终的解决方案,自己写了一个,但还是不能实现全量POI抓取,能够达到至少50%的信息抓取.注意:这里所指“全量”是能够达到100% ...
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段 ...
python爬取并批量下载图片
import requests from lxml import etree url='http://desk.zol.com.cn/meinv/' add1='.html' urls=[] i = ...

随机推荐

S1_搭建分布式OpenStack集群_04 keystone认证服务安装配置
一.新建数据库及用户(控制节点)# mysql -uroot -p12345678MariaDB [(none)]> CREATE DATABASE keystone;MariaDB [(non ...
数组(定义、遍历、冒泡排序、合并和Join 方法)
一.数组的定义 1.理解:数组指一组数据,有序的数据,可以一次性存储多个数据,将多个元素(通常统一类型)按照一定的顺序排列放到一个集合里 2.通过构造函数创建数组: var 数组名=new Arrar ...
PHP生成随机数；订单号唯一
//8-12位随机数 function makeRand($num=){ $strand = (; if(strlen($strand)<$num){ $strand = str_pad($st ...
手把手带你部署K8s二进制集群
集群环境准备: [etcd集群证书生成] #mkdir -p k8s/{k8s-cert,etcd-cert}#cd k8s/etcd-cert/ #cat > ca-config.json & ...
[后渗透]Metasploit使用基础
0x00 简介 Metasploit是一个免费的.可下载的框架,通过它可以很容易地获取.开发并对计算机软件漏洞实施攻击.它本身附带数百个已知软件漏洞的专业级漏洞攻击工具.当H.D. Moore在200 ...
ueditor div style被过滤解决办法
上周开发中有用到开源的富文本编辑器UEditor,在使用的过程中遇到了样式被过滤无法显示问题,经过一番折腾终解决,此外,还有一些关于获取前台界面元素的一些总结. 1. UEditor样式被过滤无法显示 ...
RUN vs CMD vs ENTRYPOINT
参考:https://www.ibm.com/developerworks/community/blogs/132cfa78-44b0-4376-85d0-d3096cd30d3f/entry/RUN ...
Excel 相当名称，值相加
药品名称相同,数量汇总原始表格,同一个名称,存在不同的单位,所以合并处理成一列将列表复制一份出去,并删除A表重复数据求和公式=SUMIF(A2:A16,E2:E8,B2:B16) 最后再将药品名 ...
使用GridSearchCV进行网格搜索微调模型
import numpy as np import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer f ...
转：请问mysql如何确定一个库是主库还是从库。
select user,host from mysql.user;SELECT Repl_slave_priv,Repl_client_priv,super_priv,host FROM mysql. ...

Python 爬取陈都灵百度图片

Python 爬取陈都灵百度图片

Python 爬取陈都灵百度图片的更多相关文章

随机推荐

热门专题