python爬取全站壁纸代码

#测试网址：https://www.ivsky.com/bizhi/

#需要安装的库：requests,bs4

#本人是个强迫症患者，为了美观添加数个print()，其并没有实际意义，若是不爽删去即可。

 

import requests,re,os

from bs4 import BeautifulSoup

from time import sleep

from random import uniform

 

#网址解析

def url_open(url):

    headers= {}

    headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"

    headers["Referer"] = "https://www.ivsky.com/bizhi/"

    html = requests.get(url,headers=headers).text

 

    return html

 

 

#获取全部主题图片链接

def get_url_all():

    print("正在收集整理壁纸主题网址，请稍候.....")

    print()

    theme_url_list = []

    theme_title_list = []

    data = []

    page_totle = 100 #壁纸主题共有100页

    #逐页收集主题URL

    for page in range(1,page_totle+1):

        url = "https://www.ivsky.com/bizhi/index_{}.html".format(page)

        html = url_open(url)

        soup = BeautifulSoup(html,"html.parser")

        url_all = soup.find_all("div",class_="il_img")

        for each in url_all:

            theme_title = each.a["title"]

            theme_title_list.append(theme_title)

            theme_url = "https://www.ivsky.com" + each.a["href"]

            theme_url_list.append(theme_url)

        #将数据打包 以便能够将两个数据一起返回

        data.append(theme_url_list)

        data.append(theme_title_list)

        break #减少调试运行时间使用 若要获取全部主题链接则删除此处即可

 

    theme_totle = len(data[0]) #计算主题数目

    print("壁纸网址收集结束，共收集%d个主题，准备进行图片下载....."%theme_totle)

    sleep(1)  #走个形式而已

 

    return data

 

 

def save_img(img_url_list,theme_name,work_path):

    #更改图片保存路径（分主题保存）

    save_path = work_path + r"\%s" % theme_name

    if os.path.exists(save_path) == True:

        os.chdir(save_path)

    else:

        os.mkdir(save_path)

        os.chdir(save_path)

 

    num = 0 #当前任务图片下载计数

    for img_url in img_url_list:

        num += 1

        print("正在下载主题“%s”第%d张图片" % (theme_name, num))

        headers = {}

        headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"

        content = requests.get(img_url, headers=headers).content

        with open("%d.jpg" % num, "wb") as f:

            f.write(content)

 

        sleep_time = uniform(0.18,0.37) #随机休眠 减少服务器压力 (真有诚意调大点即可)

        sleep(sleep_time)

 

 

def get_img(data):

    img_root_url = "https://img.ivsky.com/img/bizhi/pre/"

    num_1 = -1  # 标题索引 后面用于索引标题

    work_path = os.getcwd()

    num_2 = 0 #统计图片总张数

    for theme_url in data[0]:

        #print(theme_url)

        num_1 += 1

        theme_name_temp = data[1][num_1] #获取对应的主题名称

        img_url_list = [] #用于存储单个主题的图片下载链接

 

        #去掉（x张）字眼  (强迫症患者)

        p_theme_name = r'(.+)[(]\d+?张[)]'

        theme_name = re.findall(p_theme_name,theme_name_temp)[0]

 

        print()

        print("正在下载主题：%s"%theme_name)

        print()

 

        #每个页面16张图片 若主题图片数目大于16张图片则存在多个页面.....

        p_img_num = r'.+[(](\d+?)张[)]'

        img_num = int(re.findall(p_img_num,theme_name_temp)[0])

        if img_num / 16 > img_num // 16:

            page_totle = img_num // 16 + 1

        else:

            page_totle = img_num / 16

 

        #获取全部图片链接

        if page_totle == 1:

            html = url_open(theme_url)

            soup = BeautifulSoup(html,"html.parser")

            soup_img_url = soup.find_all("div",class_="il_img")

            for each in soup_img_url:

                temp = each.img["src"].split("/t/")[1]

                img_url = img_root_url + temp

                img_url_list.append(img_url)

                num_2 += 1

        else:

            for page in range(1,page_totle+1):

                url = theme_url + "index_{}.html".format(page)

                html = url_open(url)

                soup = BeautifulSoup(html,"html.parser")

                soup_img_url = soup.find_all("div",class_="il_img")

                for each in soup_img_url:

                    temp = each.img["src"].split("/t/")[1]

                    img_url = img_root_url + temp

                    img_url_list.append(img_url)

                    num_2 += 1

 

        save_img(img_url_list, theme_name,work_path) #图片下载保存

    print()

    print("任务完成，共计下载图片%d张"%num_2)

 

 

def main():

    path = r'C:\Users\Administrator\Desktop\test'

    if os.getcwd() != path:

        if os.path.exists(path) == False:

            os.mkdir(path)

            os.chdir(path)

        else:

            os.chdir(path)

 

    data = get_url_all()

    get_img(data)

 

if __name__ == "__main__":

    main()

python爬取全站壁纸代码的更多相关文章

Python爬取全站妹子图片，差点硬盘走火了！
在这严寒的冬日,为了点燃我们的热情,今天小编可是给大家带来了偷偷收藏了很久的好东西.大家要注意点哈,我第一次使用的时候,大意导致差点坏了大事哈! 1.所需库安装 2.网站分析首先打开妹子图的官网(m ...
Python 爬取必应壁纸
import re import os import requests from time import sleep headers = { "User-Agent": (&quo ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
如何用python爬虫从爬取一章小说到爬取全站小说
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...

随机推荐

[LeetCode] 112. Path Sum 二叉树的路径和
Given a binary tree and a sum, determine if the tree has a root-to-leaf path such that adding up all ...
在Chrome上运行安卓(ARC环境)
测试时所用Chrome版本为67 (Win10 64bit) 1,安装ARC Welder插件(100多M):https://chrome.google.com/webstore/detail/arc ...
Django+nginx+gunicore+supervisor+阿里云主机部署博客项目
1 准备阶段 1 新鲜的阿里云主机 2 购买一个喜欢的域名 3 创建python的虚拟环境 2 阿里云主机的选取咱们就是为了实验,我买了最便宜的阿里云主机 3 阿里云主机创建一个超级用户 3.1 默 ...
mysql，字符串类型id，获取最大值
说明,这个id是字符串类型,但是实际值是一个整数,获取最大值的方法是: select max(cast(id as SIGNED)) from table 另外,mysql生成伪列的方法: SELEC ...
HTTP之URL的组成部分
HTTP——URL的组成部分 #################文章全部摘自<HTTP权威指南>########################### 主要是为记录自己学习HTTP的过程! ...
useEffect传入第二个参数陷入死循环
最近新项目刚上手,就用了react的hooks,之前也看过hooks的不少文章,只是还没实战实战. 业务场景1:需要在页面一开始时得到一个接口的返回值,取调用另一个接口. 我的思路是,先设置这个接口的 ...
freemarker模板文件的4个组成部分
FreeMarker模板文件主要由以下4个部分组成:1.文本,直接输出的部分.2.注释,即<#–…–>格式不会输出.3.插值(Interpolation):即${..}或者#{..}格式的 ...
《 .NET并发编程实战》实战习题集 - 1 - 隔离副作用
先发表生成URL以印在书里面.等书籍正式出版销售后会公开内容.
[原创]SpringSecurity控制授权(鉴权)功能介绍
1.spring security 过滤器链 spring security中的除了用户登录校验相关的过滤器,最后还包含了鉴权功能的过滤器,还有匿名资源访问的过滤器链,相关的图解如下: 2.控制授 ...
SQLServer之服务器连接
目录 SQL Server Management Studio连接 CMD命令行窗口连接通用数据连接文件连接 SQL Server Management Studio连接定义 SQL Server ...

python爬取全站壁纸代码

python爬取全站壁纸代码的更多相关文章

随机推荐

热门专题