利用python爬虫爬取图片并且制作马赛克拼图

　　想在妹子生日送妹子一张用零食（或者食物类好看的图片）拼成的马赛克拼图，因此探索了一番= =。

　　首先需要一个软件来制作马赛克拼图，这里使用Foto-Mosaik-Edda（网上也有在线制作的网站，但是我觉得这个比较方便，而且也找到了一个汉化过的版本，地址为http://witmax.cn/foto-mosaik-edda.html）。要制作马赛克拼图，需要一个图片的数据库，至少需要几千张图片。因此需要爬虫来爬取。

　　从网上学习了一番后copy了一些代码然后从一个外国的图片网站爬取了4000余张关键字为food的图片，python代码如下：

 import requests

 import re

 import os

 import time

 def get_url(url):

     kw = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}

     try:

         r = requests.get(url, headers=kw)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         return r

     except:

         print('wrong!!!!!!!!!!!')

 def get_photourl(photo_url):

     kw = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}

     try:

         r = requests.get(photo_url, headers=kw)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         return r

     except:

         return 'wrong'

 def get_photos(url, new_fpath):

     result = get_url(url)

     # pattern = re.compile(r'src="https://images.pexels.com/photos/(\d+)/(.*?)\.(jpg|jpeg)\?auto=compress&amp;cs=tinysrgb&amp;h=350"', re.S)

     pattern = re.compile(

         'src="https://images.pexels.com/photos/(\d+)/(.*?)\?auto=compress&amp;cs=tinysrgb&amp;h=750&amp;w=1260"')

     # 真正的下载链接是static，不是images开头

     items = re.findall(pattern, result.text)

     print("log!");

     for item in items:

         print(item);

     for item in items:

         try:

             photo_url = 'https://static.pexels.com/photos/' + str(item[0]) + '/' + str(item[1]) + "?auto=compress&amp;cs=tinysrgb&amp;h=350";

             print("url: " + photo_url);

             # 把图片链接中的images，改成了static

             save(photo_url, item, new_fpath)

             time.sleep(1)

         except:

             continue

 def makedir(new_fpath, i, key):

     E = os.path.exists(new_fpath)

     if not E:

         os.makedirs(new_fpath)

         os.chdir(new_fpath)

         print('文件夹' + key + '_page' + str(i) + '创建成功！')

     else:

         print('文件夹已存在！')

 def save(photo_url, item, new_fpath):

     Final_fpath = new_fpath + '/' + str(item[0]) + str(item[1]);

     print("保存文件名: " + Final_fpath)

     print('正在下载图片......')

     result = get_photourl(photo_url)

     if result != 'wrong':

         print('下载成功！')

     else:

         print('失败')

     E = os.path.exists(Final_fpath)

     if not E:

         try:

             with open(Final_fpath, 'wb') as f:

                 f.write(result.content)

         except:

             print('下载失败！')

     else:

         print('图片已存在')

 def main():

     key = input('请输入搜索关键词(英文)：')

     url = 'https://www.pexels.com/search/' + key + '/'

     # num = int(input('请输入一共要下载的页数：'))  # 默认从第1页开始下载

     st = int(input('请输入起始页码：'))

     ed = int(input('请输入终止页码：'))

     fpath = 'C:/python/pic'

     for i in range(st, ed+1):

         new_fpath = fpath + '/' + key + '/' + key + '_page' + str(i)

         makedir(new_fpath, i, key)

         new_url = url + '?page=' + str(i)

         get_photos(new_url, new_fpath)

         time.sleep(3)

 main()

python爬虫代码

　　不得不说python真的很强大，爬虫真的很有意思，有一种在网页的源代码中分析然后处理做事的快乐~

利用python爬虫爬取图片并且制作马赛克拼图的更多相关文章

[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
如何利用python爬虫爬取爱奇艺VIP电影？
环境:windows python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成需要的python模块: ##第一 ...
Python 爬虫爬取图片入门
爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 用户看到的网页实质是由 HTML 代码构成的,爬 ...
Spider-Python实战之通过Python爬虫爬取图片制作Win7跑车主题
1. 前期准备 1.1 开发工具 Python 3.6 Pycharm Pro 2017.3.2 Text文本 1.2 Python库 requests re urllib 如果没有这些Python库 ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示首先还是完 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...

随机推荐

C#读写设置修改调整UVC摄像头画面-曝光
有时,我们需要在C#代码中对摄像头的曝光进行读和写,并立即生效.如何实现呢? 建立基于SharpCamera的项目首先,请根据之前的一篇博文点击这里中的说明,建立基于SharpCamera的摄像 ...
mybatis映射mapper文件做like模糊查询
方法:使用concat函数连接通配符
selenium中元素操作之上传操作（六）
上传操作分为两种情况: 1.input标签上传如果是input可以直接输入路径的,那么直接调用send_keys输入路径,和前边的元素操作类似,在这里不再过多的赘述. 2.非input标签上传非i ...
node-exporter常用指标含义，比如在prometheus中查询node_load1的指标数据
参考: https://blog.csdn.net/yjph83/article/details/84909319 https://www.gitbook.com/book/songjiayang/p ...
uniapp之w-picker使用采坑
1. uniapp之w-picker使用采坑 1.1. 前言由于我是先在index页面集合了这个组件,发现该文件内容实在太多了,不好维护,所以打算把内容一个个抽成组件,在抽w-picker时,遇到了 ...
医疗行业预测性产品的质量如何把关？MES系统帮大忙
作为行业细分的医疗设备制造正在向工业4.0快速发展.它也可能仍然是世界上受监管最严格的行业之一,产品的个性化发展速度比其他行业更快. 在医疗设备行业中,由于需求或由于市场特定的规定,产品越来越多地定制 ...
【MySQL】查看建表语句
命令如下: SHOW CREATE TABLE tbl_name 例子: mysql> show create table m_zhbess_vehicle_report\G ********* ...
GitPython模块
GitPython模块安装: pip3 install gitpython Gitpython 操作 import os from git.repo import Repo import json ...
【Git】.DS_Store 是什么文件
一.为啥会注意到该文件合并代码的时候,.DS_Store文件发生了冲突,然后进入到项目目录去看,果然存在该文件,就比较好奇该文件是干什么的. 二..DS_Store 是什么文件 .DS_Store( ...
Vim 简易配置
Macbook终端vim使用系统剪切板系统自带的, 可执行程序是 /usr/bin/vim, 安装目录是 /usr/share/vim/, 版本7.3. 我使用 homebrew 后顺手安装了一次 ...

利用python爬虫爬取图片并且制作马赛克拼图

利用python爬虫爬取图片并且制作马赛克拼图的更多相关文章

随机推荐

热门专题