Google图片和NASA 网站图片的爬虫

1.根据关键字爬取NASA网站上的图片

首先针对需要爬取的网站进行分析，输入关键字查找需要的内容

通过关键字请求，网页每次会加载20张的缩略图，分析网页源码能够很容易的找到缩略图的url:

然后再点开缩略图，会链接的另一个网页，从这里可以分析出更高分辨率大图的url：

最后根据取得的url地址下载原图就可以了，下面附上源代码



# -*- coding: utf-8 -*-

import urllib

import requests

from bs4 import BeautifulSoup

import re

import json

def getUrl(keyword):

    user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:53.0) Gecko/20100101 Firefox/53.0'

    results = requests.get("https://nasasearch.nasa.gov/search/images",

                           params={'affiliate': 'nasa', 'query': keyword},

                           headers={'User-Agent': user_agent})

    results.encoding = 'utf-8'

    s = requests.session()

    s.keep_alive = False

    soup = BeautifulSoup(results.text, 'lxml')

    # 获取网页中的所有div ,class=url的文本

    for link in soup.find_all('div', class_='url'):

        # 拼接url

        html = requests.get('https://'+link.text)

        soup1 = BeautifulSoup(html.text, 'lxml')

        # 获取字段

        data = soup1.find('script', attrs={"type": "application/ld+json"})

        # json字符串转换为字典

        jsonobj = json.loads(data.text)

        # 从json块中获取图片地址

        imageUrl = jsonobj['@graph'][0]['image']['url']

        namelist = imageUrl.split('/')

        # 获取图片名称

        name = namelist[-1].split('.')[0]

        downloadImage(imageUrl, name)

def downloadImage(imageUrl, name):

    path = 'D:/space/'

    print(name)

    if imageUrl is not None:

        try:

            image_file = requests.get(imageUrl, stream=True, timeout=9)

        except requests.exceptions.RequestException:

            print('网络异常')

        # else:

            # if image_file.status_code is not requests.codes.ok:

            #print('{}'.format(imageUrl) + '链接为空！')

        else:

            image_file_path = '{}{}.jpg'.format(path, name)

            print('正在下载:' + '{}.jpg'.format(name))

            with open(image_file_path, 'wb') as f:

                f.write(image_file.content)

            print('下载完成！')

if __name__ == "__main__":

    keyword = input()

    getUrl(keyword)

2.爬取谷歌图片

这里主要使用了一个开源代码，爬虫作者github地址：https://github.com/YoongiKim/AutoCrawler

爬虫的效果还是很不错的，具体的使用作者在主页也详细的说明了

Google图片和NASA 网站图片的爬虫的更多相关文章

C#获取网页的HTML码、下载网站图片、获取IP地址
1.根据URL请求获取页面HTML代码 /// <summary> /// 获取网页的HTML码 /// </summary> /// <param name=" ...
C#获取网页的HTML码、下载网站图片
1.根据URL请求获取页面HTML代码 /// <summary> /// 获取网页的HTML码 /// </summary> /// <param name=" ...
Python爬虫下载美女图片（不同网站不同方法）
声明:以下代码,Python版本3.6完美运行一.思路介绍不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从 ...
webmagic 二次开发爬虫爬取网站图片
webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. webmagic介绍编写一个简单的爬虫 webmagic的使用文档:http://w ...
Python爬虫实战：批量下载网站图片
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: GitPython PS:如有需要Python学习资料的小伙伴可以 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
如何:使用PicturBox实现类似淘宝网站图片的局部放大功能
转载至http://xuzhihong1987.blog.163.com/blog/static/267315872011822113131823/ 概要: 本文将讲述如何使用PictureBox控件 ...
Web 性能优化：图片优化让网站大小减少 62%
摘要: 压缩各种格式的图片. 原文:Web 性能优化: 图片优化让网站大小减少 62% 作者:前端小智 Fundebug经授权转载,版权归原作者所有. 这是 Web 性能优化的第二篇,上一篇在下面看点 ...
批量下载网站图片的Python实用小工具
定位本文适合于熟悉Python编程且对互联网高清图片饶有兴趣的筒鞋.读完本文后,将学会如何使用Python库批量并发地抓取网页和下载图片资源.只要懂得如何安装Python库以及运行Python程序, ...

随机推荐

hihoCoder 1174 : 拓扑排序·一
题目链接:http://hihocoder.com/problemset/problem/1174 题目是中文题面我就不说题意了,要看题面的请点击上方链接~ 代码实现如下: #include < ...
python初步学习-python函数（一）
python 函数函数是组织好的,可重复使用的,用来实现单一或者相关联功能的代码段. 函数能提高应用的模块性和代码的重复利用率. 函数定义 python中函数定义有一些简单的规则: 函数代码块以de ...
H5小游戏——看你有多色
使用了封装了canvas的create.js库来实现的. 最终效果: 工程: Rect.js /* * 方块类 */ function Rect(n,color,specialColor){ crea ...
游戏的物理和数学：Unity中的弹道和移动目标提前量计算
下载地址:https://www.jianguoyun.com/p/DZPN6ocQ2siRBhihnx8 弹道计算是游戏里常见的问题,其中关于击中移动目标的自动计算提前量的话题,看似简单,其实还是挺 ...
python 第二章对象与类型
可变对象和不可变对象 1,可变对象,list(列表),dict(字典),集合(set),字节数组. 2,不可变对象,数值类型,字符串,字节串,元组(具体形式 ()). 注意条件:可变和不可变指的是该对 ...
CTF线下赛AWD套路小结
近打了2场CTF线下赛,把AWD模式中的一些小套路做一些总结,本人web狗,二进制部分就不班门弄斧了. 一. AWD模式简介 AWD:Attack With Defence,比赛中每个队伍维护多台服务 ...
docker之构建redis-cluster集群
下载和编译redis安装包参考:https://www.cnblogs.com/cwp-bg/p/8094914.html # 从官方网站下载安装包,注意,当前在哪个目录下执行命令,下载的包将在哪个 ...
Linux进程的创建函数fork()及其fork内核实现解析【转】
转自:http://www.cnblogs.com/zengyiwen/p/5755193.html 进程的创建之fork() Linux系统下,进程可以调用fork函数来创建新的进程.调用进程为父进 ...
141.Linked List Cycle---双指针
题目链接题目大意:给出一个链表,判断该链表是否有环,空间复杂度最好控制在o(1) 这个题没有给测试用例,导致没太明白题目意思,看了题解,用了两种方法示例如下: 法一(借鉴):利用两个指针,一个指针步 ...
集合遍历过程iterator，添加删除元素报异常
list set 遍历过程中添加或者删除元素,报异常. 使用iterator 也会报异常 ConcurrentModificationException remove只能用迭代器的remove,而 ...

Google图片和NASA 网站图片的爬虫

1.根据关键字爬取NASA网站上的图片

2.爬取谷歌图片

Google图片和NASA 网站图片的爬虫的更多相关文章

随机推荐

热门专题