python爬虫调用搜索引擎及图片爬取实战

实战三—向搜索引擎提交搜索请求

关键点：利用搜索引擎提供的接口

百度的接口：wd=“要搜索的内容”
360的接口：q=“要搜索的内容”
所以我们只要把我们提交给服务器的url修改成对应的格式，就可以向搜索引擎提交关键字。
修改url，第一个想到的就是params参数。只须构造键值对，提交给params即可。
键值对前面的代表搜索引擎前面的接口标识，键值对后面的代表我们要搜索的内容。

>>> import requests

>>> kv = {'wd':'python'}

>>> r = requests.get("http://www.baidu.com/s",params=kv)

>>> r.status_code

200

用response对象中的request对象来查看我们提交给服务器的URL链接。

>>> r.request.url

'http://www.baidu.com/s?wd=python'

给出完整代码：

import requests

kv = {'wd':'python'}

url = "http://www.baidu.com/s"

try:

    r = requests.get(url,params = kv)

    print(r.request.url)

    r.raise_for_status()

    print(r.text[:2000])

except:

    print("爬取失败")

实战四—图片的爬取和存储

图片链接的格式，url+xxxx.jpg
给出图片的地址，爬取下来后存放到本机的某一个位置。

>>> import requests

>>> path = "/Users/hyliu/Desktop/picture.jpg"

>>> url = "https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=3acf58502f7f9e2f6438155a7e598241/7aec54e736d12f2e227c44d647c2d5628535680f.jpg"

>>> r = requests.get(url)

>>> r.status_code

200

现在r中已经包含了我们想要的图片，接下来要做的事情就是把图片变成文件存放到本机。
我们知道图片是一个二进制格式，用如下代码来实现：

>>> path = "/Users/hyliu/Desktop/picture.jpg"

>>> with open(path,'wb') as f:

	f.write(r.content)

53658

>>>

这段代码的含义就是，我们先打开一个文件picture.jpg，并定义为一个文件标识符f。然后我们将返回的内容写入到这个文件中。
r.content表示返回内容的二进制格式，所以我们将r.content写入到图片文件中。
最后我们将文件关闭。

>>> f.close()

>>>

现在我们去查看我们爬取的结果（是不是很帅！）

给出完成代码（用图片原本的名称来命名）：

import requests

import os

url = "https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=3acf58502f7f9e2f6438155a7e598241/7aec54e736d12f2e227c44d647c2d5628535680f.jpg"

root = "/Users/hyliu/Desktop/"

path = root + url.split('/')[-1] #获取URL最后一个“/”后的内容，实际上就是获取图片原本的名字

try:

    if not os.path.exists(root):    #目录不存在则创建

        os.mkdir(root)

    if not os.path.exists(path):    #判断是否存在重名文件

        r = requests.get(url)

        #print(r.status_code)

        r.raise_for_status()

        with open (path,'wb') as f:

            f.write(r.content)

            f.close()

            print("文件保存成功！")

    else:

        print("文件已存在")

except:

    print("爬取失败")

实战五—查询IP地址的归属地

借助IP138网站查询：

思路就是像百度和360那样，找到IP138网站的接口信息。

>>> import requests

>>> url = "http://m.ip138.com/ip.asp"

>>> kv = {'ip':'218.106.145.15'}

>>> r = requests.get(url,params = kv)

>>> r.status_code

200

>>> r.text[-500:]

'submit" value="查询" class="form-btn" />\r\n\t\t\t\t\t</form>\r\n\t\t\t\t</div>\r\n\t\t\t\t<div class="query-hd">ip138.com IP查询(搜索IP地址的地理位置)</div>\r\n\t\t\t\t<h1 class="query">您查询的IP：218.106.145.15</h1><p class="result">本站主数据：福建省福州市  联通</p><p class="result">参考数据一：福建省福州市 联通</p>\r\n\r\n\t\t\t</div>\r\n\t\t</div>\r\n\r\n\t\t<div class="footer">\r\n\t\t\t<a href="http://www.miitbeian.gov.cn/" rel="nofollow" target="_blank">沪ICP备10013467号-1</a>\r\n\t\t</div>\r\n\t</div>\r\n\r\n\t<script type="text/javascript" src="/script/common.js"></script></body>\r\n</html>\r\n'

>>>

给出完整代码：

import requests

kv = {'ip':'218.106.145.15'}

url = "http://m.ip138.com/ip.asp"

try:

    r = requests.get(url,params = kv)

    r.raise_for_status()

    print(r.text[-500:])

except:

    print("爬取失败")

URL is API

python爬虫调用搜索引擎及图片爬取实战的更多相关文章

Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
初识scrapy，美空网图片爬取实战
这俩天研究了下scrapy爬虫框架,遂准备写个爬虫练练手.平时做的较多的事情是浏览图片,对,没错,就是那种艺术照,我骄傲的认为,多看美照一定能提高审美,并且成为一个优雅的程序员.O(∩_∩ ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
Python爬虫教程：验证码的爬取和识别详解
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型. 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻 ...
Python爬虫开源项目代码，爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等代码整理
作者:SFLYQ 今天为大家整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快 1.WechatSogou [ ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...

随机推荐

虚拟机系统ubuntu12.04（内网环境下的虚拟主机）开启远程连接访问
一.工具准备: 1.内网虚拟机Ubuntu12.04系统主机一台,开放端口为:29999 2.远程连接软件:mobaxterm 二.开启步骤: 1.查看端口状态信息: netstat -antl | ...
PHP-----PHP程序设计基础教程----第一章PHP开篇
本章内容知识体系如下所示: 一.PHP基础知识 1.1 Web技术服务器与客户端服务器:能够提供某种服务的电脑客户端:想使用服务器所提供服务的电脑服务器也是一台电脑,必须安装操作系统.否则就是 ...
web前端 pdf 版电子好书籍
http://www1.w3cfuns.com/feres.php?do=picture&listtype=book
ElasticSearch优化系列七：优化建议
尽量运行在Sun/Oracle JDK1.7以上环境中,低版本的jdk容易出现莫名的bug,ES性能体现在在分布式计算中,一个节点是不足以测试出其性能,一个生产系统至少在三个节点以上. ES集群节点规 ...
详解 Python3 正则表达式（三）
上一篇:详解 Python3 正则表达式(二) 本文翻译自:https://docs.python.org/3.4/howto/regex.html 博主对此做了一些批注和修改 ^_^ 模块级别的函数 ...
Selenium_python自动化第一个测试案例（代码基本规范）
发生背景: 最近开始整理Selenium+python自动化测试项目中相关问题,偶然间翻起自己当时学习自动化时候写的脚本,发现我已经快认不出来写的什么鬼流水账了,所以今天特别整理下自动化开发Selen ...
C语言迭代部分的代码编写
C语言代码学习迭代部分迭代要用到函数部分的知识,一开始我写了计算n!的计算,代码和运行结果如下: 结果只能单一的计算出整数内的值,如果输入负值则结果为返回值1,显然是不对的,根据查书学习以后,知道 ...
Swift3.0字符串大小写转化
Swift3.0语言教程字符串大小写转化,在字符串中,字符串的格式是很重要的,例如首字母大写,全部大写以及全部小写等.当字符串中字符很多时,通过人为一个一个的转换是很费时的.在NSString中提供了 ...
day4 CSS属性操作
1.CSS属性基本属性 height, 高度百分比 width, 宽度像素,百分比 text-align:ceter, 水平方向居中 line-height, 垂直方向根据标签高度 color. ...
day7 RHCE
6.配置本地邮件服务在系统server0和desktop0上配置邮件服务,满足以下要求:这些系统不接收外部发送来的邮件这些系统上本地发送的任何邮件都会自动路由到 classroom.example. ...

python爬虫调用搜索引擎及图片爬取实战

实战三—向搜索引擎提交搜索请求

实战四—图片的爬取和存储

实战五—查询IP地址的归属地

python爬虫调用搜索引擎及图片爬取实战的更多相关文章

随机推荐

热门专题