爬虫系列之requests

爬取百度内容：

 import requests

 url = "https://www.baidu.com"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         r = requests.get(url, headers=kv)

         r.raise_for_status()  #返回状态值，如果不是200，则抛出异常

         r.encoding = r.apparent_encoding

         print(r.text)

         #print(r.request.headers)

     except:

         print("爬虫失败")

在URL中填上http://www.baidu.com/s?wd=keyword，keyword就是我们要百度搜索的内容，在requests中有params参数，可以把参数追加到URL中。

 import requests

 url = "http://www.baidu.com/s"

 keyword = "python"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         wd = {'wd': keyword}

         r = requests.get(url, headers=kv, params=wd)

         print(r.request.url)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         print(len(r.text))

     except:

         print("爬虫失败")

爬取图片

 import requests

 import os

 url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"

 kv = {'header': 'Mozilla/5.0'}

 root = "D://pic_save//"

 path = root + url.split('/')[-1]

 if __name__ == '__main__':

     try:

         if not os.path.exists(root):

             os.mkdir(root)

         if not os.path.exists(path):

             r = requests.get(url, headers=kv)

             print(r.status_code)

             with open (path, 'wb') as f:

                 f.write(r.content)

                 print("文件已保存成功")

         else:

             print("文件已存在")

     except:

         ("爬虫失败")

爬虫系列之requests的更多相关文章

爬虫系列(七) requests的基本使用
一.requests 简介 requests 是一个功能强大.简单易用的 HTTP 请求库,可以使用 pip install requests 命令进行安装下面我们将会介绍 requests 中常用 ...
爬虫系列(八) 用requests实现天气查询
这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 1.接口分析虽然现在网络上有很多免费的天气查询接口,但是有很多网站都是需要注册登陆的,过程比 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...
爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
爬虫系列(四) 用urllib实现英语翻译
这篇文章我们将以百度翻译为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 1.准备工作首先使用 Chrome 浏览器打开百度翻译,这里,我们选择 Chrome 浏览器 ...
爬虫系列(五) re的基本使用
1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹 ...

随机推荐

linux常用命令：more 命令
more命令,功能类似 cat ,cat命令是整个文件的内容从上到下显示在屏幕上. more会以一页一页的显示方便使用者逐页阅读,而最基本的指令就是按空白键(space)就往下一页显示,按 b 键就会 ...
【Alpha版本】冲刺阶段——Day2
[Alpha版本]冲刺阶段--Day2 阅读目录今日进展问题困难明日任务今日贡献量站立式会议 TODOlist [今日进展] 密码算法方面: 存储密码的步骤使用CSPRNG生成一个长度足够 ...
sublime text3 快捷键和好用的插件
常用快捷键: Ctrl + D 选中一个单词 Ctrl + L 选中一行 Ctrl + A 全选 Ctrl + M 选中括号内所有内容 (编写CSS或JS时非常实用) Ctrl + G 快速定位到某一 ...
计蒜客---N的-2进制表示
对于十进制整数N,试求其-2进制表示. 例如,因为 1*1 + 1*-2 + 1*4 + 0*-8 +1*16 + 1*-32 = -13 ,所以(-13)_10 = ( ...
String小案例(**)、包装类型和普通数据类型的转换（拆装箱）
###String用法: package StringTest; /**功能: * 判断Java文件名是否正确,判断邮箱格式是否正确 * 其中:合法的文件名应该以.java结尾 * 合法的邮箱名至少包 ...
Strom学习笔记2:Storm Maven Project-StromStack工程
1:IntelliJ新建Maven工程
P1297 [国家集训队]单选错位（期望）
P1297 [国家集训队]单选错位期望入门我们考虑涂到第$i$道题时的情况此时题$i$答案有$a[i]$种,我们可能涂$a[i+1]$种分类讨论: 1.$a[i]>=a[i+1]$: 可 ...
pycharm 安装激活操作
pycharm 安装激活操作什么是 PyCharm PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试.语法高亮.Project管 ...
13: openpyxl 读写 xlsx文件
1.1 openpyxl 基本使用 1.openpyxl 将xlsx读成json格式 #! /usr/bin/env python # -*- coding: utf-8 -*- # -*- codi ...
01：adminLTE2基本使用
1.1 adminLTE介绍 1.adminLTE 介绍 1.基于Bootstrap3高度可定制的响应式管理模板,免去前端架构师大量的js和css的编写 2.adminLTE除了可以使用bootstr ...

爬虫系列之requests

爬虫系列之requests的更多相关文章

随机推荐

热门专题