爬虫系列之requests

爬取百度内容：

 import requests

 url = "https://www.baidu.com"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         r = requests.get(url, headers=kv)

         r.raise_for_status()  #返回状态值，如果不是200，则抛出异常

         r.encoding = r.apparent_encoding

         print(r.text)

         #print(r.request.headers)

     except:

         print("爬虫失败")

在URL中填上http://www.baidu.com/s?wd=keyword，keyword就是我们要百度搜索的内容，在requests中有params参数，可以把参数追加到URL中。

 import requests

 url = "http://www.baidu.com/s"

 keyword = "python"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         wd = {'wd': keyword}

         r = requests.get(url, headers=kv, params=wd)

         print(r.request.url)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         print(len(r.text))

     except:

         print("爬虫失败")

爬取图片

 import requests

 import os

 url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"

 kv = {'header': 'Mozilla/5.0'}

 root = "D://pic_save//"

 path = root + url.split('/')[-1]

 if __name__ == '__main__':

     try:

         if not os.path.exists(root):

             os.mkdir(root)

         if not os.path.exists(path):

             r = requests.get(url, headers=kv)

             print(r.status_code)

             with open (path, 'wb') as f:

                 f.write(r.content)

                 print("文件已保存成功")

         else:

             print("文件已存在")

     except:

         ("爬虫失败")

爬虫系列之requests的更多相关文章

爬虫系列(七) requests的基本使用
一.requests 简介 requests 是一个功能强大.简单易用的 HTTP 请求库,可以使用 pip install requests 命令进行安装下面我们将会介绍 requests 中常用 ...
爬虫系列(八) 用requests实现天气查询
这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 1.接口分析虽然现在网络上有很多免费的天气查询接口,但是有很多网站都是需要注册登陆的,过程比 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...
爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
爬虫系列(四) 用urllib实现英语翻译
这篇文章我们将以百度翻译为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 1.准备工作首先使用 Chrome 浏览器打开百度翻译,这里,我们选择 Chrome 浏览器 ...
爬虫系列(五) re的基本使用
1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹 ...

随机推荐

pyspider源码解读--调度器scheduler.py
pyspider源码解读--调度器scheduler.py scheduler.py首先从pyspider的根目录下找到/pyspider/scheduler/scheduler.py其中定义了四个类 ...
camera理论基础和工作原理（转）
源: camera理论基础和工作原理
redis 入门笔记
http://www.cnblogs.com/xinysu/p/7366142.html
数据库的增、删、改、查 (CURD)
增改查删可以用CURD来表示增加:create 修改:update 查找:read 删除:delete 增加create : insert +表名+values+(信息): in ...
kswapd0 进程CPU占用过高
前几天遇到的一个问题,自己本地用VM配置的虚拟机,一般会top查看进程以及CPU占用的一些情况.又一次用laravel 打印对象,里面的内容比较多,浏览器当时就卡了. 然后看进程的情况.我以为会是ng ...
Linux的常用路由配置
1.配置默认路由 ip route add default via 192.168.10.1 dev eth0 route add default gw 192.168.10.1 2.间接路由: ip ...
css链接link
链接可以使用任何css属性,包括字体.颜色.背景等等. 链接有四个状态,可在四个状态时设置不同的属性 a:link - 正常,未访问过的链接 a:visited - 用户已访问过的链接 a:hover ...
P3317 [SDOI2014]重建（Matrix-tree+期望）
P3317 [SDOI2014]重建详情看这位神犇的blog 剩下的注释在code里吧....... #include<iostream> #include<cstdio> ...
JavaWeb中的资源映射
一./与/* <url-pattern>/</url-pattern> 会匹配到/login这样的路径型url,不会匹配到模式为*.jsp这样的后缀型url< url- ...
spring boot log4j2与三方依赖库log4j冲突无法初始化问题解决方法
因为从Spring Boot 1.4开始,spring boot就不支持log4j了,必须是log4j2或者logback,具体两者如何配置以及NDC的支持可以参考spring boot精华版. 这里 ...

爬虫系列之requests

爬虫系列之requests的更多相关文章

随机推荐

热门专题