【python】爬虫实践

参考链接

https://blog.csdn.net/u012662731/article/details/78537432
详解 python3 urllib
https://www.jianshu.com/p/2e190438bd9c

需要的包

requests

官方文档：
https://docs.python.org/3/library/urllib.html

urllib.request for opening and reading URLs
- 函数原型：urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
- data: 发送数据，
  - params 需要被转码成字节流。而 params 是一个字典
  - 使用 urllib.parse.urlencode() 将字典转化为字符串。\n
  - 再使用 bytes() 转为字节流。最后使用 urlopen() 发起请求，请求是模拟用 POST 方式提交表单数据。
  - data = bytes(urllib.parse.urlencode(params), encoding='utf8')
  - response = urllib.request.urlopen(url, data=data)
  - 使用 data 参数，请求方式变成以 POST 方式提交表单。使用标准格式是application/x-www-form-urlencoded
- timeout 参数是用于设置请求超时时间。单位是秒。
- cafile和capath代表 CA 证书和 CA 证书的路径。如果使用HTTPS则需要用到。
- context参数必须是ssl.SSLContext类型，用来指定SSL设置
- cadefault参数已经被弃用，可以不用管了。
- 该方法也可以单独传入urllib.request.Request对象
- 该函数返回结果是一个http.client.HTTPResponse对象。
- 函数原型：urllib.request.Request(url, data=None, headers={},origin_req_host=None,unverifiable=False, method=None)
urllib.error containing the exceptions raised by urllib.request
urllib.parse for parsing URLs
urllib.robotparser for parsing robots.txt files

【python】爬虫实践的更多相关文章

python爬虫实践教学
i春秋作家:Mochazz 一.前言这篇文章之前是给新人培训时用的,大家觉的挺好理解的,所以就分享出来,与大家一起学习.如果你学过一些python,想用它做些什么又没有方向,不妨试试完成下面几个案例 ...
python爬虫实践
模拟登陆与文件下载爬取http://moodle.tipdm.com上面的视频并下载模拟登陆由于泰迪杯网站问题,测试之后发现无法用正常的账号密码登陆,这里会使用访客账号登陆. 我们先打开泰迪杯的 ...
Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...
python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
python爬虫实践（一）
最近在学习爬虫,学完后想实践一下,所以现在准备爬取校花网的一部分图片第一步,导入需要的库 from urllib import request #用于处理request请求和获得响应 from ur ...
Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...
《转载》python爬虫实践之模拟登录
有些网站设置了权限,只有在登录了之后才能爬取网站的内容,如何模拟登录,目前的方法主要是利用浏览器cookie模拟登录. 浏览器访问服务器的过程在用户访问网页时,不论是通过URL输入域名或IP ...
python爬虫实践--求职Top10城市
前言从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息.本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python” ...
Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取
爬取的网站类型: 论坛类网站类型涉及主要的第三方模块: BeautifulSoup:解析.遍历页面 urllib:处理URL请求 Flask:简易的WEB框架介绍: 本次主要使用urllib获取网 ...
python爬虫实践——爬取“梨视频”
一.爬虫的基本过程: 1.发送请求(请求库:request,selenium) 2.获取响应数据()服务器返回 3.解析并提取数据(解析库:re,BeautifulSoup,Xpath) 4.保存数据 ...

随机推荐

SQL常见面试题
1.用一条SQL 语句查询出每门课都大于80 分的学生姓名 name kecheng fenshu张三语文 81张三数学 75李四语文 ...
mongodb主从以及auth主从配置详解
1.主服务器配置 #auth = true dbpath = /data/mongodb/db logpath = /data/mongodb/log/mongodb.log port = ...
AssetBundle加载API
AssetBundle加载API 在Unity 5当中,可以通过4个不同的API来加载AssetBundle,4个API可以用两个条件来区分: AssetBundle是 LZMA压缩. LZ4压缩还是 ...
分析(function(window, undefined) {})(window)
有的时候,我们会在JS框架中看到这行 (function(window, undefined) {})(window) ,它是做什么用的,我们来分析下它首先这就是一个匿名函数,立即执行它 (func ...
ats 分层缓存
了解缓存层次结构缓存层次结构由彼此通信的缓存级别组成.ats支持多种类型的缓存层次结构. 所有缓存层次结构都识别父和子的概念. 父缓存是层次结构中较高的缓存, ats可以将请求转发到该缓存.子缓存 ...
IDA入门笔记
题目来源: 南邮CTF :: RE :: Hello,RE(应该是) XDUCTF :: ??? :: ????????(不知道不知道不知道) 总而言之我会在百度网盘再上传一份: >>百度 ...
python的多路复用实现聊天群
在我的<python高级编程和异步io编程>中我讲解了socket编程,这里贴一段用socket实现聊天室的功能的源码,因为最近工作比较忙,后期我会将这里的代码细节分析出来,目前先把代码贴 ...
React的setState分析
前端框架层出不穷,不过万变不离其宗,就是从MVC过渡到MVVM.从数据映射到DOM,angular中用的是watcher对象,vue是观察者模式,react就是state了. React通过管理状态实 ...
Scrum Meeting 10.25
成员已完成任务下一阶段任务用时徐越阅读前端代码中和通信相关的部分学习服务器配置 4h 赵庶宏阅读前端代码中和通信相关的部分学习服务器配置 4h 薄霖继续做UI开发界面优化 4h 武 ...
团队冲刺——Five
昨天: 司宇航:web项目如何部署到公网,把网址做成桌面图标链接,登录记住密码功能. 王金萱:注册和登录界面,用户数据库的信息录入. 马佳慧:做界面. 季方:处理爬虫数据,实现统计功能. 遇到的问题: ...

【python】爬虫实践

参考链接

需要的包

requests

【python】爬虫实践的更多相关文章

随机推荐

热门专题