Python3爬虫（一）HTTP相关基础

Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、URI、URL、URN、HTTP

URI：统一资源标志符

URL：是URI的一个子集

URN：是URI的另一个子集，统一资源名称

HTTP协议：
　　超文本传输协议，是一个基于“请求与响应”模式的、无状态的引用层协议。
　　HTTP协议采用URL作为定位网络资源的标识。
　　URL格式 http://host[:port][path]

二、请求

1.请求方法

2.请求的网址

3.请求头

4.请求体

三、响应：

1.响应状态码

2.响应头

3.响应体

四、GET和POST的区别：

1.GET相对于POST较不安全，GET将参数包含在URL里面，POST是通过表单形式传输的，包含在请求体中。

2.GET最多提交的数据大小为1024字节，POST没有限制

3.GET效率较高与POST

五、DOM

1.含义：文档对象模型，定义了访问HTML和XML文档标准

2.DOM：

　　1.核心DOM：针对任何结构化文档的标准模型

　　2.XML DOM：针对XML文档的标准模型

　　3.HTML DOM：针对HTML文档的标准模型

　　　　a.整个文档是一个文档节点

　　　　b.每个HTML元素是元素节点

　　　　c.HTML元素内的文本是文本节点

　　　　d.每个HTML属性是属性节点

　　　　e.注释是注释节点

【注】

节点树中的节点，批次拥有层级关系，常用的有父节点（parent）、子节点（child）、兄弟节点（sibling）

六、爬虫爬取的步骤：

1.获取网页

2.提取信息

3.保存数据

4.自动化爬取程序

七、代理的作用：

1.突破自身IP访问限制，访问一些平时不能访问的站点

2.访问一些单位或团体的内部资源

3.提高访问速度

4.隐藏真实IP

八、代理的分类

1.根据协议分类：

　　协议　　一般开放端口

　　FTP　　21、2121

　　HTTP 80、8080、3128

　　SSL/TLS 443

　　RTSP　 554

　　Telnet　 23

　　POP3/SMTP　　110/25

　　SOCKS　　1080

2.根据匿名程度分类：

　　a.高度匿名代理

　　b.普通匿名代理

　　c.透明代理

　　d.间谍代理

Python3爬虫（一）HTTP相关基础的更多相关文章

Python 爬虫六性能相关
前面已经讲过了爬虫的两大基础模块: requests模块:用来伪造请求爬取数据 bs4模块:用来整理,提取数据当我们真正的开始有需求的时候通常都是批量爬取url这样的.那如何批量爬取呢? 按照正常的 ...
Python3 爬虫之 Scrapy 核心功能实现（二）
博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的搭建过程请参照本人的另一篇博客:Python3 爬虫之 Scrap ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python3爬虫：（一）爬取拉勾网公司列表
人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用爬取前的 ...
Python爬虫入门有哪些基础知识点
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

随机推荐

爬虫入门之jsonPath PhantomJS与 selenium详解(六)
1 jsonPath数据格式 pip安装: pip install jsonpath 用来解析json格式的字符串,类似于xpath (1) json对象的转换 json.loads() json.d ...
Oracle权限相关查询
Oracle权限相关查询着实视图有点多,记录下常用的语句,方便查询:1.查看所有用户: select * from dba_users; select * from all_users; sel ...
python UI自动化实战记录一：测试需求与测试思路
测试需求: 项目包含两个数据展示页面,数据均来自于四个数据源接口. 测试操作步骤: 选择5个大类型中的一个,每个大类型下有3个子类型,选择任一子类型,页面数据更新.需验证页面上的数据与数据源接口数据一 ...
Ubuntu 配置java环境变量
1.使用如下命令,打开/etc/profile: $sudo vi /etc/profile 2.进入编辑模式,在末尾添加: #developer enviroment, add by myself ...
(转)C++类库开发之导出类设计原则
上一篇博客详细陈述了类库开发的各个知识点(http://blog.csdn.net/z702143700/article/details/45989993),本文将进一步陈述,对于类库开发过程中导出类 ...
http中COOKIE和SESSION有什么区别？(转知乎)
作者:知乎用户链接:https://www.zhihu.com/question/19786827/answer/28752144来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...
Android（java）学习笔记4：线程的控制
1. 线程休眠: Java中线程休眠指让正在运行的线程暂停执行一段时间,进入阻塞状态,通过调用Thread类的静态方法sleep得以实现. 当线程调用sleep进入阻塞状态后,在其休眠的时间内,该线程 ...
[18/12/05]接口(interface)
一.定义(类之上的公共标准) 一个特殊的类,用interface关键字来表示.只有全局变量和抽象方法.解决Java中子类只能单继承的问题 [语法] [访问修饰符:public 或 default] ...
IntelliJ IDEA 快速搭建 Spring MVC环境
IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手.代码自动提示.重构.J2EE支持.Ant.JUnit.CVS整合.代码审查. 创新的GUI设计等方面的功能可以说是超常的. ...
关于layui问题
编辑: $('#Teacher').find('option').each(function(){ $(this).attr('selected',$(this).val()==data.tid); ...

Python3爬虫（一）HTTP相关基础

Python3爬虫（一）HTTP相关基础的更多相关文章

随机推荐

热门专题