PHP/CURL库功能   多种传输协议.CURL(client URL Request Library),含义是“客户端URL请求库”. 不像上一篇所用的PHP内置网络函数,PHP/CURL支持多种传输协议,包括FTP.FTPS.HTTP.HTTPS.Gopher.Telnet和LDAP.其中HTTPS,允许机器人下载使用SSL(Secure Sockets Layer)协议加密了的网页. 表单提交.模拟浏览器向服务器提交表单的功能. 基本认证技术. COOKIE. 重定向. 代理名称欺骗.…
一.requests 库使用 需要安装 pip install requests import requests #导入requests库 request = requests.get("https://www.baidu.com")#发送get请求(url地址) print(request) #打印响应状态 如果要添加额外的信息 例如 name = germey age = 22 req = reuqests.get("http://httpbin.org/get?name…
安装python后 自带urllib库 模块篇 分为几个模块如下: 1. urllib.request 请求模块 2. urllib.parse 分析模块 3. urllib.error 异常处理模块 4. urllib.robotparser robots文本协议识别 用的比较少 方法篇 分为以下几种方法: urlopen() 示例: import urllib.request response = urllib.request.urlopen("https://www.python.org&…
LIB_http库提供了一个包装函数集,来简化复杂的PHP/CURL接口 1.http_get()函数,使用GET方法下载文件…
三.pyquery 简介:同样是一个强大的网页解析工具 它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便 安装: pip install pyquery 验证: import pyquery 初始化时 也需要传入HTML文本 初始化一个PyQuery对象 初始化方式有多种 例如直接传入字符串,传入URL,传入文件名等等. 1. 字符串初始化 示例: html = ''' <div> <ul> <li class="item-0&qu…
二.Beautiful Soup 简介 就是python的一个HTML或XML的解析库 可以用它来很方便的从网页中提取数据 0.1 提供一些简单的 python式的函数来处理导航,搜索,修改分析树等功能, 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用 0.2 自动将输入的文档转换为Unicode编码,输出文档转换为UTF-8编码,不需要考虑编码方式, 除非文档没有指定一个编码方式,这是你仅仅需要说明以下原始编码格式就可以了. 0.3…
一.XPath 全称 XML Path Language 是一门在XML文档中 查找信息的语言 最初是用来搜寻XML文档的 但是它同样适用于HTML文档的搜索 XPath 的选择功能十分强大,它提供了非常简洁的路径选择表达式,另外还提供了超过100个内置函数,用于字符串,数值,时间的匹配以及节点和序列的处理 XPath 于1999年11月16日成为W3C标准 被设计为供XSLT.XPointer.以及其它XML解析软件使用 <<< 常用规则 表达式 描述 nodename 选取此节点的所…
端午节假期过了,之前一直在做出行准备,后面旅游完又休息了一下,最近才恢复状态. 端午假期最后一天收到一个快递,回去打开,发现是微信抽奖中的一本书,黄永祥的<实战Python网络爬虫>. 去各大网站搜了一下这个人,没有名气,去网购平台看了他别的书的书评,整体来说,书都是拼凑的... 但是既然书到手了,不妨翻开看看,刚好最近没有什么头绪,又偏头痛.花了几个半天整体翻了一下这本书,感觉是有点浅显的. 我之前用java写过爬虫,感觉比较难的还是反爬虫这块.这本书,我先看了第一个实战项目,51job的,…
浏览器的请求 url=请求协议(http/https)+网站域名+资源路径+参数 http:超文本传输协议(以明文的形式进行传输),传输效率高,但不安全. https:由http+ssl(安全套接子层)组成:传输之前数据先加密,之后解密获取内容,传输效率低但安全. HTTP协议之请求 1请求行 2.请求头(user-Agent:用户代理[对方服务器通过user-Agent知道当前请求资源的是神么网站]) 3.请求体(get 请求没有请求体,post有:get 请求把数据放在url地址中) pos…
网络爬虫专题--HTTP基本原理 URI和URL.URN的关系 超文本 HTTP和HTTPS URI和URL 首先,我们来了解一下URI和URL,URI,即统一资源标志符,URL,即统一资源定位符. 例如,https://github.com/favicon.ico,它是一个URL,也是一个URI.既有这样的一个图标资源,我们用URL/URI来唯一指定了它的访问方式,这其中包括了访问协议HTTPS.访问路径(即根目录)和资源名称favicon.ico.通过这样一个链接,我们便可以从互联网上到这个…