python web 2
思路整理
过程:请求豆瓣电影 top 250 url='https://movie.douban.com/'
结果:得到网页的html 源码 (保存为hml文件 就可以用浏览器打开)
提示:
Location
WEB 服务器告诉浏览器,试图访问的对象已经被移到别的位置了,到该头部指定的位置去取。
例如:Location:http://i0.sinaimg.cn/dy/deco/2008/0528/sinahome_0803_ws_005_text_0.gif
第一步:得到指定URL,解析url,这是准备工作
使用函数:parsed_url()
为什么解析? 我们需要的是 它的协议--http/https
他的host port path (如下图 )
ok 原因我们明白了 那我们怎么实现的
一会儿有空再说 我们需要接着验证其他步骤 去理解这个过程,这个更重要
第二步:获取 URL 这才进入主题 这个主题分几个步骤完成
首先函数get(url)从parsed_url() 中获取到几个解析完成的关键值:protocol, host, port, path
执行步骤A
函数 socket_by_protocol(protocol),根据协议返回一个socket实例,什么事socket实例
(Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求)
由socket的作用 认为此条程序在内容是进行http 和 https的判别(因为HTTPS 协议需要使用 ssl.wrap_socket 包装一下原始的 socket)
实质上是为网络访问奠定基础即创建socket
s.connect((host, port)): connect()用于建立与指定socket的连接。
执行步骤B(强行分出步骤hhhh)
request = 'GET {} HTTP/1.1\r\nhost: {}\r\nConnection: close\r\n\r\n'.format(path, host) 构造一个http 请求
(其中Connection 头(header) 决定当前的事务完成后,是否会关闭网络连接。如果该值是“keep-alive”,网络连接就是持久的,不会关闭,
使得对同一个服务器的请求可以继续在该连接上完成。)
执行步骤C
encoding = 'utf-8'
s.send(request.encode(encoding))
浏览器和服务器之间发送的信息是以二进制bytes格式存在的,所以发送前要先将str格式的request转化为bytes
执行步骤D
response_by_socket(s)
response.decode(encoding)
s就是之前构造的socket实例,发出访问请求后,接收所有服务器返回的信息,转换为str
(python3默认编码为unicode,由str类型进行表示。二进制数据使用byte类型表示,所以不会将str和byte混在一起。在实际应用中我们经常需要将两者进行互转)
执行步骤E
parsed_response(r)
对服务器传回的信息进行解析(以下为传回的信息,通过\r\n可对内容成功分解,理出条理,比较笨,但第一次这样解析过返回的源码,感觉瞬间明白了网页的一些内容)
b'HTTP/1.1 301 Moved Permanently
\r\nDate: Sat, 27 Oct 2018 14:31:33GMT\r\n
Content-Type: text/html
\r\nTransfer-Encoding: chunked\r\n
Connection:close
\r\nLocation: https://movie.douban.com/top250\r\n
Server: dae
\r\nX-Content-Type-Options:nosniff
\r\n\r\nb2\r\n<html>
\r\n<head><title>301 Moved Permanently</title></head>\r\n
<body bgcolor="white">
\r\n<center><h1>301 Moved Permanently</h1></center>\r\n
<hr><center>nginx</center>
\r\n</body>\r\n
</html>\r\n\r\n0\r\n\r\n
去掉\r\n后可清楚得到许多信息
HTTP/1.1 301 Moved Permanently
Date: Sun, 05 Jun 2016 12:37:55 GMT
Content-Type: text/html
Content-Length: 178
Connection: keep-alive
Keep-Alive: timeout=30
Location: https://movie.douban.com/top250
Server: dae
X-Content-Type-Options: nosniff <html>
<head><title>301 Moved Permanently</title></head>
<body bgcolor="white">
<center><h1>301 Moved Permanently</h1></center>
<hr><center>nginx</center>
</body>
</html>
如何解析 下面代码实现
header, body = r.split('\r\n\r\n', 1)
h = header.split('\r\n')
status_code = h[0].split()[1]
status_code = int(status_code) headers = {}
for line in h[1:]:
k, v = line.split(':')
headers[k] = v
这个代码我们也暂时不去关心它的正确与否,接着往下分析
解析出
状态码 int
headers dict
body str
执行步骤F
遇到重定向问题,所谓重定向(Redirect)就是通过各种方法(本文提到的为3种)将各种网络请求重新转到其它位置(URL)。每个网站主页是网站资源的入口,当重定向发生在网站主页时,如果不能正确处理就很有可能会错失这整个网站的内容。
status_code, headers, body = parsed_response(r)
if status_code == 301:
url = headers['Location']
return get(url)
return status_code, headers, body
这个属于服务器端重定向,在服务器端完成,一般来说爬虫可以自适应,是不需要特别处理的,如响应代码301(永久重定向)、302(暂时重定向)等。具体来说,可以通过requests请求得到的response对象中的url、status_code两个属性来判断。利用上图代码进行处理
(当status_code为301、302或其他代表重定向的代码时,表示原请求被重定向;当response对象的url属性与发送请求时的链接不一致时,也说明了原请求被重定向且已经自动处理。)
大概理解了,就是你得通过提示找到资源存放的真正地点,不知道是否完全正确
接下来
又到了我最喜欢的debug环节了 哈哈哈哈哈哈(别理我,已经疯掉)
首先自己运行时出现了很多莫名奇妙的的错误,都指向测试代码,于是首先删掉了所有测试代码
可疑问为什么删掉了测试代码,发现不输出任何结果,明明我在主函数中输出了很多值
一个个设置输出检查,直到来到执行的第一句,函数根本没有执行啊喂!!
立马参考源代码,发现自己删测试函数的时候,把执行主函数的语句删掉了,,
我是用函数的方法写的,mian来执行这些函数,而谁来执行整个文件呢
(因为python不像其它函数一样是必须从 main 进入的,这个mian 其实相当于一个普通滴函数),所以如下
它来执行我写的这个.py文件
暂时是这么理解的,但这个奇怪的函数我查了资料
def cs():
print('已打开cs!') if __name__ == '__main__':
print('cs主函数!')
如图 将原本单独的print(‘cs主函数!’)之前加入一句if_name_ == '_main_':
就会使另一文件调用它时不执行print(‘cs主函数!’)只执行 print('已打开cs!')
这样既可以让“模块”文件运行,也可以被其他模块引入,而且不会执行函数2次。这才是关键。
总结一下:
如果我们是直接执行某个.py文件的时候,该文件中那么”__name__ == '__main__'“是True,
但是我们如果从另外一个.py文件通过import导入该文件的时候,这时__name__的值就是我们这个py文件的名字而不是__main__。
这个功能还有一个用处:调试代码的时候,在”if __name__ == '__main__'“中加入一些我们的调试代码,我们可以让外部模块调用的时候不执行我们的调试代码,但是如果我们想排查问题的时候,直接执行该模块文件,调试代码能够正常运行!
---------------------
(总结转自:https://blog.csdn.net/qq_27231343/article/details/51184389 )
函数可以执行后
最终又改掉了两个错误:
headers = {}
for line in h[1:]:
k, v = line.split(': ')#自己写的时候‘: ’ 冒号后少打一个空格 一直报too many values to unpack 的错误
headers[k] = v
return status_code, headers, body
if status_code == 301:
url = headers['Location']#自己重新打发现L时大写,自己一直是小写,,,汗
return get(url)
都是很小的错误,但要老命了
最后附上成功的爬到的源码:单独放文章了,有点多,,,
搞定,喜大普奔,终于结束了,junkdog gogogog!
python web 2的更多相关文章
- Redis的Python实践,以及四中常用应用场景详解——学习董伟明老师的《Python Web开发实践》
首先,简单介绍:Redis是一个基于内存的键值对存储系统,常用作数据库.缓存和消息代理. 支持:字符串,字典,列表,集合,有序集合,位图(bitmaps),地理位置,HyperLogLog等多种数据结 ...
- Python Web 方向(一)
Python Web 方向(一) --------Django站点创建 文章地址:http://www.cnblogs.com/likeli/p/5821744.html Python版本:2.7 推 ...
- 浅谈五大Python Web框架
转载:http://feilong.me/2011/01/talk-about-Python-web-framework 说到Web Framework,Ruby的世界Rails一统江湖,而Pytho ...
- nginx上部署python web
nginx上部署python web http://uwsgi-docs.readthedocs.io/en/latest/tutorials/Django_and_nginx.html
- 全面解读python web 程序的9种部署方式
转载自鲁塔弗的博客,本文地址http://lutaf.com/141.htm python有很多web 开发框架,代码写完了,部署上线是个大事,通常来说,web应用一般是三层结构 web serve ...
- Python Web 开发的十个框架【转载】
Python 是一门动态.面向对象语言.其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性.除了语言本身的设计目的之外,Python标准 库也是值得大家称赞的,Python甚至还 ...
- tornado 学习笔记2 Python web主流框架
2.1 Django 官方网址:https://www.djangoproject.com/ 简介:Django is a high-level Python Web framework that e ...
- python web框架——扩展Django&tornado
一 Django自定义分页 目的:自定义分页功能,并把它写成模块(注意其中涉及到的python基础知识) models.py文件 # Create your models here. class Us ...
- 5个最好的Python Web开发框架
Python是最受欢迎的和最有效率的开发语言之一.Python能让你更快完成工作,并且更有效地集成系统.Python是动态的面向对象的语言.即便你刚刚开始学习Python,也立即就能获得生产力上的提升 ...
- The Python web services developer: XML-RPC for Python
原文地址:http://www.ibm.com/developerworks/webservices/library/ws-pyth10/index.html 摘要:概括地说,您可以将 XML-RPC ...
随机推荐
- postgresql 表触发器
1.先建一个函数,用来执行触发器启动后要执行的脚本 CREATE OR REPLACE FUNCTION "public"."trigger_day_aqi"( ...
- 组件 restful_API
1 token 认证 2 权限 3 注册器和响应 4 频率组件
- 利用Python计算π的值,并显示进度条
利用Python计算π的值,并显示进度条 第一步:下载tqdm 第二步;编写代码 from math import * from tqdm import tqdm from time import ...
- 安卓websocket 封装基于Java-websocket
本文借鉴于https://blog.csdn.net/u013872857/article/details/79190643感谢大神的贡献 借鉴文章所用websocket 第三方是:nv-websoc ...
- 【ubuntu】-桌面假死的解决办法
第一,通过ctrl+art+F1(1-6),启动本地终端 切换到了字符界面tty1 第二,查询进程,ps -e |grep tty7 得到tty7的pid号 第三,杀死tty7的进程 , kill 9 ...
- 用keytool制作证书并在tomcat配置https服务(一)
https分为单项认证和双向认证. 一般https页面上的访问都是单项认证,服务端发送数字证书给客户端,客户单方面验证.而服务端不做验证. 而双向认证,需要双方都有证书,然后发送给对方进行验证.一般用 ...
- Job for network.service failed because the control process exited with error code
转自:https://blog.csdn.net/dongfei2033/article/details/81124465 今天在centOS 7下更改完静态ip后发现network服务重启不了,翻遍 ...
- ASCII对应码表-键值(完整版)
ASCII对应码表-键值(完整版) Bin (二进制) Oct (八进制) Dec (十进制) Hex (十六进制) 缩写/字符 解释 0000 0000 00 0 0x00 NUL(null) 空字 ...
- eclipse中出现An internal error occurred during: "Initializing Java Tooling"
关于这个问题我查了一下,就是删除.projct文件夹下的文件. 自己试了一下,这个可以及解决问题可是会出现新的问题. 1.SVN关联没了,这样做你的svn信息都没了,项目还要重新导一遍 2.出现了新的 ...
- 比原链(Bytom)先知节点 Windows接入文档
系统要求 我们建议选择知名的VPS服务商,运行比原链节点对算力没有要求,但是请配置尽可能大的磁盘空间. 节点服务器最小配置: 操作系统: Windows/Linux/Docker CPU: 2核 内存 ...