1、有道翻译

'''
|-- 代码思路解析:
|-- 1、拿到网址首先查看network内Headers的:Request URL;User-Agent;From Data,这几个就是代码所需要的url地址和接口所需要传入的参数
|-- 2、编写代码:url,参数data放到一个字典内:data={},把From Data内的数据都拷贝到代码中并变成参数数组格式:data['smartresult']= 'dict'
|-- 3、由于有道有反爬虫的机制,所以需要做进一步的处理:
|-- 1)、未反爬虫处理前,报:{"errorcode":50}
|-- 2)、打开network,发送两次请求,查看From Data,发现只有三个地方数据有变化:i,salt,sign(i:需要进行翻译的字符串如:尘封最帅;salt:加密
|-- 用到的盐,这个是破解反爬虫的关键点;sign:签名字符串,也是破解反爬虫的关键点)
|-- 3)、查看网页源代码,查找所有js文件,我们找到fanyi.js,然后点击这个文件,跳转到源文件中,全部复制此代码到http://tool.chinaz.com/Tools/jsformat.aspx中,点击格式化
|-- 然后把格式化的代码复制出来,黏贴到subline内,然后搜索salt,找到相关代码:function(e, t) {
var n = e("./jquery-1.7");
e("./utils");
e("./md5");
var r = function(e) {
var t = n.md5(navigator.appVersion),
r = "" + (new Date).getTime(),
i = r + parseInt(10 * Math.random(), 10);
return {
ts: r,
bv: t,
salt: i,
sign: n.md5("fanyideskweb" + e + i + "p09@Bn{h02_BIEe]$P^nG")
}
};
|-- 4)、分析这段代码发现:sign由四个字符串拼接而成:fanyideskweb e i p09@Bn{h02_BIEe]$P^nG;
e :代表需要翻译的字符串
r :代表获取系统的时间戳
i :代表r的时间戳加上0-10的随机字符串
|-- 5)、通过以上4步,就知道了salt和sign的生成原理,这样就可以写python打代码来对接他的接口了
|-- 4、对数据进行编码处理
|-- 5、创建一个request对象,把url和data传进去,并且使用POST请求
|-- 6、打开这个请求
|-- 7、读取返回来的数据
|-- 8、把返回的json字符串解析成字典
|-- 9、不采用['translateResult'][0][0]['tgt']这种格式来翻译结果:{'type': 'ZH_CN2EN', 'errorCode': 0, 'elapsedTime': 0, 'translateResult': [[{'src': '尘封最帅', 'tgt': 'Dusty the most handsome'}]]}
[0] :代表去掉[[{'src': '尘封最帅', 'tgt': 'Dusty the most handsome'}]]}中第一个[]和第二个[0]
['tgt'] :代表直接打印输出:tgt的结果
|-- 10、采用['translateResult'][0][0]['tgt']这种格式翻译的结果:翻译的结果:Dusty the most handsome ''' import urllib.request
import urllib.parse
import json
import random
import time
import hashlib #用户输入翻译的内容
content = input('请输入需要翻译的内容:')
#连接url地址
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
#发送给服务器请求的数据
data = {} #破解反爬虫的参数
u = 'fanyideskweb'
c = 'p09@Bn{h02_BIEe]$P^nG'
e =content
i =str(int(time.time()*1000)+random.randint(1,10))
sign = hashlib.md5((u+e+i+c).encode('utf-8')).hexdigest() #此部分数据来源于:FromData
data['i']= content
data['from']= 'AUTO'
data['to']= 'AUTO'
data['smartresult']= 'dict'
data['client']= 'fanyideskweb'
data['salt']= ''
data['sign']= 'ba81b8cb1c6dc64c253bf6d250cbc09b'
data['ts']= ''
data['bv']= '6d37ec4625573a83fa9ca0cb1e144ce5'
data['doctype']= 'json'
data['version']= '2.1'
data['keyfrom']= 'fanyi.web'
data['action']= 'FY_BY_CLICKBUTTION'
data['typoResult']= 'false' #对数据进行编码处理
data = urllib.parse.urlencode(data).encode('utf-8')
#创建一个request对象,把url和data传进去,并且使用POS请求
request = urllib.request.Request(url = url,data=data,method='POST')
#打开请求
reponsend =urllib.request.urlopen(request)
#读取返回来的数据
html = reponsend.read().decode('utf-8')
#把返回来的json字符串解析成字典
line = json.loads(html)
#print(line)
#获取翻译结果
print('翻译的结果:%s'%(line['translateResult'][0][0]['tgt'])) 参考文档:https://blog.csdn.net/ISxiancai/article/details/79349184
     https://blog.csdn.net/nunchakushuang/article/details/75294947

2、urlopen()方法的timeout参数用于设置什么?

timeout参数用于设置连接的超时时间,单位是秒

3、如何从urlopen()返回的对象中获取http的状态码

reponse = urllib.request.urlopen(url)
code = reponse.getcode()

4、客户端合服务端之间的请求-响应,最常用的两种方式

get和post

5、User-Agent属性通常是记录什么信息、

普通浏览器通过该内容像访问网站提供你所使用的浏览器类型,操作系统,浏览器内核信息等

6、使用字符串的什么方法将其他编码转换成Unicode编码?

decode。   decode的作用是将其他编码的字符串转换成unicode编码, 相反,encode的作用是将unicode编码转换成其他编码的字符串

7、json是什么

用字符串把python的数据结构封装起来,便于存储和使用

#把返回来的json字符串解析成字典
line = json.loads(html)

8、配合EasyGui,给下载一只猫的代码增加互动

*  让用户输入尺寸

*  如果用户不输入尺寸,那么默认按宽400,高600下载猫

*  让用户指定位置保存

import easygui as g
import urllib.request def main():
#用户自己选择下载的猫的尺寸
title = '下载一只猫'
msg = '填写下载猫的尺寸'
fieldsnames = ['宽','高']
fieldsvalues = []
size = width,height = 400,600
fieldsvalues = g.multenterbox(msg,title,fieldsnames,size) #判断输入宽和高为空,非整数时的容错
while 1:
if fieldsvalues == None:
break
errmsg = "" try:
width = int(fieldsvalues[0].strip())
except:
errmsg += '宽度必须为整数' try:
height = int(fieldsvalues[1].strip())
except:
errmsg += '高度必须为整数' if errmsg == "":
break fieldsvalues = g.multenterbox(errmsg,title,fieldsnames,fieldsvalues) #爬取猫的网站
url = "http://placekitten.com/g/%d/%d" %(width,height)
reponse = urllib.request.urlopen(url)
cat_img = reponse.read() filepath = g.diropenbox("请选择存放猫的文件夹") #命名下载的图片文件名称
if filepath:
filename = '%s/cat_%d*%d.jpg'%(filepath,width,height)
else:
filename = 'cat_%d*%d.jpg'%(width,height) #写入文件
with open(filename,'wb') as f:
f.write(cat_img) if __name__ == '__main__':
main()

【python54--爬虫2】的更多相关文章

  1. 设计爬虫Hawk背后的故事

    本文写于圣诞节北京下午慵懒的午后.本文偏技术向,不过应该大部分人能看懂. 五年之痒 2016年,能记入个人年终总结的事情没几件,其中一个便是开源了Hawk.我花不少时间优化和推广它,得到的评价还算比较 ...

  2. Scrapy框架爬虫初探——中关村在线手机参数数据爬取

    关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...

  3. Python 爬虫模拟登陆知乎

    在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...

  4. scrapy爬虫docker部署

    spider_docker 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/Liu ...

  5. scrapy 知乎用户信息爬虫

    zhihu_spider 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧.代码地 ...

  6. 120项改进:开源超级爬虫Hawk 2.0 重磅发布!

    沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...

  7. Python爬虫小白入门(四)PhatomJS+Selenium第一篇

    一.前言 在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...

  8. Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

  9. QQ空间动态爬虫

    作者:虚静 链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...

  10. 让你从零开始学会写爬虫的5个教程(Python)

    写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚本是很简单的,但是对于新手来说却并不是那么容易. ...

随机推荐

  1. C# 5.0五大新特性

    第一:绑定运算符,:=: 这个只是简化了数据绑定,跟ASP.NET MVC3不断改进一样,其实不是什么亮点改进. comboBox1.Text :=: textBox1.Text; //将文本框的内容 ...

  2. redis_bj_01

    windows下安装redis 下载地址https://github.com/dmajkic/redis/downloads.下载到的Redis支持32bit和64bit.根据自己实际情况选择,我选择 ...

  3. OWASP top 10

    OWASP Top 10 A1: InjectionSolution+Validate User Input+Never concatenate queries and date+Parameteri ...

  4. Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04(转)

    http://www.powerxing.com/install-hadoop/ http://blog.csdn.net/beginner_lee/article/details/6429146 h ...

  5. RobotFrameWork(一)robotfamework(python版)及Ride在windows安装

    1.windows下的安装 (1)准备条件: python-2.7.3.msi robotframework-2.7.5.win32.exe wxPython2.8-win32-unicode-2.8 ...

  6. Helter Skelter (扫描线 + 离散化 + 树状数组)

    扫描线:按照其中一个区间的标记为pos,然后左区间标记d为正影响,有区间标记d为负影响,然后根据所有的pos排序.pos从小扫到大,那么对于某一个区间一定会被扫过2次,那么经过2次之后就只剩下中间那一 ...

  7. Python 构造一个可接受任意数量参数的函数

    为了能让一个函数接受任意数量的位置参数,可以使用一个* 参数 在这个例子中,rest 是由所有其他位置参数组成的元组.然后我们在代码中把它当成了一个序列来进行后续的计算

  8. c# 设置控件的前景颜色和背景颜色

    AutoSize:设置为false取消自动计算尺寸功能,控件的大小则按照设定的Size来呈现,设置为true自动计算大小 TextAlign:设置对齐方式 // // 摘要: // 用默认的所有者运行 ...

  9. 深入剖析Kubernetes k8s

    深入剖析Kubernetes k8s 毫无疑问,Kubernetes 已经成为容器领域当之无愧的事实标准.除了 Google.Microsoft 等技术巨擘们在容器领域里多年的博弈外,国内的 BAT. ...

  10. bootsrtap h5 移动版页面 在苹果手机ios滑动上下拉动滚动卡顿问题解决方法

    bootsrtap h5 移动版页面 在苹果手机ios滑动上下拉动滚动卡顿问题解决方法 bootsrtap框架做的h5页面,在android手机下没有卡顿问题,在苹果手机就一直存在这问题,开始毫无头绪 ...