python 翻译爬虫

 import urllib.request

 import urllib.parse

 import json

 while 1:

     content=input("请输入要翻译的内容：")

     url="http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link"

     data={}

     data['type']='AUTO'

     data['i']=content

     data['doctype']='json'

     data['keyfrom']='fanyi.web'

     data['ue']='UTF-8'

     data['typoResult']='true'

     data=urllib.parse.urlencode(data).encode('utf-8')                    #urlencode（）主要作用就是将url附上要提交的数据。 

     response=urllib.request.urlopen(url,data)

     html=response.read().decode('utf-8')

     target=json.loads(html)

     print("翻译结果: %s" % (target['translateResult'][0][0]['tgt']))

这是form Data中的内容

i:

你好
from:

AUTO
to:

AUTO
smartresult:

dict
client:

fanyideskweb
salt:

1497075070071
sign:

fbdf42a5b8f48f0defc722823ef1be6b
doctype:

json
version:

2.1
keyfrom:

fanyi.web
action:

FY_BY_CLICKBUTTON
typoResult:

true

进行分析，首先引入三个模块，

首先找到网页版有道词典的在线翻译打开检查，找到network，随便翻译一段话，打开产生的数据，

找到在Headers下的form Data表

我们要解决，如何用python进行POst表单提交：这里urlopen函数有一个data参数，如果我们给这个参数赋值，那么请求就是POST方式

如果data没有赋值HTTP请求就是GET方式

在python3的文档里，告诉我们要使用data这个参数，就必须要用urllib.request.urlopen()将其转换为某种格式

step：

我们首先要将data表单的内容进行赋值，不难发现，我们提交的要翻译的内容是通过表单中“i”这一项来传递的。

然后对data进行赋值，注意格式也要转换，并且使用“utf-8”解码

下面利用urllib.request.urlopen()来打开url，并且使用第二参数，将data提交

得到的html页面

由于数据交换使用json传输，这里我们用json.loads（）解码，并且将值赋给target

target的值其实是一个字典，

{'smartResult': {'entries': ['', 'hello；hi'], 'type': 1}, 'translateResult': [[{'tgt': 'How are you', 'src': '你好'}]], 'elapsedTime': 1, 'errorCode': 0, 'type': 'ZH_CN2EN'}

字典的操作忘了吗，复习一遍吧：

>>>target={'smartResult': {'entries': ['', 'hello；hi'], 'type': 1}, 'translateResult': [[{'tgt': 'How are you', 'src': '你好'}]], 'elapsedTime': 1, 'errorCode': 0, 'type': 'ZH_CN2EN'}

>>>print(target['translateResult']

[[{'tgt': 'How are you', 'src': '你好'}]]

>>>print(target['translateResult'][0][0]['tgt'])

How are you

over!

（伪造表单，打开页面提交表单，获得返回response，从response中提取结果）

知识点：

1，data=urllib.parse.urlencode（data）

2，response=urllib.request.urlopen(url,data) urlopen第二参数打开url，提交form data

python 翻译爬虫的更多相关文章

python基础爬虫，翻译爬虫，小说爬虫
基础爬虫: # -*- coding: utf-8 -*- import requests url = 'https://www.baidu.com' # 注释1 headers = { # 注释2 ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
Python 正则表达式 (python网络爬虫)
昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
学习推荐《精通Python网络爬虫：核心技术、框架与项目实战》中文PDF+源代码
随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来.对特定的数据进 ...
Python写爬虫-爬甘农大学校新闻
Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you ne ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
《精通Python网络爬虫》|百度网盘免费下载|Python爬虫实战
<精通Python网络爬虫>|百度网盘免费下载|Python爬虫实战提取码:7wr5 内容简介为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引 ...
Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...

随机推荐

DMA驱动框架
框架入口源文件:dma.c (可根据入口源文件,再按着框架到内核走一遍) 内核版本:linux_2.6.22.6 硬件平台:JZ2440 以下是驱动框架: 以下是驱动代码 dma.c : #i ...
There are 0 datanode(s) running and no node(s) are excluded in this operation.
向hadoop导入文件,报错 .... There are 0 datanode(s) running and no node(s) are excluded in this operation. . ...
坦克大战java版
吃了可以加血的血块类 import java.awt.*; public class Blood { //血块移动的路径 int[][] pos = { {450,250},{450,252},{45 ...
JVM java垃圾回收机制
一.jvm简介 1.JVM内存运行时数据区的三个重要的地方 1.1.堆(heap):它是最大的一块区域,用于存放对象实例数组,是全局共享的. 1.2.栈(stack):全称为虚拟机栈,主要存储基本数据 ...
（4.28）for xml path 在合并拆分上的作用演示
for xml path 用于合并与拆分 1.合并很多时候需要在SQL Server中创建逗号分隔列表.这可以使用SQL Server的DOR XML PATH功能完成.与select语句一起使用时 ...
基于Kinetic框架实现超酷的风铃悬挂摆动效果
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/iefreer/article/details/37049987 在踏得网开发过程中,我们在引导页面中 ...
redgate的mysql架构比较和数据比较工具
redgate的mysql架构比较和数据比较工具最近线上数据需要进行架构比较,比较两个服务器上的mysql实例上数据库的架构数据比较可以用percona的pt-table-checksum和pt- ...
MySQL 从库down机
MySQL 从库down机中午突然down机,重启后,从库同步报主键重复的错误. Could not execute Write_rows event on table operation_maste ...
RN-android 打包后，部分图片不显示
安卓打包后以及真机调试的时候部分图片不显示,原因是安卓的包文件并不会每次都把图片资源重新打包.也就是说,你第一次打完包之后,再更新图片与代码,代码是会生效,但是图片文件是拿不到的,解决办法是 ../ ...
[Shapefile C Library]读写shp图形（C++&.net Wapper）
ShapeLib的.net Wapper版可以在官网下载到,在WorldWind中也有使用.ORG据说也是使用的ShapeLib实现的shp文件的读写. 官网:http://shapelib.mapt ...

python 翻译爬虫

python 翻译爬虫的更多相关文章

随机推荐

热门专题