最近有个需求,要将几万条数据从日语翻译成中文。因为数据的获取和处理用的是python代码,所以想先尝试翻译部分也用python实现。

目前网上查到的翻译方法有百度、有道以及谷歌翻译,下面会对这三个方法进行简单的测试和分析。如果大家知道有更好的方法(速度快、结果准确),还请分享!

模块导入

 import re
import urllib.parse, urllib.request
import hashlib
import urllib
import random
import json
import time
from translate import Translator

非python自带的库,如python google translator,需要手动安装,命令pip install module_name。

1. 百度翻译

 appid = 'your_appid'
secretKey = 'your_secretKey'
url_baidu = 'http://api.fanyi.baidu.com/api/trans/vip/translate' def translateBaidu(text, f='ja', t='zh'):
salt = random.randint(, )
sign = appid + text + str(salt) + secretKey
sign = hashlib.md5(sign.encode()).hexdigest()
url = url_baidu + '?appid=' + appid + '&q=' + urllib.parse.quote(text) + '&from=' + f + '&to=' + t + \
'&salt=' + str(salt) + '&sign=' + sign
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
data = json.loads(content)
result = str(data['trans_result'][]['dst'])
print(result)

参数:text--待翻文本,f--初始语言,t--目标语言,后面方法类似。

2. 有道翻译

 url_youdao = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=' \
'http://www.youdao.com/'
dict = {}
dict['type'] = 'AUTO'
dict['doctype'] = 'json'
dict['xmlVersion'] = '1.8'
dict['keyfrom'] = 'fanyi.web'
dict['ue'] = 'UTF-8'
dict['action'] = 'FY_BY_CLICKBUTTON'
dict['typoResult'] = 'true' def translateYoudao(text):
global dict
dict['i'] = text
data = urllib.parse.urlencode(dict).encode('utf-8')
response = urllib.request.urlopen(url_youdao, data)
content = response.read().decode('utf-8')
data = json.loads(content)
result = data['translateResult'][][]['tgt']
print(result)

参数主要由字典dict指定,发现没有地方可以指定语言(可能是我没找到),测试结果是不管输入什么语言的文本,输出均是中文。

3. 谷歌翻译

 url_google = 'http://translate.google.cn'
reg_text = re.compile(r'(?<=TRANSLATED_TEXT=).*?;')
user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' \
r'Chrome/44.0.2403.157 Safari/537.36' def translateGoogle(text, f='ja', t='zh-cn'):
values = {'hl': 'zh-cn', 'ie': 'utf-8', 'text': text, 'langpair': '%s|%s' % (f, t)}
value = urllib.parse.urlencode(values)
req = urllib.request.Request(url_google + '?' + value)
req.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(req)
content = response.read().decode('utf-8')
data = reg_text.search(content)
result = data.group().strip(';').strip('\'')
print(result)

和上面两种方法一样,采用的是访问网页的形式来进行翻译。

还有一种是利用python谷歌翻译模块Translator:

 def translateGoogle2(text):
result = translator.translate(text)
print(result)

4. 测试代码

测试过程:

翻译5个字串为一个小的单位,输出消耗时间;

循环10次为一个大的单位,输出消耗时间;

对不同的语言字串和循环次数做过多次测试,发现情况基本类似,所以这里选择了10次。

 text_list = ['こんにちは', 'こんばんは', 'おはようございます', 'お休(やす)みなさい', 'お元気(げんき)ですか']

 time_baidu =
time_youdao =
time_google =
time_google2 = for i in list(range(, )):
time1 = time.time()
for text in text_list:
translateBaidu(text)
time2 = time.time()
print('百度翻译第%s次时间:%s' % (i, time2 - time1))
time_baidu += (time2 - time1) time1 = time.time()
for text in text_list:
translateYoudao(text)
time2 = time.time()
print('有道翻译第%s次时间:%s' % (i, time2 - time1))
time_youdao += (time2 - time1) time1 = time.time()
for text in text_list:
translateGoogle(text)
time2 = time.time()
print('谷歌翻译第%s次时间:%s' % (i, time2 - time1))
time_google += (time2 - time1) time1 = time.time()
for text in text_list:
translateGoogle2(text)
time2 = time.time()
print('谷歌2翻译第%s次时间:%s' % (i, time2 - time1))
time_google2 += (time2 - time1) print('百度翻译时间:%s' % (time_baidu / ))
print('有道翻译时间:%s' % (time_youdao / ))
print('谷歌翻译时间:%s' % (time_google / ))
print('谷歌2翻译时间:%s' % (time_google2 / ))

5. 结果分析

日语字串原意为['你好', '晚上好', '早上好', '晚安', '您还好吧']。

测试代码输出结果:

您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第1次时间:0.5849709510803223
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第1次时间:0.46173906326293945
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第1次时间:3.84399676322937
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第1次时间:6.819758892059326
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第2次时间:0.4968142509460449
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第2次时间:0.3870818614959717
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第2次时间:3.5689375400543213
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第2次时间:6.108794450759888
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第3次时间:0.4832003116607666
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第3次时间:0.40560245513916016
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第3次时间:3.875128984451294
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第3次时间:5.547708034515381
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第4次时间:0.4904344081878662
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第4次时间:0.3860180377960205
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第4次时间:3.5466465950012207
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第4次时间:7.052653551101685
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第5次时间:0.4754292964935303
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第5次时间:0.37929368019104004
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第5次时间:3.503594160079956
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第5次时间:4.944894552230835
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第6次时间:0.4637324810028076
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第6次时间:0.3679838180541992
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第6次时间:3.4939000606536865
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第6次时间:4.786132335662842
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第7次时间:0.4783976078033447
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第7次时间:0.3760185241699219
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第7次时间:3.485666036605835
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第7次时间:6.591272592544556
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第8次时间:0.4756813049316406
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第8次时间:0.4083871841430664
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第8次时间:3.3123676776885986
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第8次时间:5.902927875518799
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第9次时间:0.46607208251953125
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第9次时间:0.5259883403778076
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第9次时间:3.919294834136963
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第9次时间:6.256660223007202
您好
晚上好
早上好!
请您休息。
您身体好吗?
百度翻译第10次时间:0.5158905982971191
你好
晚安
早上好。
您休息吧、)
好(身体)好吗?
有道翻译第10次时间:0.38652658462524414
您好
晚上好
早上好
看看你的假期(康)
小心(元气)是
谷歌翻译第10次时间:3.3273775577545166
你好
问候
问候
请休息
照顾 (玄龟) 吗?
谷歌2翻译第10次时间:6.155425071716309
百度翻译时间:0.4930623292922974
有道翻译时间:0.4084639549255371
谷歌翻译时间:3.5876910209655763
谷歌2翻译时间:6.016622757911682

从打印的内容分析,耗时情况为有道<百度<谷歌<谷歌2,准确度情况为百度>有道>谷歌>谷歌2。

速度先不管,对后面两个文本的翻译结果,谷歌的准确度是较低的,网页版的翻译结果为:

其实像有道或百度,5条字串耗时400毫秒左右,对于大量数据是不太可取的。如20万条数据,需要约4.4个小时。

所以,如果你知道python中有更好的翻译方法,欢迎分享。或许,这种大量数据的翻译操作用其他语言实现比较合适?

6. 改进 & 感谢

谷歌翻译,灿烂千阳建议日语->英语->中文的顺序,结果的准确度改进了很多(只是多了一步,速度下降了些);

耗时问题,codegay提出多线程方案,可以将速度提升几倍,取决于线程或服务器的个数;

具体改进的代码就不贴出来了,在原来的基础上做调整即可。

Python有哪些好用的语言翻译方法的更多相关文章

  1. 第九篇:在SOUI中使用多语言翻译

    为UI在不同地区显示不同的语言是产品国际化的一个重要要求. 在SOUI中实现了一套类似QT的多语言翻译机制:布局XML不需要调整,程序代码也不需要调整,只需要为不同地区的用户提供不同的语言翻译文件即可 ...

  2. 1.1 Python是一种什么样的语言

    小时不识月,呼作白玉盘.很多人习惯地说Python不过是一种脚本语言而已,实际上这种说法是非常不准确的,完全不能体现出Python的强大.严格来说,Python是一门跨平台.开源.免费的解释型高级动态 ...

  3. (2)esp8266多国语言翻译系统

    http://bbs.mydigit.cn/simple/?t2649513.html 这个想法不错 原来只是想用esp8266搞一个百度的多国语言翻译系统出来的,只是为了尝试如何调用各种web ap ...

  4. sap scriptfom 多语言翻译

    在某项目中,因为客户上线较早,非常多打印程序的form是由scriptform制做,又因为美国工厂要上线.免不了对scriptform进行多语言翻译.以下是对当中的一个交货单打印进行的多语言翻译,分享 ...

  5. 深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然

    from:https://36kr.com/p/5103044.html 到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务.个人助理将变的更加智能,它是打造这种功能的切入 ...

  6. Java程序员的现代RPC指南(Windows版预编译好的Protoc支持C++,Java,Python三种最常用的语言,Thrift则支持几乎主流的各种语言)

    Java程序员的现代RPC指南 1.前言 1.1 RPC框架简介 最早接触RPC还是初学Java时,直接用Socket API传东西好麻烦.于是发现了JDK直接支持的RMI,然后就用得不亦乐乎,各种大 ...

  7. python是强类型还是弱类型语言

    几句话了解python特性 Python 是强类型的动态脚本语言 好多人对python到底是强语言类型还是弱语言类型存在误解,其实,是否是强类型语言只需要一句话就可以判别, 强类型:不允许不同类型相加 ...

  8. 重大改革!Python,最接近人工智能的语言~将被加入高考科目!

    就在前几天,和一位浙江省高校的信息技术老师聊天,我得到了一个震惊的消息: 明年,浙江省信息技术教材将不会在使用晦涩难懂的VB语言,而是改学更简单易懂的Python语言.也就是说, Python语言将纳 ...

  9. Python 内编写类的各种技巧和方法

    Python 内编写类的各种技巧和方法 简介 有关 Python 内编写类的各种技巧和方法(构建和初始化.重载操作符.类描述.属性访问控制.自定义序列.反射机制.可调用对象.上下文管理.构建描述符对象 ...

随机推荐

  1. IEnumerable<T>和IQueryable<T>

    建议29.区别LINQ查询中的IEnumerable<T>和IQueryable<T> LINQ查询方法一共提供了两类扩展方法,在System.Linq命名空间下,有两个静态类 ...

  2. 商城项目实战 | 1.1 Android 仿京东商城底部布局的选择效果 —— Selector 选择器的实现

    前言 本文为菜鸟窝作者刘婷的连载."商城项目实战"系列来聊聊仿"京东淘宝的购物商城"如何实现. 京东商城的底部布局的选择效果看上去很复杂,其实很简单,这主要是要 ...

  3. 频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比

    最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...

  4. 利用Apache POI 实现简单的Excel表格导出

    1.利用POI API实现简单的Excel表格导出 首先假设一个学生实体类: package com.sun.poi.domain; import java.io.Serializable; impo ...

  5. 【算法系列学习】Dijkstra单源最短路 [kuangbin带你飞]专题四 最短路练习 A - Til the Cows Come Home

    https://vjudge.net/contest/66569#problem/A http://blog.csdn.net/wangjian8006/article/details/7871889 ...

  6. 《JavaScript面向对象编程指南(第2版)》读书笔记(二)

    <JavaScript面向对象编程指南(第2版)>读书笔记(一) <JavaScript面向对象编程指南(第2版)>读书笔记(二) 目录 一.基本类型 1.1 字符串 1.2 ...

  7. OC中的单例

    概念 单例模式的意图是类的对象称为系统中唯一的实例,提供一个访问点,供客户类共享资源 什么情况下使用单例 )类只能由一个实例,而且必须从一个为人熟知的访问点对其进行访问,比如工厂方法 )这个唯一的实例 ...

  8. ListView控件详解

    ListView是个较为复杂的控件   1.定义 把它拽进来,系统会自动在Designer.cs里添加一个  this.listView1 = new System.Windows.Forms.Lis ...

  9. Java 7之基础 - 强引用、弱引用、软引用、虚引用

    1.强引用(StrongReference) 强引用是使用最普遍的引用.如果一个对象具有强引用,那垃圾回收器绝不会回收它.如下: Object o=new Object();   //  强引用 当内 ...

  10. 关于股票最佳买卖时机的lintcode代码

    class Solution {public:    /**     * @param prices: Given an integer array     * @return: Maximum pr ...