Python+Webdriver写脚本时,对一些输入框赋值会涉及到输入中文,这时需要在中文前加u 举个例子,在用百度搜索时,要在搜索输入框内输入值, 我用的编码格式是utf-8,向输入框内输入值是:driver.find_element_by_id("kw1").send_keys("代码") 运行程序,程序报错,且输入框内值仍然为空 然后去录制程序查看,发现录制的程序结果为.send_keys(u"代码") 在自己写的脚本里加上u,运行程序,搜…
1.字符串前加 u 例:u"我是含有中文字符组成的字符串." 作用: 后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码. 2.字符串前加 r 例:r"\n\n\n\n” # 表示一个普通生字符串 \n\n\n\n,而不表示换行了. 作用: 去掉反斜杠的转移机制. (特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等. ) 应用: 常用于正则表达式,…
直接在python中输入中文的字符串会报编译错误SyntaxError: Non-ASCII character,因为python文件默认编码方式是ASCII.如果想要打印中文字符,有两种方式: 1.在文件第一行加入# -*- coding: UTF-8 –*-,修改文件的默认编码方式.然后直接在python 文件编辑中文字符串即可,例如:string = “中文” 2. 将需要打印的中文字符转化成unicode编码并且加上u,例如要打印“我们”,则写成u“\u6211\u4eec” print…
我明明在编码前就加上了# -*- coding: UTF-8 -*-可是运行时还是出错了, # -*- coding: UTF-8 -*- 这句是告诉python程序中的文本是utf-8编码,让python可以按照utf-8读取程中文前加u就是告诉python后面的是个unicode编码,存储时按unicode格式存储. 参考 http://www.cnblogs.com/ymy124/archive/2012/06/23/2559282.html…
背景 公司有一个数据处理线,上面的数据经过不同环境处理,然后上线到正式库.其中一个环节需要将数据进行处理然后导入到另外一个库(Sql Server).这个处理的程序是老大用python写的,处理完后进入另外一个库后某些字段出现了乱码. 比如这个字符串:1006⁃267X(2020)02⁃0548⁃10 另外一个库变成:1006?267X(2020)02?0548?10 线上人员反馈回来后老大由于比较忙,一直没有排查,然后我问了下估计是什么原因.老大说他python里面转了utf8,可能是编码问题…
举个例子 >>> s = u'\u6ce8\u91ca' >>> s u'\u6ce8\u91ca' >>> print s 注释 >>> print type(s) <type 'unicode'> >>> print s.encode('gbk') 注释 字符串前加u表示为unicode编码,而当前文本的unicode编码 可以设定, 比如utf-8编码就是第一行加上: # -*- coding: u…
1.字符串前加 u 例:u"我是含有中文字符组成的字符串." 作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码. PS:不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行.一般英文字符在使用各种编码下,,基本都可以正常解析, 所以一般不带u.但是中文有事会出现问题,就要想以前在学校上机敲代码时候一样,优盘一插,源码一拷贝,一打开,中文部分全成框框乱码了...贼尴尬... 2.字符串前加 r 例:r&…
在打开文件的时候open(r'c:\....') 加r和不加''r是有区别的 'r'是防止字符转义的 如果路径中出现'\t'的话 不加r的话\t就会被转义 而加了'r'之后'\t'就能保留原有的样子 在字符串赋值的时候 前面加'r'可以防止字符串在时候的时候不被转义 原理是在转义字符前加'\' s='\\t' print(s) s=r'\\t' print(s)…
转自:https://www.cnblogs.com/arkenstone/p/6961453.html opencv3.2将中文输出到图片上 opencv自带的putText函数无法输出utf8类型的字符,因此无法将中文打印到图片上.用这篇文章的freetype可以实现中文输出,但是需要将字符解码转码比较麻烦,而Pillow的Image函数输出中文则相对容易些,因此这里的做法是现将图片从从cv2格式转到PIL格式,加上中文后再转成cv2格式输出. 1. 下载中文字体库 这里可以参考之前matp…
Python中,u表示unicode string,表示使用unicode进行编码,没有u表示byte string,类型是str,在没有声明编码方式时,默认ASCI编码.如果要指定编码方式,可在文件顶部加入类似如下代码: # -*- coding: utf-8 -*- utf-8是一种支持中文的编码格式. 字母前加r表示raw string,也叫原始字符串常量.一般用在一下两个方面: 1.正则表达式 用于处理正则表达式时,规避反斜杠的转义 2.系统路径 如下面的路径,使用r就防止了\t的转义…
python 清洗中文文件 需要用到的两个链接: 1,unicode编码转换器 http://www.bangnishouji.com/tools/chtounicode.html 2,Python匹配中文的正则表达式 http://www.jb51.net/article/83975.htm # -*- coding:utf-8 -*- import re import os ''' python3.5 存在bug,清洗前先清理如下的链接: img src="//p3.pstatp.com/l…
第一节 环境搭建准备工具如下:-------------------------------------------------------------下载 python[python 开发环境]http://python.org/getit/下载 setuptools [python 的基础包工具]http://pypi.python.org/pypi/setuptools下载 pip [python 的安装包管理工具]https://pypi.python.org/pypi/pip-----…
准备工作 主要用到Python的两个第三方库 jieba:中文分词工具 wordcloud:python下的词云生成工具 步骤 准备语料库,词云图需要的背景图片 使用jieba进行分词,去停用词,词频统计等 使用wordcloud进行词频展示 主要代码 import jieba jieba.load_userdict('userdict.txt') # 加载自定义词典 sentence_depart = jieba.cut(sentence) # 分词 stop_words = stop_wor…
今天在工作中遇到这样一个问题(工作环境为Python2.7.1),需要将一个字典中字符串形态的Unicode类型的汉字转换成中文,随便总结一下: 1.unicode转中文 old = u'\u4e2d\u56fd' print old.encode(encoding='utf-8') >>>>> 中国 2.str形态的unicode转中文 old = '\\u9690\\u79c1\\u7a83\\u53d6' print old.encode('utf-8').decode…
中文编码问题是用中文的程序员经常头大的问题,在python下也是如此,那么应该怎么理解和解决python的编码问题呢? 我们要知道python内部使用的是unicode编码,而外部却要面对千奇百怪的各种编码,比如作为中国程序经常要面对的gbk,gb2312,utf8等,那这些编码是怎么转换成内部的unicode呢? 首先我们先看一下源代码文件中使用字符串的情况.源代码文件作为文本文件就必然是以某种编码形式存储代码的,python默认会认为源代码文件是asci编码,比如说代码中有一个变量赋值: s…
编码问题,一直是使用python2时的一块心病.几乎所有的控制台输入输出.IO操作和HTTP操作都会涉及如下的编码问题: UnicodeDecodeError:‘ascii’codec can’t decodebyte0xc4inposition10:ordinalnotinrange(128) 这究竟是是个什么东西?!有时稀里糊涂地用一坨encode(),decode()之类的函数让程序能跑对了,可是下次遇到非ASCII编码时又悲剧了. 那么Python 2.x中的字符串究竟是个什么呢? 基本…
参考:什么是字符编码? 参考:Unicode 和 UTF-8 有何区别? 参考:python中文decode和encode转码 一.相关说明 Python 中关于字符串的操作只限于英文字母,当进行中文字符的操作的时候就会报错,以下将相关操作方法进行展示. 写在前面:如何获得系统的默认编码 ? >>> import sys >>> print sys.getdefaultencoding() ascii 通过如下代码查询不同的字符串所使用的编码,具体操作详见:用chard…
今天发现用securecrt登陆时,gcc编译出错时会出现乱码,但直接在主机的窗口界面下用Shell编译却没有乱码.查看了一下当时的错误描述,发现它的引号是中文引号,导致在SecureCRT中显示出错: before numeric constant 在网上查了一下,可以通过修改LC_CTYPE=zh_CN.GBK解决这个问题,具体的方法有两个: 1. 通过export命令修改LC_CTYPE变量的值 tianfang > export LC_CTYPE=zh_CN.GBK    tianfan…
在字符串前加一个L作用:    如 L"我的字符串" 表示将ANSI字符串转换成unicode的字符串,就是每个字符占用两个字节.    strlen("asd") = 3;     strlen(L"asd") = 6;…
python代码文件的编码 py文件默认是ASCII编码,中文在显示时会做一个ASCII到系统默认编码的转换,这时就会出错:SyntaxError: Non-ASCII character.需要在代码文件的第一行或第二行添加编码指示: # coding=utf-8 ##以utf-8编码储存中文字符 print '中文'像上面那样直接输入的字符串是按照代码文件的编码来处理的,如果用unicode编码,有以下2种方式: s1 = u'中文' #u表示用unicode编码方式储存信息 s2 = uni…
python的中文处理还是比较麻烦的,utf-8的字符串的长度是1-6个字符,一不小心就会从中截断,出现所谓的乱码.下面这个函数提供了,从一段utf-8编码的字符串中,截取固定长度的字串.ord(char)将字符转换称整数,根据utf-8的编码规则,确定每个utf-8的字占用几个字符,从而避免截断的情况.参数:  string  :utf-8字符串,如果是别的字符编码,请先转换成utf-8(推荐所有字符串和文件都用utf-8格式的)  length :字符数(注意不是中文字的个数) 题外话:py…
这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下 解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家 首先是代码 复制代码 代码如下: 在刚开始测试的时候发现,虽然输出是乱码的,但是写在文件里面却是正常的.然后在网上找了找解决办法才发现 print一个对象的逻辑:内部是调用对象的__str__得到对应的字符串的,此处对应的是soup的__str__…
前言:很多做测试的朋友的就知道,python+webdriver  可以做自动化测试,这对前端开发是非常有用的.  python 入门我就不讲了  ,推荐学习 廖雪峰老师的python入门3.5新版哈.http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000 在安装好python之后,就可以直接学习安装selenium了. 在安装selenium 之前,必须要先安装pip 环境,安装pip…
Sql语句varchar或nvarchar字段条件前加N的话是对这个字段进行Unicode编码, 这样做的目的是避免在这种字段中存入俄文.韩文.日文的情况下有可能会出现乱码. 但这样做也会有性能问题,举例如下: SELECT * FROM UserInfo WHERE Name = N'taiyonghai' 查询时会解析器会认为[人为因素优先],你加了N他会理解为你希望用编码后的结果作对比, 所以会先对数据表中的Name字段的[所有数据进行Unicode编码],再进行对比 SELECT * F…
目录 python与中文的那点事 1. utf-8/gbk/unicode/ASCII 2.各种编码之间的转换 3. 统计字符串中数字,字母,汉字的个数 python与中文的那点事 在学习python的过程中,发现在python2与python3中对中文的处理有所不同,所以这篇文章就来探讨一下这些不同 1. utf-8/gbk/unicode/ASCII   我们都知道,在计算机内部所有的信息都可以被表示成二进制的字符串,每一个二进制位有1和0两种状态,因此8位的二进制数可以表示256种状态,这…
今天补充一种文件上传的方法 主要是因为工作中使用SendKeys方法不稳定,具体方法见: Python WebDriver 文件上传(一) 这种方法直接通过命令行执行脚本时没有问题,可以成功上传,但是如果通过saltstack 远程控制执行时,SendKeys就定位不到窗口了. 所以采用这种新的方式来实现文件上传功能,并完美的解决了这个问题. 具体操作步骤如下: 1.下载工具 AutoIt及使用 AutoIt目前最新是v3版本,这是一个使用类似BASIC脚本语言的免费软件,它设计用于Window…
python爬虫中文乱码 前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实现爬虫,这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件 乱码未处理前部分代码 url = '要爬取的网页' r = requests.get(url, timeout=30) soup = BeautifulSoup(r.text, 'lxml') 乱码原因 我爬取的网页…
python webdriver自动化测试初步印象 以下示例演示启动firefox,浏览google.com,搜索Cheese,等待搜索结果,然后打印出搜索结果页的标题 from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.support.ui import WebDriverWait # available since 2.4.…
读写中文json )   输出中文的json. 通过使用 ensure_ascii=False,输出原有的语言文字.indent參数是缩进数量. 更改写文件格式 将上一步导出的 string 直接写文件会报错(可能仅仅在Python2.7中出现): UnicodeEncodeError: 'ascii' codec can't encode characters in position 1-9: ordinal not in range(128) 这是因为此处输出的一些ascii编码不支持,所以…
python listdir() 中文路径 中文文件夹 乱码 解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try: path = unicode(path, 'utf-8') # 经过编码处理 except: pass # python3 已经移除 unicode,而且默认是 utf8 编码,所以不用转 listdir(path) 这样,就算 path 下有中文的文件和文件夹,我们获得的结果是 utf-8 的…