Python的文本数据
字符串的一些方法!
1.text.endswith(".jpg") 如果字符串是以给定子字符串结尾的,就返回值True。
2. text.upper(): 返回一个被转换为全大写字母的字符串的副本。
3.text.lower(): 返回一个被转换为全小写字母的字符串副本。
4.text.replace("tomorrow","Tuesday"): 返回一个字符串的副本,其中的某个子字符串全被替换为另一个子字符串。
5.text.strip(): 返回一个去除开始空格和结尾空格的字符串副本。
6. text.find("python"): 当找到给定子字符串时,返回子字符串的第一个字符索引值。
7.text.startswith("<HTML>") 如果字符串是以给定子字符串开头的,就返回True。
8.text[a,b] 取出字符串中以a索引值开始到b索引值结束但不包括b索引值所对应的字符的子字符串。
import urllib.request
page=urllib.request.urlopen("http://www.baidu.com")
text=page.read().decode("utf8")
print(text)
  
加入取出子字符串的方法之后
import urllib.request
page=urllib.request.urlopen("http://www.baidu.com")
text=page.read().decode("utf8")
price=text[234:238]
print(price)
  
其中上图"#293的索引值分别为:234,235,236,237,238但是上述的代码所取出的结果为:

取出给定子字符串后的子字符串
import urllib.request
page=urllib.request.urlopen("http://www.baidu.com")
text=page.read().decode("utf8")
where=text.find('="')
start_of_price=where+2
end_of_price=start_of_price+4
price=text[start_of_price:end_of_price]
print(price)
  

取出特定字符之后转换为float的类型与4.47进行比较,如果小于4.47就输出:Buy!
import urllib.request price=99.99 while price>4.47:
page=urllib.request.urlopen("http://www.baidu.com")
text=page.read().decode("utf8") where=text.find('="') start_of_price=where+2
end_of_price=start_of_price+4 price=float(text[start_of_price:end_of_price])
print("Buy!")
Python的内置时间库
python库文档:time
time.clock() 用秒来表示的当前时间,使用浮点数格式。
time.daylight() 如果你当前不处在夏令时,就返回0.
time.gmtime() 给出UTC时间的当前日期和时刻(不受你所在时区的影响!)。
time.localtime() 给出当前本地时间(这会受到你所在时区的影响)。
time.sleep(secs) 在给定的秒数时间内休息,不做任何事。
time.time() 给出1970年1月1日算起到当前的秒数。
time.timezone() 给出你所在时区和UTC(伦敦)时区之间的相差的小时数。
import urllib.request
import time price=99.99 while price>4.47:
time.sleep(900)
page=urllib.request.urlopen("http://www.baidu.com")
text=page.read().decode("utf8") where=text.find('="') start_of_price=where+2
end_of_price=start_of_price+4 price=float(text[start_of_price:end_of_price])
print("Huy!")
总结
s代表字符串。
s[4] 获得s字符串中的第5个字符。
s[6:12] 获得字符串s中的一个子字符串。(直到索引值为12的字符,但是不包括!)
s.find() 用于搜索字符串。
s.upper() 把字符串转化为全大写字母。
float() 把字符串转换成带有十进制小数的数字,也就是浮点数。
+ “加法” 操作符
> “大于” 操作符
urllib。request库用来和web沟通
time 库用于和日期/时间有关的工作!
Python的文本数据的更多相关文章
- python处理文本数据
		
处理文本数据,主要是通过Seris的str访问.遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN. str是Seris的方法,DataFrame不能直接使用,但是通过索引选择Dat ...
 - 用python处理文本数据 学到的一些东西
		
最近写了一个python脚本,用TagMe的api标注文本,并解析返回的json数据.在这个过程中遇到了很多问题,学到了一些新东西,总结一下. 1. csv文件处理 csv是一种格式化的文件,由行和列 ...
 - python读取文本数据某一列
		
import codecs f = codecs.open('test1 - 副本.txt', mode='r', encoding='utf-8') # 打开txt文件,以'utf-8'编码读取 l ...
 - Python文本数据互相转换(pandas and win32com)
		
(工作之后,就让自己的身心都去休息吧) 今天介绍一下文本数据的提取和转换,这里主要实例的转换为excel文件(.xlsx)转换world文件(.doc/docx),同时需要使用win32api,同py ...
 - [Python] 糗事百科文本数据的抓取
		
[Python] 糗事百科文本数据的抓取 源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
 - Python之读写文本数据
		
知识点不多 一:普通操作 # rt 模式的 open() 函数读取文本文件 # wt 模式的 open() 函数清除覆盖掉原文件,write新文件 # at 模式的 open() 函数添加write ...
 - python多种格式数据加载、处理与存储
		
多种格式数据加载.处理与存储 实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...
 - python matplotlib plot 数据中的中文无法正常显示的解决办法
		
转发自:http://blog.csdn.net/laoyaotask/article/details/22117745?utm_source=tuicool python matplotlib pl ...
 - 如何使用 scikit-learn 为机器学习准备文本数据
		
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模. 我们需要解析文本,以删除被称为标记化的单词.然后,这些词还需要被编码为整型或浮点型,以用作 ...
 
随机推荐
- iOS上让按钮文本左对齐问题
			
一,问题分析 1.在做历史记录视图的时候,由于让键盘退出后才能触发表格的 didselect 那个代理方法,也就是得点两下才触发,而表格中的按钮点一下就可以立即响应. 2.于是我就有了用按钮事件代替 ...
 - java枚举使用详解
			
在实际编程中,往往存在着这样的“数据集”,它们的数值在程序中是稳定的,而且“数据集”中的元素是有限的. 例如星期一到星期日七个数据元素组成了一周的“数据集”,春夏秋冬四个数据元素组成了四季的“数据集” ...
 - C++的STL中vector内存分配方法的简单探索
			
STL中vector什么时候会自动分配内存,又是怎么分配的呢? 环境:Linux CentOS 5.2 1.代码 #include <vector> #include <stdio ...
 - 处理海量数据的高级排序之——堆排序(C++)
			
在面对大数据量的排序时(100W以上量级数据),通常用以下三种的排序方法效率最高O(nlogn):快速排序.归并排序,堆排序.在这个量级上,其他冒泡,选择,插入等简单排序已经无法胜任,效率极低,跟前面 ...
 - [zt]系统中常用MIPS指令
			
指令 功能 应用实例 LB 从存储器中读取一个字节的数据到寄存器中 LB R1, 0(R2) LH 从存储器中读取半个字的数据到寄存器中 LH R1, 0(R2) LW 从存储器中读取一个字的数据到寄 ...
 - jQuery 插件autocomplete
			
jQuery 插件autocomplete 自动加载 参考: http://www.cnblogs.com/Peter-Zhang/archive/2011/10/22/2221147.html ht ...
 - 20145337 《Java程序设计》第二周学习总结
			
20145337 <Java程序设计>第二周学习总结 教材学习内容总结 Java可分基本类型与类类型: 基本类型分整数(short.int.long).字节(byte).浮点数(float ...
 - C# Datatable排序
			
在C#中要对Datatable排序,可使用DefaultView的Sort方法.先获取Datatable的DefaultView,然后设置 得到的Dataview的sort属性,最后用视图的ToTab ...
 - readyState0 1 2 3 4..
			
0:请求未初始化(还没有调用 open()). 1:请求已经建立,但是还没有发送(还没有调用 send()). 2:请求已发送,正在处理中(通常现在可以从响应中获取内容头). 3:请求在处理中:通常响 ...
 - Java MD5加密算法学习
			
MD5,即"Message-Digest Algorithm 5(信息-摘要算法)",它由MD2.MD3.MD4发展而来的一种单向函数算法(也就是HASH算法),它是国际著名的公钥 ...