正则表达式爬虫应用(校花网)

 1 import requests
2 import re
3 import json
4 #定义函数返回网页的字符串信息
5 def getPage_str(url):
6 page_string=requests.get(url)
7 return page_string.text
8
9 hua_dic={}
10 def run_re(url):  #爬取名字、学校和喜爱的人数
11 hua_str=getPage_str(url)
12 hua_list=re.finditer('<span class="price">(?P<name>.*?)</span>.*?class="img_album_btn">(?P<school>.*?)</a>.*?<em class.*?>(?P<like>\d+?)</em>',hua_str,re.S)
13 for n in hua_list:    #将名字、学校和喜爱的人数写入字典
14 hua_dic[n.group('name')]=[n.group('school'),n.group('like')]
15
16 def url():  #获取url地址
17 for i in range(0,43):
18 urls="http://www.xiaohuar.com/list-1-%s.html" %i
19 yield urls
20 #执行爬取内容
21 for i in url():
22 run_re(i)
23
24 print(hua_dic)
25
26 # with open('aaa','w',encoding='utf-8') as f:
27 # f.write(str(hua_dic))
28 data=json.dumps(hua_dic)  #将爬取的字典进行序列化操作
29 print(data)
30 f=open('hua.json','a')
31 f.write(data)
32 #反序列化
33 # f1=open('hua.json','r')
34 # new_data=json.load(f1)
35 # print(new_data)

configparser模块

该模块适用于linux下conf配置文件的格式与windows ini文件类似,可以包含一个或多个节(section),每个节可以有多个参数(键=值)。

如:

[DEFAULT]
ServerAliveInterval = 45
Compression = yes
CompressionLevel = 9
ForwardX11 = yes [bitbucket.org]
User = hg [topsecret.server.com]
Port = 50022
ForwardX11 = no

生成文件示例:

 1 import configparser
2
3 config = configparser.ConfigParser()  #定义一个对象
4
5 config["DEFAULT"] = {'ServerAliveInterval': '45',  #定义DEFAULT节的键值对信息,DEFAULT节是一个特殊的节,在其他的节里都包含DEFAULT节的内容
6 'Compression': 'yes',
7 'CompressionLevel': '9',
8 'ForwardX11':'yes'
9 }
10
11 config['bitbucket.org'] = {'User':'hg'}  #普通的节
12
13 config['topsecret.server.com'] = {'Host Port':'5022','ForwardX11':'no'}  #普通的节
14
15 with open('example.ini', 'w') as configfile:  #写入文件
16 config.write(configfile)

查找文件内容:

 1 import configparser
2
3 config = configparser.ConfigParser()
4 #--------------------------查找文件内容,基于字典的形
5 print(config.sections()) # []
6 config.read('example.ini')
7 print(config.sections()) # ['bitbucket.org', 'topsecret.server.com']
8 print('bytebong.com' in config) # False
9 print('bitbucket.org' in config) # True
10
11 print(config['bitbucket.org']["user"]) # hg
12 print(config['DEFAULT']['Compression']) #yes
13 print(config['topsecret.server.com']['ForwardX11']) #no
14 print(config['bitbucket.org']) #<Section: bitbucket.org>
15 for key in config['bitbucket.org']: # 注意,有default会默认default的键
16 print(key)
17 print(config.options('bitbucket.org')) # 同for循环,找到'bitbucket.org'下所有键
18 print(config.items('bitbucket.org')) #找到'bitbucket.org'下所有键值对
19 print(config.get('bitbucket.org','compression')) # yes get方法取深层嵌套的值

subprocess模块

当我们需要调用系统的命令的时候,最先考虑的os模块。用os.system()和os.popen()来进行操作。但是这两个命令过于简单,不能完成一些复杂的操作,如给运行的命令提供输入或者读取命令的输出,判断该命令的运行状态,管理多个命令的并行等等。这时subprocess中的Popen命令就能有效的完成我们需要的操作。

subprocess模块允许一个进程创建一个新的子进程,通过管道连接到子进程的stdin/stdout/stderr,获取子进程的返回值等操作。
这个模块只一个类:Popen。
简单命令
1 import subprocess
2 # 创建一个新的进程,与主进程不同步 if in win:
3 s=subprocess.Popen('dir',shell=True)
4 # 创建一个新的进程,与主进程不同步 if in linux:
5 s=subprocess.Popen('ls')
6 s.wait() # s是Popen的一个实例对象,意思是等待子进程运行完后才继续运行
7 print('ending...')

带选项命令(win、linux一样)

1 import subprocess
2 subprocess.Popen('ls -l',shell=True)
3 #subprocess.Popen(['ls','-l'])

控制子进程

1 s.poll() # 检查子进程状态
2 s.kill() # 终止子进程
3 s.send_signal() # 向子进程发送信号
4 s.terminate() # 终止子进程
5 s.pid:子进程号

子进程输出流控制

可以在Popen()建立子进程的时候改变标准输入、标准输出和标准错误,并可以利用subprocess.PIPE将多个子进程的输入和输出连接在一起,构成管道(pipe):

 1 import subprocess
2 # s1 = subprocess.Popen(["ls","-l"], stdout=subprocess.PIPE)
3 # print(s1.stdout.read())
4 #s2.communicate()
5 s1 = subprocess.Popen(["cat","/etc/passwd"], stdout=subprocess.PIPE)
6 s2 = subprocess.Popen(["grep","0:0"],stdin=s1.stdout, stdout=subprocess.PIPE)
7 out = s2.communicate()
8 print(out)
9
10 s=subprocess.Popen("dir",shell=True,stdout=subprocess.PIPE)
11 print(s.stdout.read().decode("gbk"))

ubprocess.PIPE实际上为文本流提供一个缓存区。s1的stdout将文本输出到缓存区,随后s2的stdin从该PIPE中将文本读取走。s2的输出文本也被存放在PIPE中,直到communicate()方法从PIPE中读取出PIPE中的文本。
注意:communicate()是Popen对象的一个方法,该方法会阻塞父进程,直到子进程完成

python基础之正则表达式爬虫应用,configparser模块和subprocess模块的更多相关文章

  1. 十七. Python基础(17)--正则表达式

    十七. Python基础(17)--正则表达式 1 ● 正则表达式 定义: Regular expressions are sets of symbols that you can use to cr ...

  2. configparser模块,subprocess 模块,xlrd,xlwt ,xml 模块,面向对象

    1. configparser模块 2.subprocess 模块 3.xlrd,xlwt 4.xml 模块 5.面向对象 面向对象是什么? 是一种编程思想,指导你如何更好的编写代码 关注点在对象 具 ...

  3. [xml模块、hashlib模块、subprocess模块、os与sys模块、configparser模块]

    [xml模块.hashlib模块.subprocess模块.os与sys模块.configparser模块] xml模块 XML:全称 可扩展标记语言,为了能够在不同的平台间继续数据的交换,使交换的数 ...

  4. python重要模块之subprocess模块

    python重要模块之subprocess模块 我们经常要通过python去执行系统的命令或者脚本,系统的shell命令是独立于你的python进程之外的,每执行一条命令,就相当于发起了一个新的进程, ...

  5. Python开发基础-Day15正则表达式爬虫应用,configparser模块和subprocess模块

    正则表达式爬虫应用(校花网) import requests import re import json #定义函数返回网页的字符串信息 def getPage_str(url): page_stri ...

  6. python基础之正则表达式和re模块

    正则表达式 就其本质而言,正则表达式(或 re)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...

  7. Python基础之 正则表达式指南

    本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...

  8. Python 基础教程 —— 网络爬虫入门篇

    前言 Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年.自面世以后,Pytho ...

  9. python基础之正则表达式

    正则表达式语法 正则表达式 (或 RE) 指定一组字符串匹配它;在此模块中的功能让您检查一下,如果一个特定的字符串匹配给定的正则表达式 (或给定的正则表达式匹配特定的字符串,可归结为同一件事). 正则 ...

随机推荐

  1. 【MATLAB】画信号频谱的子函数

    输入信号序列和采样率,该子函数可以画出该信号的频谱图. function [f,spec,NFFT]=spec_fft_plot(sample,L,Fs) % 输入数据说明: % sample:信号序 ...

  2. rpm打包工具

    http://fedoraproject.org/wiki/How_to_create_an_RPM_package # rpm --showrc|grep _topdir -14: _builddi ...

  3. dell omsa管理工具

    dell服务器raid管理工具 lsiutil dell sas6i/r MegaCli dell prec omsa管理raid分区 显示物理硬盘信息 omreport storage pdisk ...

  4. C#多线程Thread

    在项目中经常用到线程Thread,先做个简单记录,后面再完善下,方便以后参考.本人技术有限,如有不同见解之处,欢迎博友批评指正. 执行的线程Thread分无参数的,一个参数,多个参数的.直接看代码吧. ...

  5. Excel操作之VLOOKUP函数

    1.作用 VLOOKUP函数是Excel中的一个纵向查找函数,它与LOOKUP函数和HLOOKUP函数属于一类函数,在工作中都有广泛应用,例如可以用来核对数据,多个表格之间快速导入数据等函数功能.功能 ...

  6. c++的bind1st()与bind2nd() 二元算子转一元算子

    bind1st()和bind2nd()是两个函数,用于将二元算子转成一元算子. 何谓二元算子? 比如< > =等等这些就是二元算子,即需要两个操作数的运算符. 何谓一元算子? 比如++ - ...

  7. sql:表中数据全部删除之后,重新插入时,从1开始增加

    数据库中设置了自增列,有时候需要清楚数据库从新录入数据.最常见的做法就是使用sql语句"delete 表明名"或是直接选中数据,然后删除数据.但是再次插入数据的时候,你就会发现自增 ...

  8. 怎样在 Ubuntu Linux 上安装 MySQL

    本教程教你如何在基于 Ubuntu 的 Linux 发行版上安装 MySQL.对于首次使用的用户,你将会学习到如何验证你的安装和第一次怎样去连接 MySQL. -- Sergiu MySQL 是一个典 ...

  9. HttpContext.RewritePath

    定义:使用给定路径重写 URL.就是可以跳转到指定的URL. 也可以做为伪静态的跳转.具体如下. 他的重载 ①新建一个页面,放两个链接到另一个页面,注意给的链接 ②在 global.asax 文件中 ...

  10. C#继承简介与规则

    一.C#继承简介 1. 类的层次结构 下面是一个类的层次结构图: 上图反映了鱼类的派生关系,其中最高层的实体往往具有最一般最普遍的特征,越下层的实体就越具体,并且下层包含了上层的特征.如果将上层的实体 ...