day 18 - 2 正则与 re 模块练习

1、爬虫的例子

#爬虫的例子（方法一）

import re

import urllib,request import urlopen

def getPage(url):

    response = urlopen(url)

    return response.read().decode('utf-8')

def parsePage(s):

    ret = re.findall(

        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

       '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',s,re.S)

    return ret

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url)

    ret = parsePage(response_html)

    print(ret)

count = 0

for i in range(10):   # 10页

    main(count)

    count += 25

# url 从网页上把代码搞下来

# bytes decode ——> utf-8 网页内容就是我的待匹配字符串

# ret = re.findall(正则，带匹配的字符串)  #ret是所有匹配到的内容组成的列表

#爬虫的例子（方法一）

import requests

import re

import json

def getPage(url):

    response=requests.get(url)

    return response.text

def parsePage(s):

    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)

    for i in ret:

        yield {

            "id":i.group("id"),

            "title":i.group("title"),

            "rating_num":i.group("rating_num"),

            "comment_num":i.group("comment_num"),

        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num

    response_html=getPage(url)

    ret=parsePage(response_html)

    print(ret)

    f=open("move_info7","a",encoding="utf8")

    for obj in ret:

        print(obj)

        data=json.dumps(obj,ensure_ascii=False)

        f.write(data+"\n")

if __name__ == '__main__':

    count=0

    for i in range(10):

        main(count)

        count+=25

1、计算器

#计算下面式子

a = '1 - 2 * ( ( 6 0 -3 0  +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )'

import re

def format(new_equation):

    new_equation = new_equation.replace('+-','-')

    new_equation = new_equation.replace('--', '+')

    return new_equation

def cal(val_son):

    '''加减乘除的计算'''

    #print(new_val)

    if '/' in val_son:

        a,b = val_son.split('/')

        return str(float(a)/float(b))

    elif '*' in val_son:

        a,b = val_son.split('*')

        return str(float(a)*float(b))

def no_brackets(val):

    '''去括号'''

    new_val = val.strip('()')

    while True:

        ret = re.search('\d+\.?\d*[*/]-?\d+\.?\d*',new_val) #匹配第一个乘除

        if ret: #说明 表达式中海油乘除法

            val_son = ret.group()  #子表达式

            ret = cal(val_son)

            new_val = new_val.replace(val_son,ret)

            new_val = format(new_val)

        else:

            ret = re.findall('-?\d+\.?\d*',new_val)

            sum =

            for i in ret:

                sum += float(i)

            return str(sum)

def func(new_equation):

    while True:

        val = re.search('\([^()]+\)',new_equation)

        if val:

            val = val.group()

            ret = no_brackets(val)

            new_equation = new_equation.replace(val,ret)

            new_equation = format(new_equation)

        else:

            return no_brackets(new_equation)

a = input("请输入要计算的式子>>>")

new_equation = a.replace(' ','')

print(func(new_equation))

day 18 - 2 正则与 re 模块练习的更多相关文章

day 18 - 1 正则与 re 模块
正则表达式官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个 “规则字符串”,这个 “规则字符串” 用来表达对字符串的一种过滤逻辑. 我 ...
day19 正则，re模块
http://www.cnblogs.com/Eva-J/articles/7228075.html 所有常用模块的用法正则的规则: 在一个字符组里面枚举合法的所有字符,字符组里面的任意一个字符和 ...
正则，re模块
一.正则表达式(精准匹配) 匹配字符串内容的一种规则二.字符组在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示常见字符组格式如下:[0123456789],[0-9],[ ...
python正则以及collections模块
正则一.认识模块什么是模块:一个模块就是一个包含了python定义和声明的文件,文件名就是加上.py的后缀,但其实import加载的模块分为四个通用类别 : 1.使用python编写的代码(.p ...
Python 正则处理_re模块
正则表达式动机文本处理成为计算机常见工作之一对文本内容搜索,定位,提取是逻辑比较复杂的工作为了快速方便的解决上述问题,产生了正则表达式技术定义文本的高级匹配模式, 提供搜索, 替换, 本质 ...
Learning-Python【18】：Python常用模块（1）—— time、datetime、randrom
time 模块:与时间相关的功能的模块在 Python 中,时间分为三种: 1.时间戳:是一个时间的表示,根据不同的语言,可以是整数或浮点数,是从1970年1月1日0时0分0秒到现在经历的秒数 2. ...
day23 正则，re模块
一. 简谈正则表达式元字符 . 除了换行符外任意字符. \w 数字.字母.下划线 \s 空白符 \b 单词的末尾 \d 数字 \n 匹配换行符 \t 匹配制表符 \W 除了数字. 字母下划线 \D ...
python 基础之第十二天（re正则，socket模块）
In [14]: 'hello-wold.tar.gz'.split('.') Out[14]: ['hello-wold', 'tar', 'gz'] In [15]: import re In [ ...
Python正则、re模块
正则的概念 findall match search 方法元字符的用法和作用正则表达式概念正则表达式是对字符串操作的一种逻辑公式,就是对字符串的一种过滤可以判断是 ...

随机推荐

process.nextTick
回调函数同步执行 function asyncFake(data, callback) { if(data === 'foo') { callback(true); }else{ callback(f ...
你不需要 jQuery，但你需要一个 DOM 库
写这篇文章的目的,一方面是介绍一下自己编写的模块化 DOM 库 domq.js,另一方面是希望大家对 jQuery 有一个正确的认识,即使 jQuery 已经逐渐退出历史舞台,但是它的 API 将会以 ...
类 Calendar
简介 Java.util.Calendar是日历类,在Date后出现,替换掉了许多Date的方法.该类将所有可能用到的时间信息封装为静态成员变量,方便获取.日历类就是方便获取各个时间属性的.注意Cal ...
JS 设计模式七 -- 模板方法模式
概念模板方法模式是一直昂只需使用继承就可以实现的非常简单的模式. 模板方法模式由两部分结构组成,第一部分是抽象父类,第二部分是具体实现的子类. 实现模板方法模式一般的实现方式为继承. // 体育运 ...
php密码对称encrypt加密
/** * 对用户的密码进行加密 * @param $password * @param $encrypt //传入加密串,在修改密码时做认证 * @return array/password */ ...
MySQL数据库日志文件（redo与undo）
+++++++++++++++++++++++++++++++++++++++++++标题:MySQL数据库日志文件时间:2019年2月25日内容:MySQL数据库日志文件(redo日志和undo日志 ...
Ceva定理的四种证明方法
${\color{Teal} {Ceva定理}}$设$D.E.F$依次为三角形ABC的边$AB.BC.CA$的内点,记 $λ$=(A,B,D),$μ$=(B,C,E),$v$=(C,A,F) 求证:三 ...
CentOS7切换源
1.备份 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup 2.下载新的CentOS-Base ...
jsp学习（1）jsp请求过程和生命周期
一.服务器处理jsp请求的过程: 以下步骤表明了 Web 服务器是如何使用JSP来创建网页的: 1.浏览器发送一个 HTTP 请求给服务器. 2.Web 服务器识别出这是一个对 JSP 网页的请求,并 ...
特殊计数序列——第一类斯特林（stirling）数
第一类斯特林数在这里我因为懒所以还是用$S(n,m)$表示第一类斯特林数,但一定要和第二类斯特林数区分开来递推式 $S(n,m)=S(n-1.m-1)+S(n-1,m)*(n-1)$ 其中 ...

day 18 - 2 正则与 re 模块练习

day 18 - 2 正则与 re 模块练习的更多相关文章

随机推荐

热门专题