python3 re正则匹配数据获取案例

# coding=utf-8
import requests
import json
from retrying import retry
import re

class TyY:

　　def __init__(self):
　　　　self.url = ["http://www.tylaw.cn/cgi-bin/GLaw.dll?DispInfo&nid={}".format(i) for i in range(3723, 3752)]
　　　　self.headers = {
　　　　"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"
　　　　}

　　@retry(stop_max_attempt_number=3) # 设置最大请求连接数
　　def _parse_url(self, url):

　　　　response = requests.get(url, headers=self.headers, timeout=3)
　　　　assert response.status_code == 200
　　　　response.encoding = "gb2312"
　　　　return response.text

　　def parse_url(self, url):
　　　　try:
　　　　　　html = self._parse_url(url)
　　　　except:
　　　　　　html = None
　　　　return html

　　def get_content_list(self, html):
　　　　content_list = []
　　　　item = {}

　　　　item['name'] = re.findall(r"<p align='center' class='titlc'>.*?律师：(.*?)简介.*?</p>", html, re.S)[0] if len(re.findall(r"<p align='center' class='titlc'>.*?律师：(.*?)简介.*?</p>", html, re.S)) > 0 else None
　　　　item['email'] = re.findall(r"<div class='contc'>.*?【电子信箱】(.*?) </div>", html, re.S)[0] if len(re.findall(r"<div class='contc'>.*?【电子信箱】(.*?) </div>", html, re.S)) > 0 else None
　　　　content_list.append(item)

　　　　# print(item)
　　　　return content_list

　　def save_content(self, content_list):
　　　　with open("tyy.json", "a") as f:
　　　　　　for content in content_list:
　　　　　　　　json.dump(content, f, ensure_ascii=False)
　　　　　　　　f.write(',\n')

　　def run(self):
　　　　url_list = self.url
　　　　for url in url_list:
　　　　　　html = self.parse_url(url)
　　　　　　content_list = self.get_content_list(html)
　　　　　　self.save_content(content_list)

if __name__ == '__main__':
tyy = TyY()
tyy.run()

python3 re正则匹配数据获取案例的更多相关文章

Python3正则匹配re.split，re.finditer及re.findall函数用法详解
这篇文章主要介绍了Python3正则匹配re.split,re.finditer及re.findall函数用法,结合实例形式详细分析了正则匹配re.split,re.finditer及re.finda ...
python3 正则匹配[^abc]和(?!abc)的区别（把多个字符作为一个整体匹配排除）
目的:把数字后面不为abc的字符串找出来如1ab符合要求,2abc不符合要求 str = '1ab' out = re.match(r'\d+(?!abc)',str) str1 = '1abc' ...
python_way day18 html-day4， Django路由，（正则匹配页码，包含自开发分页功能），模板， Model(jDango-ORM) : SQLite，数据库时间字段插入的方法
python_way day18 html-day4 1.Django-路由系统 - 自开发分页功能 2.模板语言:之母板的使用 3.SQLite:model(jDango-ORM) 数据库时间字 ...
正则匹配<img src="xxxxxx" alt="" />标签的相关写法
1.(<img\ssrc[^>]*>) 2.content.replace(/<img [^>]*src=['"]([^'"]+)[^>]*&g ...
Python3中正则模块re.compile、re.match及re.search函数用法详解
Python3中正则模块re.compile.re.match及re.search函数用法 re模块 re.compile.re.match. re.search 正则匹配的时候,第一个字符是 r,表 ...
python中正则匹配之re模块
Python中正则表达式 re:re是提供正则表达式匹配操作的模块一.什么是正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某个模式匹配,Python 自1.5版本起 ...
正则匹配闭合HTML标签（支持嵌套）
任何复杂的正则表达式都是由简单的子表达式组成的,要想写出复杂的正则来,一方面需要有化繁为简的功底,另外一方面,我们需要从正则引擎的角度去思考问题.关于正则引擎的原理,推荐<Mastering R ...
正则匹配抓取input 隐藏输入项和 <td>标签内的内容
这里不多作解释了,只要提供方法,如果想了解正则匹配,就去百度. 第一条是,匹配出所有的隐藏输入域 $patern = "/<input(.*?)type=\"hidden\& ...
js正则匹配的一个日常应用
应用实例 1 /** 将段落中的 \n 转换为 <p></p>, 规范存储 */ 2 function formatParagraphForStore(val) { 3 var ...

随机推荐

705. New Distinct Substrings spoj（后缀数组求所有不同子串）
705. New Distinct Substrings Problem code: SUBST1 Given a string, we need to find the total number o ...
Array Partition I
Given an array of 2n integers, your task is to group these integers into n pairs of integer, say (a1 ...
nodejs+express+mongoose无法获取数据库数据问题解决
通过mongoose与mongodb进行操作.而mongoose是通过model来创建mongodb中对应的collection的,这样你通过如下的代码: mongoose.model('User', ...
angualrJs清除定时器
angualrJs清除定时器爬坑之路: 今天发现一个奇怪问题,放在自定义指令里边的定时器竟然在页面跳转之后,在另一个页面这个循环定时器还在执行,这肯定是不行的,会影响系统的性能. 我在angular里 ...
使用siege对web接口进行post方式的压力测试
为了达到压力测试的效果,需要申请一台线上机器,并且安装压力测试的工具siege. 安装新版siege.资料说yum安装的版本2.70对于post方式支持的不好,验证后发现请求可以正常发过去,但是打开d ...
压缩SQLServer数据库日志的一个存储过程
use master --注意,此存储过程要建在master数据库中 go if exists (select * from dbo.sysobjects where id = object_id(N ...
uvalive 2965 Jurassic Remains
https://vjudge.net/problem/UVALive-2965 题意: 给出若干个由大写字母组成的字符串,要求选出尽量多的字符串,使得每个大写字母出现的次数是偶数. 思路: 如果说我们 ...
简述static关键字、void与void *(void指针)、函数指针
static关键字1.修饰局部变量,延长局部变量的生命周期.使变量成为静态局部变量,在编译时就为变量分配内存,直到程序退出才释放存储单元.2.修饰全局变量,限制全局变量的使用范围为本文件中.全局变量默 ...
使用vim编写hexo文档，并用ultisnips/snipmates/snippets插件补全
作为一个vim使用者,编写markdown文档时若不能用vim这怎么能受的了! 下面是我编写markdown的时候用到的插件 Plugin 'Markdown'Plugin 'Markdown-syn ...
hibernate利用mysql的自增张id属性实现自增长id和手动赋值id并存
我们知道在mysql中如果设置了表id为自增长属性的话,insert语句中如果对id赋值(值没有被用到过)了,则插入的数据的id会为用户设置的值,并且该表的id的最大值会重新计算,以插入后表的id最大 ...

python3 re正则匹配数据获取案例

python3 re正则匹配数据获取案例的更多相关文章

随机推荐

热门专题