作业要求

环境路径

类似于这样的,一共50篇文档,

均为中文文档,是法院判决书的合集。

程序

程序如下,我完全使用正则表达式来实现功能,

import re
import glob
import copy name_list = glob.glob('./*.txt') date_totul = []
indictee_totul = []
court_totul = []
procuratorate_totul = []
with open('./result.txt','a',encoding='utf-8') as f_r:
for name in name_list:
f_r.write('<{0}>\n\n'.format(name.split('\\')[-1]))
with open(name,encoding='utf-8') as f:
lines = f.read() # 时间匹配
#xxxx年xx月xx日;同年xx月xx日;xxxx年xx月x旬;xxxx年xx月底;xxxx年xx月;xx月xxx日
# |优先匹配前面的,无符合才匹配后面的
pattern_t = re.compile(
'[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1,3}日'
'|同年.{1,2}月.{1,3}日'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1}旬'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月底'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月'
'|[0-9〇一二三四五六七八九十]{1,2}月.{1,3}日')
date_step = [date for date in pattern_t.findall(lines)]
# print(date_step)
for i in date_step:
f_r.write('<time>{0}</time>\n\n'.format(i))
date_totul.extend(date_step) # 被告匹配
pattern_i = re.compile('被告人(.{2,4}?)[,,]|被上诉人:(.+?)。|被执行人:(.+?)。')
pattern_i2 = re.compile('被申诉人\(.+\):(.+)。|被申请人\(.+\):(.+)。')
defendant = list(set([item[0] for item in re.findall(pattern_i,lines) + pattern_i2.findall(lines) if '死刑' not in item[0]])) if defendant != [] and defendant != ['']:
print(defendant) # indictee_totul.append(indictee_step)
for item in defendant:
f_r.write('<defendant>{0}</defendant>\n\n'.format(item)) # 法院匹配
pattern_c = re.compile('[\n。,,《;](.{,15}?人民法院)')
_court_list = [name.group(1) for name in pattern_c.finditer(lines)]
_court_step = []
# print(_court_list)
for _court in _court_list:
_court_step.append(_court.split('。')[-1]
.split(',')[-1]
.split('《')[-1]
.split('、')[-1]
.split(';')[-1])
_court_step = list(set(_court_step))
for court_name in _court_step:
if '由' in court_name or\
'向' in court_name or \
'受' in court_name or \
'和' in court_name:
# print(name)
_court_step.append(court_name.split('由')[-1].
split('向')[-1].
split('受')[-1].
split('和')[-1])
_court_step.remove(court_name)
# print(_court_step)
if '不服' in court_name or \
'后被' in court_name or \
'报请' in court_name or \
'书证' in court_name or \
'核准' in court_name or \
'指令' in court_name or \
'维持' in court_name or \
'撤销' in court_name or \
'参照' in court_name:
_court_step.append(copy.deepcopy(court_name[2::]))
_court_step.remove(court_name) _court_step = list(set(_court_step))
if '人民法院' in _court_step:
_court_step.remove('人民法院') for i in _court_step:
f_r.write('<court>{0}</court>\n\n'.format(i))
# print(name,_court_step) # 检察院匹配
pattern_p = re.compile('审理(.+)指控')
procuratorate_step = list(set([name.group(1) for name in pattern_p.finditer(lines)]))
procuratorate_totul.extend(procuratorate_step)
# print(name,procuratorate_step)
for i in procuratorate_step:
f_r.write('<procuratorate>{0}</procuratorate>\n\n'.format(i)) # 地点匹配
pattern_pl_1 = re.compile('(.{2}省.+?县)')
pattern_pl_2 = re.compile('.{2}省.{2}市')
pattern_pl_3 = re.compile('.{2}省.+?自治州')
pattern_pl_4 = re.compile('.{2}省.+?乡')
pattern_pl_5 = re.compile('.{2}市.{2}区')
pattern_pl_6 = re.compile('.{2}市.{2}镇')
pattern_pl_7 = re.compile('.{2}市.+?开发区')
place_step = list(set([name.group(0) for name in pattern_pl_1.finditer(lines)]))
place_step.extend(list(set([name.group(0) for name in pattern_pl_2.finditer(lines)])))
place_step.extend(list(set([name.group(0) for name in pattern_pl_3.finditer(lines)])))
place_step.extend(list(set([name.group(0) for name in pattern_pl_4.finditer(lines)])))
place_step.extend(list(set([name.group(0) for name in pattern_pl_5.finditer(lines)])))
place_step.extend(list(set([name.group(0) for name in pattern_pl_6.finditer(lines)])))
place_step.extend(list(set([name.group(0) for name in pattern_pl_7.finditer(lines)])))
place_step_n = []
for place_name in place_step:
if len(place_name)<=15:
# print(name,place_name)
place_step_n.append(place_name)
if '××' in place_name:
if place_name in place_step_n:
place_step_n.append(place_name.split('××')[0])
place_step_n.remove(place_name)
if 'XX' in place_name:
if place_name in place_step_n:
place_step_n.append(place_name.split('XX')[0])
place_step_n.remove(place_name)
# print(name, [(len(item)) for item in place_step_n])
# print(name,place_step,len(place_step))
# print(name,place_step_n,len(place_step_n))
for i in place_step_n:
f_r.write('<location>{0}</location>\n\n'.format(i))
f_r.write('</{0}>\n\n'.format(name.split('\\')[-1]))

截取结果文档中某一文件的结果贴出来,展示如下,

<11273.txt>

<time>1991年7月3日</time>

<time>2008年8月7日</time>

<time>2008年9月16日</time>

<time>2009年3月18日</time>

<time>2011年2月6日</time>

<time>2012年2月2日</time>

<time>2013年3月28日</time>

<time>2013年6月14日</time>

<time>2014年4月14日</time>

<time>2014年10月27日</time>

<time>2013年5月8日</time>

<time>5月10日</time>

<time>二〇一五年二月二十七日</time>

<defendant>杨飞程</defendant>

<court>云南省丽江市中级人民法院</court>

<court>云南省高级人民法院</court>

<court>最高人民法院</court>

<procuratorate>丽江市人民检察院</procuratorate>

<location>云南省丽江市</location>

<location>云南省大理市</location>

<location>丽江市古城区</location>

<location>大理市</location>

</11273.txt>

re总结

这次使用了不少这则表达式,虽然不怎么高深,不过还是略有心得,特此总结一下。

这里给出一个比较完备的正则表达式介绍,但是自己的使用还是有一些自己的理解重点,所以这篇文章还要继续233

几个基础函数

re.compile(patternflags=0)

将正则表达式模式编译成一个正则表达式对象,它可以用于匹配使用它的match ()search ()等方法。

实际有两种使用方式:

  pattern.匹配方法(string) 或者 re.匹配方法(pattern,string)

使用或|来强化匹配规则:

pattern_t = re.compile(
'[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1,3}日'
'|同年.{1,2}月.{1,3}日'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月.{1}旬'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月底'
'|[0-9〇一二三四五六七八九]{4}年.{1,2}月'
'|[0-9〇一二三四五六七八九十]{1,2}月.{1,3}日')
re.findall(patternstringflags=0)

返回字符串

re.finditer(patternstringflags=0)

返回一个迭代器符合

正则表达式迭代器对象

之所以单提出来,是因为迭代器在匹配组groups的时候真的好用,

pattern_c = re.compile('[\n。,,《;](.{,15}?人民法院)')
_court_list = [name.group(1) for name in pattern_c.finditer(lines)]

group(1)表示匹配到的符合第一组的部分,2、3……类推,而0表示包含全部匹配的各个组结果的元组。

贪婪匹配

比如正则表达式:

'审理(.+)指控'

我希望不去贪婪匹配,那么应该是

'审理(.+)指控?'

而非

'审理(.+?)指控'

『Re』知识工程作业_主体识别的更多相关文章

  1. 『Re』正则表达式模块_常用方法记录

    『Re』知识工程作业_主体识别 一个比较完备的正则表达式介绍 几个基础函数 re.compile(pattern, flags=0) 将正则表达式模式编译成一个正则表达式对象,它可以用于匹配使用它的m ...

  2. 『TensorFlow』分布式训练_其三_多机分布式

    本节中的代码大量使用『TensorFlow』分布式训练_其一_逻辑梳理中介绍的概念,是成熟的多机分布式训练样例 一.基本概念 Cluster.Job.task概念:三者可以简单的看成是层次关系,tas ...

  3. 『PyTorch』第九弹_前馈网络简化写法

    『PyTorch』第四弹_通过LeNet初识pytorch神经网络_上 『PyTorch』第四弹_通过LeNet初识pytorch神经网络_下 在前面的例子中,基本上都是将每一层的输出直接作为下一层的 ...

  4. 『TensorFlow』读书笔记_降噪自编码器

    『TensorFlow』降噪自编码器设计  之前学习过的代码,又敲了一遍,新的收获也还是有的,因为这次注释写的比较详尽,所以再次记录一下,具体的相关知识查阅之前写的文章即可(见上面链接). # Aut ...

  5. 『TensorFlow』分布式训练_其二_单机多GPU并行&GPU模式设定

    建议比对『MXNet』第七弹_多GPU并行程序设计 一.tensorflow GPU设置 GPU指定占用 gpu_options = tf.GPUOptions(per_process_gpu_mem ...

  6. 『Numpy』内存分析_高级切片和内存数据解析

    在计算机中,没有任何数据类型是固定的,完全取决于如何看待这片数据的内存区域. 在numpy.ndarray.view中,提供对内存区域不同的切割方式,来完成数据类型的转换,而无须要对数据进行额外的co ...

  7. 『TensorFlow』读书笔记_进阶卷积神经网络_分类cifar10_上

    完整项目见:Github 完整项目中最终使用了ResNet进行分类,而卷积版本较本篇中结构为了提升训练效果也略有改动 本节主要介绍进阶的卷积神经网络设计相关,数据读入以及增强在下一节再与介绍 网络相关 ...

  8. 『TensorFlow』读书笔记_进阶卷积神经网络_分类cifar10_下

    数据读取部分实现 文中采用了tensorflow的从文件直接读取数据的方式,逻辑流程如下, 实现如下, # Author : Hellcat # Time : 2017/12/9 import os ...

  9. 『TensorFlow』第九弹_图像预处理_不爱红妆爱武装

    部分代码单独测试: 这里实践了图像大小调整的代码,值得注意的是格式问题: 输入输出图像时一定要使用uint8编码, 但是数据处理过程中TF会自动把编码方式调整为float32,所以输入时没问题,输出时 ...

随机推荐

  1. Linux基础命令---dump

    dump 检查ext2/3/4文件系统,确定哪些文件需要备份,这些需要备份的文件将会被复制到指定的磁盘或者其他存储介质.dump检查Ext 2/3/4文件系统上的文件,并确定哪些文件需要备份.这些文件 ...

  2. iOS之第三方库以及XCode插件介绍

    前言 第三方库是现在的程序员离不开的东西 不光是APP开发 基本上所有的商业项目 都会或多或少的使用到第三方库 Github上Star>100的开源库数量如下 可以看到JS以绝对的优势排名第一 ...

  3. Linux用root强制踢掉已登录用户

    首先使用w命令查看所有在线用户: [root@VM_152_184_centos /]# w 20:50:14 up 9 days, 5:58, 3 users, load average: 0.21 ...

  4. Python之路----迭代器与生成器

    一.迭代器 L=[1,,2,3,4,5,] 取值:索引.循环for 循环for的取值:list列表 dic字典 str字符串 tuple元组 set f=open()句柄 range() enumer ...

  5. MySQL Crash Course #01# Chapter 1. 2 概念. Primary key

    索引 database table schema Primary Key MySQL 书的第一章介绍一些基本的概念.理解数据库是掌握 MySQL 非常重要的一个部分. 第二章简单介绍了 MySQL 以 ...

  6. bzoj1650 / P2855 [USACO06DEC]河跳房子River Hopscotch / P2678 (noip2015)跳石头

    P2855 [USACO06DEC]河跳房子River Hopscotch 二分+贪心 每次二分最小长度,蓝后检查需要去掉的石子数是否超过限制. #include<iostream> #i ...

  7. Kali连接不上ssh

    1.修改sshd_config文件 vim /etc/ssh/sshd_config 将#PasswordAuthentication yes的注释去掉 将#PermitRootLogin prohi ...

  8. phpMyAdmin本地文件包含漏洞

    4 phpMyAdmin本地文件包含漏洞 4.1 摘要 4.1.1 漏洞简介 phpMyAdmin是一个web端通用MySQL管理工具,上述版本在/libraries/gis/pma_gis_fact ...

  9. myeclipse中文名字项目运行报错

    今天由于项目进行分支,负责开发迭代的功能对应不同的分支项目,没想到的是分支项目名称加上了功能的中文名字.要使用了resin发布项目的时候,报了 java.io.CharConversionExcept ...

  10. Java查找算法之二分查找

    二分查找是一种查询效率非常高的查找算法.又称折半查找. 一.算法思想 有序的序列,每次都是以序列的中间位置的数来与待查找的关键字进行比较,每次缩小一半的查找范围,直到匹配成功. 一个情景:将表中间位置 ...