解析HTML文件

 #!/usr/bin/env python3

 # -*- coding: UTF-8 -*-

 from bs4 import BeautifulSoup

 import operator

 import os,shutil

 import re

 def processhtml(item):

 　　html_path = item

 　　with open(html_path) as fp:

 　　　　soup = BeautifulSoup(fp, "html.parser")

 　　return soup

 def IsComputer(soup_arg):

 　　soup = soup_arg

 　　result = False

 　　try:

 　　　　value = soup.find('input', {'name':'资源类型'}).get('value')

 　　　　if value == '主机':

 　　　　　　print('资源类型：主机')

 　　　　　　result = True

 　　　　elif value == '数据库':

 　　　　　　print('资源类型：数据库')

 　　　　else:

 　　　　　　print('资源类型：其他')

 　　except:

 　　　　pass

 　　return result

 def IsAgree(soup_arg):

 　　soup = soup_arg

 　　result = False

 　　try:

 　　　　for row in soup.findAll('tr'):

 　　　　　　cells = row.findAll('td')

 　　　　　　if len(cells) == 4:

 　　　　　　　　if cells[1].findChild("font") != None:

 　　　　　　　　　　nStr = ""

 　　　　　　　　　　nStr = nStr.join(cells[0].string)

 　　　　　　　　　　target = ['帐号管理人员处理']

 　　　　　　　　　　if (operator.eq(nStr.split(), target)):

 　　　　　　　　　　　　print(cells[1].font.string)

 　　　　　　　　　　if (operator.eq(nStr.split(), target) and cells[1].font.string == '同意'):

 　　　　　　　　　　　　print("满足条件为：%s && 审批意见（同意）" % nStr.split()[0])

 　　　　　　　　　　　　result = True

 　　except IndexError as e:

 　　　　pass

 　　return result

 def IsIntersect(soup_arg):

 　　soup = soup_arg

 　　result = False

 　　try:

 　　　　value = soup.find('input', {'name':'239385_资源名称'}).get('value')

 　　　　temp_list = re.split('[、：\n]', value)

 　　　　hosts_list = []

 　　　　hosts_list.clear()

 　　　　for hostlist in temp_list:

 　　　　　　if re.search('[a-z]', hostlist):

 　　　　　　　　print(hostlist)

 　　　　　　　　hosts_list.append(hostlist)

 　　　　hosts_set = set(hosts_list)

 　　　　if target_hosts.intersection(hosts_set):

 　　　　　　print('非空，有交集')

 　　　　　　result = True

 　　　　else:

 　　　　　　print("空，无交集")

 　　except:

 　　　　pass

 　　return result

 def IsIntersect2(soup_arg):

 　　soup = soup_arg

 　　result = False

 　　try:

 　　　　value = soup.find('input', {'name':'所在的硬件设备/软件平台'}).get('value')

 　　　　temp_list = re.split('[、：\n]', value)

 　　　　hosts_list = []

 　　　　hosts_list.clear()

 　　　　for hostlist in temp_list:

 　　　　　　if re.search('[a-z]', hostlist):

 　　　　　　　　hosts_list.append(hostlist)

 　　　　hosts_set = set(hosts_list)

 　　　　if target_hosts.intersection(hosts_set):

 　　　　　　print('非空，有交集')

 　　　　　　result = True

 　　　　else:

 　　　　　　print("空，无交集")

 　　except:

 　　　　pass

 　　return result

 if __name__ == '__main__':

 　　target_hosts = {'cmszsoaa', 'cmszsoab', 'cmszdcss', 'cmszicss', 'cmsznpsa', 'cmsznpsb', 'cmszinta', 'cmszintb',

 　　　　　　　　　　'cmszdpsa', 'cmszdpsb', 'mcbsoaa', 'mcbsoab', 'mcbinta', 'mcbintb', 'mcbdpsa', 'mcbdpsb',

 　　　　　　　　　　'mcbnpsa', 'mcbnpsb', 'mcbdcss', 'mcbicss', 'newdcss', 'newicss'}

 　　work_dir = '/root/XmlOut/'

 　　target_dir = '/root/AccountOut/'

 　　for parent, dirnames, filenames in os.walk(work_dir, followlinks=True):

 　　　　for filename in filenames:

 　　　　　　file_path = os.path.join(parent, filename)

 　　　　　　print("filename with full path: %s" % file_path)

 　　　　　　soup = processhtml(file_path)

 　　　　　　flag1 = IsComputer(soup)

 　　　　　　flag2 = IsAgree(soup)

 　　　　　　flag3 = IsIntersect(soup)

 　　　　　　flag4 = IsIntersect2(soup)

 　　　　　　if (flag1 and flag2 and (flag3 or flag4)):

 　　　　　　　　print('%s, ok----' % (file_path))

 　　　　　　　　shutil.copy(file_path, target_dir)

解析HTML文件的更多相关文章

Android 解析XML文件和生成XML文件
解析XML文件 public static void initXML(Context context) { //can't create in /data/media/0 because permis ...
CSharpGL(9)解析OBJ文件并用CSharpGL渲染
CSharpGL(9)解析OBJ文件并用CSharpGL渲染 2016-08-13 由于CSharpGL一直在更新,现在这个教程已经不适用最新的代码了.CSharpGL源码中包含10多个独立的Demo ...
Jsoup系列学习(2)-解析html文件
解析html文件 1.当我们通过发送http请求时,有时候返回结果是一个html格式字符串,你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 使用 Jsoup ...
JAVA使用SAX解析XML文件
在我的另一篇文章(http://www.cnblogs.com/anivia/p/5849712.html)中,通过一个例子介绍了使用DOM来解析XML文件,那么本篇文章通过相同的XML文件介绍如何使 ...
JAVA中使用DOM解析XML文件
XML是一种方便快捷高效的数据保存传输的格式,在JSON广泛使用之前,XML是服务器和客户端之间数据传输的主要方式.因此,需要使用各种方式,解析服务器传送过来的信息,以供使用者查看. JAVA作为一种 ...
CSharpGL(5)解析3DS文件并用CSharpGL渲染
CSharpGL(5)解析3DS文件并用CSharpGL渲染我曾经写过一个简单的*.3ds文件的解析器,但是只能解析最基本的顶点.索引信息,且此解析器是仿照别人的C++代码改写的,设计的也不好,不方 ...
php解析.csv文件
public function actionImport() { //post请求过来的 $fileName = $_FILES['file']['name']; $fileTmpName = $_F ...
java中采用dom4j解析xml文件
一.前言在最近的开发中用到了dom4j来解析xml文件,以前听说过来解析xml文件的几种标准方式:但是从来的没有应用过来,所以可以在google中搜索dmo4j解析xml文件的方式,学习一下dom4 ...
使用XStream解析MXL文件用到的jar包---xpp3_min-1.1.3.4.O.jar和xstream-1.3.1.jar
使用XStream解析MXL文件用到的jar包---xpp3_min-1.1.3.4.O.jar和xstream-1.3.1.jar
XML：使用DOM技术解析xML文件中的城市，实现select级联选择
中国的城市xml格式:cities.xml <?xml version="1.0" encoding="utf-8"?> <china> ...

随机推荐

android studio 控件提示大写
方法一: 在第一行找到File进入找到setting,找到code completion 右侧复选框选择-->None—->ok 方法二:<item name="andr ...
Python 之__slots__的作用
# 注意:__slots__ 用来限制当前类的实例属性的,如:name.age才可被使用,添加其他的属性则报错 # 不会限制继承类的属性 class Person(): __slots__ = (&q ...
linux mysql-workbench 创建与正式库表结构一样的表
先在本地创建数据库字符集选择这个创建数据库成功创建与正式库一样的表 step1: 连接正式库,找到要生成的表,导出创建表的sql语句 step2: 找到本地数据库,选择表,在sql执行区域复制s ...
ARX中类型强制转换
比如克隆 clone, 获得的是一个acrxobject, acrxobject *pobj=pployline->clone(); acdbpolyline *ppoly=acdbpolyl ...
js的三种对象
JS中,可以将对象分为“内部对象”.“宿主对象”和“自定义对象”三种. 1,内部对象 js中的内部对象包括Array.Boolean.Date.Function.Global.Math.Number. ...
学习记录--让我打开另一种思路的SQL
1.显示文章.提交人和最后回复时间 select a.title,a.username,b.adddate from table a, (select max(adddate) adddate fro ...
P1464 Function 洛谷
https://www.luogu.org/problem/show?pid=1464 题目描述对于一个递归函数w(a,b,c) 如果a<=0 or b<=0 or c<=0就返回 ...
Codeforces Round #306 (Div. 2) D
D. Regular Bridge time limit per test 2 seconds memory limit per test 256 megabytes input standard i ...
Sahara中的数据模型
声明: 本博客欢迎转载.但请保留原作者信息,并请注明出处! 作者:郭德清团队:华为杭州OpenStack团队本文主要是介绍下Sahara中一些常见的数据模型. 1.Config 用于描写叙述配置信 ...
MSP430WARE++的使用2：RSP1 driver的调用方法
MSP430WARE是一套基于C++语言的开源的MSP430层次化软件架构,支持多种外设.本文将介绍雷达測速芯片RSP1驱动程序的调用方法. 1.硬件原理图採用下图所看到的 ...

解析HTML文件

解析HTML文件的更多相关文章

随机推荐

热门专题