#!/usr/bin/env python3

 # -*- coding: UTF-8 -*-

 from bs4 import BeautifulSoup
import operator
import os,shutil
import re def processhtml(item):
  html_path = item
  with open(html_path) as fp:
    soup = BeautifulSoup(fp, "html.parser")
  return soup def IsComputer(soup_arg):
  soup = soup_arg
  result = False
  try:
    value = soup.find('input', {'name':'资源类型'}).get('value')
    if value == '主机':
      print('资源类型:主机')
      result = True
    elif value == '数据库':
      print('资源类型:数据库')
    else:
      print('资源类型:其他')
  except:
    pass
  return result def IsAgree(soup_arg):
  soup = soup_arg
  result = False
  try:
    for row in soup.findAll('tr'):
      cells = row.findAll('td')
      if len(cells) == 4:
        if cells[1].findChild("font") != None:
          nStr = ""
          nStr = nStr.join(cells[0].string)
          target = ['帐号管理人员处理']
          if (operator.eq(nStr.split(), target)):
            print(cells[1].font.string)
          if (operator.eq(nStr.split(), target) and cells[1].font.string == '同意'):
            print("满足条件为:%s && 审批意见(同意)" % nStr.split()[0])
            result = True
  except IndexError as e:
    pass
  return result def IsIntersect(soup_arg):
  soup = soup_arg
  result = False
  try:
    value = soup.find('input', {'name':'239385_资源名称'}).get('value')
    temp_list = re.split('[、:\n]', value)
    hosts_list = []
    hosts_list.clear()
    for hostlist in temp_list:
      if re.search('[a-z]', hostlist):
        print(hostlist)
        hosts_list.append(hostlist)
    hosts_set = set(hosts_list)
    if target_hosts.intersection(hosts_set):
      print('非空,有交集')
      result = True
    else:
      print("空,无交集")
  except:
    pass
  return result def IsIntersect2(soup_arg):
  soup = soup_arg
  result = False
  try:
    value = soup.find('input', {'name':'所在的硬件设备/软件平台'}).get('value')
    temp_list = re.split('[、:\n]', value)
    hosts_list = []
    hosts_list.clear()
    for hostlist in temp_list:
      if re.search('[a-z]', hostlist):
        hosts_list.append(hostlist)
    hosts_set = set(hosts_list)
    if target_hosts.intersection(hosts_set):
      print('非空,有交集')
      result = True
    else:
      print("空,无交集")
  except:
    pass
  return result if __name__ == '__main__':
  target_hosts = {'cmszsoaa', 'cmszsoab', 'cmszdcss', 'cmszicss', 'cmsznpsa', 'cmsznpsb', 'cmszinta', 'cmszintb',
          'cmszdpsa', 'cmszdpsb', 'mcbsoaa', 'mcbsoab', 'mcbinta', 'mcbintb', 'mcbdpsa', 'mcbdpsb',
          'mcbnpsa', 'mcbnpsb', 'mcbdcss', 'mcbicss', 'newdcss', 'newicss'}   work_dir = '/root/XmlOut/'
  target_dir = '/root/AccountOut/'   for parent, dirnames, filenames in os.walk(work_dir, followlinks=True):
    for filename in filenames:
      file_path = os.path.join(parent, filename)
      print("filename with full path: %s" % file_path)
      soup = processhtml(file_path)
      flag1 = IsComputer(soup)
      flag2 = IsAgree(soup)
      flag3 = IsIntersect(soup)
      flag4 = IsIntersect2(soup)
      if (flag1 and flag2 and (flag3 or flag4)):
        print('%s, ok----' % (file_path))
        shutil.copy(file_path, target_dir)

解析HTML文件的更多相关文章

  1. Android 解析XML文件和生成XML文件

    解析XML文件 public static void initXML(Context context) { //can't create in /data/media/0 because permis ...

  2. CSharpGL(9)解析OBJ文件并用CSharpGL渲染

    CSharpGL(9)解析OBJ文件并用CSharpGL渲染 2016-08-13 由于CSharpGL一直在更新,现在这个教程已经不适用最新的代码了.CSharpGL源码中包含10多个独立的Demo ...

  3. Jsoup系列学习(2)-解析html文件

    解析html文件 1.当我们通过发送http请求时,有时候返回结果是一个html格式字符串,你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 使用 Jsoup ...

  4. JAVA使用SAX解析XML文件

    在我的另一篇文章(http://www.cnblogs.com/anivia/p/5849712.html)中,通过一个例子介绍了使用DOM来解析XML文件,那么本篇文章通过相同的XML文件介绍如何使 ...

  5. JAVA中使用DOM解析XML文件

    XML是一种方便快捷高效的数据保存传输的格式,在JSON广泛使用之前,XML是服务器和客户端之间数据传输的主要方式.因此,需要使用各种方式,解析服务器传送过来的信息,以供使用者查看. JAVA作为一种 ...

  6. CSharpGL(5)解析3DS文件并用CSharpGL渲染

    CSharpGL(5)解析3DS文件并用CSharpGL渲染 我曾经写过一个简单的*.3ds文件的解析器,但是只能解析最基本的顶点.索引信息,且此解析器是仿照别人的C++代码改写的,设计的也不好,不方 ...

  7. php解析.csv文件

    public function actionImport() { //post请求过来的 $fileName = $_FILES['file']['name']; $fileTmpName = $_F ...

  8. java中采用dom4j解析xml文件

    一.前言 在最近的开发中用到了dom4j来解析xml文件,以前听说过来解析xml文件的几种标准方式:但是从来的没有应用过来,所以可以在google中搜索dmo4j解析xml文件的方式,学习一下dom4 ...

  9. 使用XStream解析MXL文件用到的jar包---xpp3_min-1.1.3.4.O.jar和xstream-1.3.1.jar

    使用XStream解析MXL文件用到的jar包---xpp3_min-1.1.3.4.O.jar和xstream-1.3.1.jar

  10. XML:使用DOM技术解析xML文件中的城市,实现select级联选择

    中国的城市xml格式:cities.xml <?xml version="1.0" encoding="utf-8"?> <china> ...

随机推荐

  1. 【译】x86程序员手册00 - 翻译起因

    从上一次学习MIT的操作系统课程又过去了一年.上次学习并没有坚持下去.想来虽有种种原因,其还在自身无法坚持罢了.故此次再鼓起勇气重新学习,发现课程都已由2014改版为2016了.但大部分内容并没有改变 ...

  2. RadioButtonList的兩種實現方式

    一種是修改ItemTemplate,即ListBoxItem裏面的内容 <ListBox ItemsSource="{Binding}"> <ListBox.It ...

  3. CNN-CV识别简史2012-2017:从 AlexNet、ResNet 到 Mask RCNN

    原文:计算机视觉识别简史:从 AlexNet.ResNet 到 Mask RCNN 总是找不到原文,标记一下.        一切从这里开始:现代物体识别随着ConvNets的发展而发展,这一切始于2 ...

  4. 使用NSSM将Kibana安装为Windows服务

    Kibana不同于Elasticsearch,前者官方并没有提供安装为系统服务的方法,如果直接运行在生产环境中会尤为麻烦,一旦服务器因故重启就要手动开启,所以将Kibana安装为系统服务非常有必要. ...

  5. 如何解决Win10预览版一闪而过的disksnapshot.exe进程?

    Win10之家讯上周微软如约向Insider用户推送了Win10预览版10576更新,本次更新修复了之前版本中存在的一些问题,从日常使用的情况来看,对比之前的预览版系统要更稳定了一些,但是还是存在一些 ...

  6. XML在线转化为JSON

    http://www.utilities-online.info/xmltojson/

  7. 一步一步教你用IntelliJ IDEA 搭建SSM框架(2)——配置mybatis-geneator

    我们要搭建整个SSM框架,所以要继续上篇文章没有完成的工作,下面配置mybatis-geneator,自动生成mybatis代码. 在上篇文章中的pom.xml的配置文件中已经加了mybatis-ge ...

  8. Attention-based Model

    一.Attention与其他模型 1.LSTM.RNN的缺点:输入的Memory长度不能太长,否则参数会很多. 采用attention可以输入长Memory,参数不会变多. 2.Sequence to ...

  9. 几校联考——day1题解

    T1 约数的个数(好像不可提交) 如果一个整数a能够整除整数b,那么a叫做b的约数.现在有N(1 <= N <= 100,000)个整数,对于其中的每一个数,请找出它在其余N - 1个整数 ...

  10. PAT 1099. Build A Binary Search Tree (树的中序,层序遍历)

    A Binary Search Tree (BST) is recursively defined as a binary tree which has the following propertie ...