Python 通过lxml 解析html页面自动组合xpath实例

#coding:utf-8

'''

@author: li.liu

'''

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionBuilder, ActionChains

from lxml import etree

import urllib

import time

import re

#url='http://www.baidu.com'

url='www.woyihome.com'

driver= webdriver.Chrome()

driver.get(url)

web_title=driver.title

def test1():

    head=driver.current_window_handle

    print driver.current_url

    xpathset=set()

    try:

        html1=urllib.urlopen(url).read().decode('utf-8')

        hetree=etree.HTML(html1)#lxml解析html

        lxml1=etree.ElementTree(hetree)#lxml.etree解析html

        hiter=hetree.iter()#加载到迭代器中

        #print hiter

        str1=''

        for t in hiter:#遍历每个元素

            for item in t.items():#遍历每个元素的属性

                c=0

                d=0

                for i in item:#遍历每个属性的名字和值

                    if i == 'id':#查找属性名为id的元素

                        str1 ='//*[@'+i+'="'+item[c+1]+'"]'##通过id属性值定位达到元素

                        xx=lxml1.xpath(str1)#查找元素

                        #print '\n',xx

                        lgx=lxml1.getpath(xx[0])#查找元素路径

                        #print lgx

                        s= lxml1.xpath(str1+'//*')#查找子元素生成list列表

                        for s1 in s:#遍历所有属性为str1的子元素

                            #print s1.text

                            #print lxml1.getpath(s1)

                            for ss1 in s1.items():#遍历str1子元素的属性

                                for sss1 in ss1 :#遍历属性名和值

                                        try:

                                            #print sss1

                                            lgs1=lxml1.getpath(s1)#获取str1子元素s1的路径

                                            path_split=lgs1.split(lgx)[1]#分割子处理元素属性值的字符串

                                            str3=str+path_split#生成xpath

                                            print '\n',str3

                                            xpathset.add(str3)

                                        except:pass

                    #else:

                        #pass

                            #print lxml1.getpath(s1)

                        #print i,'\n'

                    c+=1

                    d+=1

                print '.',

        print '\r'

        '''

        for i in xpathset:

            print i

            try:

                driver.find_element_by_xpath(i).text

                driver.find_element_by_xpath(i).click()

                durll=driver.current_url

                headx=driver.window_handles

                #print headx

                print '当前页面地址:\n',durll

                time.sleep(1)

                print i,'\n'

                if len(headx)!=1:

                    driver.switch_to_window(headx[1])

                    durl= driver.current_url

                    print '当前页面地址:\n',durl,'\n'

                    if '101.37.179.183' in durl:

                        driver.close()

                        driver.switch_to_window(headx[0])

                    else:

                        k=1

                        break

                else:

                    driver.get(url)

            except:

                pass

            '''

        print len(xpathset)

            #print '\t'

        #driver.get('http://101.37.179.183')

        #print driver.title

    finally:

        #driver.quit()

        print '...'

    '''

    try:

        time.sleep(1)

        #print driver.find_element_by_xpath('//*[@id="wrapper"]'),1

        #print driver.find_element_by_xpath('//*[@id="wrapper"]/div[2]/a[1]')

        driver.find_element_by_xpath(str1)

        time.sleep(50000)

    finally:

        print 3

        driver.quit()

    '''    

def test2():

    http_dict={}

    durll=''

    http_dict[durll]=[]

    head=driver.current_window_handle

    xpath_dict={}

    xpathset=set()

    #try:

    html1=urllib.urlopen(url).read().decode('utf-8')

    hetree=etree.HTML(html1)#lxml解析html

    lxml1=etree.ElementTree(hetree)#lxml.etree解析html

    hiter=hetree.iter()#加载到迭代器中

    #print hiter

    hid1=lxml1.xpath('//*[@id]')

    hid=lxml1.xpath('//*[@id]//*')

    for t in hid1:

        id_items=t.items()

        print t.items()#打印id属性的元素所有属性

        tpath=lxml1.getpath(t)

        print tpath#打印id属性的元素的路径

        for id in id_items:

            if 'id' in id[0]:

                str1='//*[@id="'+id[1]+'"]'

                xpath_dict[str1]=[]

                #print xpath_dict

                print str1

                str3=str1+'//*'

                print str3

                id_list= lxml1.xpath(str3)

                for idist in id_list:

                    idpath= lxml1.getpath(idist)

                    idxpathlist=idpath.split(tpath)

                    if len(idxpathlist)>1:

                        id_xpath=str1+idxpathlist[1]

                        xpath_dict[str1].append(id_xpath)

                        #print xpath_dict[str1]

                        #print idxpathlist

                    #else:

                        #print '+++++++++++++++++++++++++++++++++++++++'

                        #print idxpathlist,'stop',len(idxpathlist)

                print '=============================================='

    cont=0

    k=0

    for i in xpath_dict:

        #print xpath_dict[i]

        for t in xpath_dict[i]:

            durll=''

            try:

                time.sleep(1)

                elem_text=driver.find_element_by_xpath(t).text

                driver.find_element_by_xpath(t).click()

                durll=driver.current_url

                headx=driver.window_handles

                #print headx

                if len(headx)!=1:

                    driver.switch_to_window(headx[1])

                    durll= driver.current_url

                    print '链接元素名:',elem_text

                    print '页面名:',driver.title

                    print '当前页面地址:\n',durll

                    print t,'\n'

                    if '101.37.179.183' in durll:

                        driver.close()

                        driver.switch_to_window(headx[0])

                    else:

                        k=1

                        break

                else:

                    if driver.title !=web_title:

                        print '链接元素名:',elem_text

                        print '页面名:',driver.title

                        print '当前页面地址:\n',durll

                        print t,'\n'

                        driver.back()

                    pass

            except:

                if k==1 or 'localhost' in durll:

                    pass

                else:

                    try:

                        print '动态首项xpath:',dict[i][0]

                        elem=driver.find_element_by_xpath(xpath_dict[i][0])

                        ActionChains(driver).move_to_element(elem).perform()

                        time.sleep(1)

                        driver.find_element_by_xpath(t).click()

                        print '当前动态页面地址为:','\n',driver.current_url

                        print t,'\n'

                        if driver.title !=web_title:

                            t1= '链接元素名:'+elem_text

                            t2= '页面名:'+driver.title

                            t3= '当前页面地址:'+durll

                            print t1,'\n',t2,'\n',t3,'\n',t,'\n'

                            http_dict[durll].append(t1)

                            http_dict[durll].append(t2)

                            http_dict[durll].append(t3)

                            driver.back()

                    except(Exception):

                        pass

                        #print Exception

            cont+=1

            print cont   

    with open('E:/1/http.txt', 'w') as handle:

        for t in http_dict:

            str2=t+''+str(http_dict[t])

            handle.writelines(str2)

test2()

print '结束'

#driver.quit()

Python 通过lxml 解析html页面自动组合xpath实例的更多相关文章

Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
Python 之lxml解析库
一.XPath常用规则二.解析html文件 from lxml import etree # 读取HTML文件进行解析 def parse_html_file(): html = etree.par ...
python的lxml解析器
from lxml import etree import codecs import sys from lxml import etree def parser(p): tree = etree.H ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
Python爬虫之解析网页
常用的类库为lxml, BeautifulSoup, re(正则) 以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/ ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...
python中html解析-Beautiful Soup
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...

随机推荐

UE4 移动物体的几种方法
转自:https://dawnarc.com/2016/06/ue4%E7%A7%BB%E5%8A%A8%E7%89%A9%E4%BD%93%E7%9A%84%E5%87%A0%E7%A7%8D%E6 ...
[转帖]50 亿美元！微软签下毕马威！JEDI 100 亿美元订单之后又一大单！
50 亿美元!微软签下毕马威!JEDI 100 亿美元订单之后又一大单! https://mp.weixin.qq.com/s/K0SrFNSVK5aOu6TIzhN92Q 前段时间,微软击败亚马逊, ...
Git GUI,Git Bash,Git CMD之间的区别
Git GUI,Git Bash,Git CMD之间的区别 Git Bash: Bash,Unix shell的一种,Linux与Mac OS X v10.4都将它作为默认shell.Git Bash ...
java的线程池的使用
1.线程池的创建 1.首先创建一个类,然后实现Runnable接口 public class ExectorTest implements Runnable {} 2.首先声明一个线程池的全局变量 p ...
day01——python初始、变量、常量、注释、基础数据类型、输入、if
python的历史: 04年Django框架诞生了内存回收机制是什么(面试题) python2:源码不统一,有重复的功能代码 python3:没有重复的功能代码 python是一个什么的编程语言编 ...
Linux基础(11)原始套接字
一边接收函数返回一边判断返回值时一定要把接收的优先级加()提高再去判断例 if((sockfd = socket()) < 0) 问题: 如何实现SYN扫描器扫描端口 , 比如AB两个设备要进 ...
STC单片机Flash做EEPROM的代码
STC官方给出的建议: /***************************************************************Author:Liming*** * @brie ...
实现动态WEB内容
在 system1 上配置提供动态web内容,要求: 1.动态内容由名为 wsgi.group8.example.com 的虚拟主机提供 2.虚拟主机侦听在端口 8909 3.从 http://ser ...
用es6 封装的对数组便捷操作的算法
/* * @Description: 对数组的基本操作 * @LastEditors: Please set LastEditors * @Date: 2019-04-26 12:00:19 * @L ...
java之spring之整合ssh-2
这篇也是主要讲解 ssh 的整合,不同于上一篇的是它的注入方式. 这篇会采用扫描注入的方式,即去除 applicationContext-asd.xml 文件. 目录结构如下: 注意,这里只列举不同的 ...

Python 通过lxml 解析html页面自动组合xpath实例

Python 通过lxml 解析html页面自动组合xpath实例的更多相关文章

随机推荐

热门专题