Python 通过lxml遍历html xpath

#coding:utf-8

'''

Created on 2017年10月9日

@author: li.liu

'''

from selenium import webdriver

from lxml import etree

import urllib

import urllib2

import time

#url='http://www.woyihome.com'

url='http://sso.woyihome.com/sso/pc-login'

#url='http://www.baidu.com'

user_agent='Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

values = {'name' : 'WHY',

          'location' : 'SDU',

          'language' : 'Python' }    

headers = { 'User-Agent' : user_agent }

data = urllib.urlencode(values)

req = urllib2.Request(url, data, headers)

response = urllib2.urlopen(req)

html1= response.read().encode('utf-8')

def test1():

    x1={}

    #html1=urllib.urlopen(url).read().decode('utf-8')

    #print html1

    hxml=etree.HTML(html1)

    #print hxml

    htree=etree.ElementTree(hxml)

    #print htree

    id_dite=htree.xpath('//*[@id]')

    #print id_dite

    coun=0

    for id_items in id_dite:

        #print id_items.items()

        #print htree.getpath(id_items)

        for id_item in id_items.items():

            #print id_item

            if id_item[0]=='id':

                id_str='//*[@id="'+id_item[1]+'"]'

                x1[id_str]=[]

                #print id_str

                id_path=htree.getpath(htree.xpath(id_str)[0])

                #print id_path

                id_str1=id_str+'//*'

                idelem_list=htree.xpath(id_str1)

                #print idelem_list

                for e in idelem_list:

                    if len(e.items())==0:

                        pass

                    else:

                        e_path=htree.getpath(e)

                        #print e_path

                        e_path1=e_path.split(id_path)

                        #print e_path1[1]

                        if len(e_path1)>1:

                            e_str=id_str+e_path1[1]

                            e_list=e_str.split('/')

                            if 'li' in e_list[len(e_list)-1] or 'ul' in e_list[len(e_list)-1] or 'span' in e_list[len(e_list)-1]:

                                pass

                            else:

                                #print e_str

                                coun+=1

                                x1[id_str].append(e_str)

    '''

    for i in x1:

    #print i

        for i1 in x1[i]:

            print i1

    '''

    a=0

    b=0

    driver=webdriver.Chrome()

    driver.get(url)

    #print driver.title

    for i in x1:

        #print i

        for i1 in x1[i]:

            #print i1

            try:

                d=driver.find_element_by_xpath(i1)

                a+=1

                print d.text

                time.sleep(2)

                driver.find_element_by_xpath(i1).click()

                headx=driver.window_handles

                #print headx

                print '当前页面地址:\n',driver.current_url

                time.sleep(1)

                print i,'\n'

                if len(headx)!=1:

                    driver.switch_to_window(headx[1])

                    durl= driver.current_url

                    print '当前页面地址:\n',durl,'\n'

                    if 'woyihome' in durl:

                        driver.close()

                        driver.switch_to_window(headx[0])

                    else:

                        k=1

                        break

                elif 'localhost' in driver.current_url:

                    print a

            except :

                pass

                #print b

    print a        

    #driver.quit()        

        #print '===================================================='

    print coun

test1()

Python 通过lxml遍历html xpath的更多相关文章

python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
python爬虫（8）--Xpath语法与lxml库
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
lxml模块(应用xpath技术)
一.lxml介绍第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0.XSLT1.0.定制元素类,甚至python风格的数据绑定接口.lxml是通过Cpytho ...
Python爬虫之lxml-etree和xpath的结合使用
本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用(附案例),内容很详细,希望可以帮助到大家. lxml:python的HTML / XML的解析器官网文档:http ...
Python：lxml
学习自: python3解析库lxml - Py.qi - 博客园 lxml官方文档 lxml官方文档--lxml中的类.方法使用,如果需要查看某些方法的具体用法,就到这个网页下 python爬虫系列 ...
python创建与遍历List二维列表
python创建与遍历List二维列表觉得有用的话,欢迎一起讨论相互学习~Follow Me python 创建List二维列表 lists = [[] for i in range(3)] # 创 ...
【转】python 三种遍历list的方法
[转]python 三种遍历list的方法 #!/usr/bin/env python # -*- coding: utf-8 -*- if __name__ == '__main__': list ...

随机推荐

hbase 操作
视频随笔视频地址:hbase教程 1.与传统关系型数据库的区别 hbase 传统分布式单机列动态增减建表时候指定只有字符串一种数据类型数值,字符空值不被存储存储不支持SQL 查 ...
Ng-Alain-mock 运用
Ng-Alain Ng-Alian 是基于 Antd 实现的一个前端框架.它基于 Angular 和 NG-ZORRO,在此基础上进行进一步封装,是中后台的前端解决方案,为我们提供更多通用性业务模块, ...
【转帖】极简Docker和Kubernetes发展史
极简Docker和Kubernetes发展史 https://www.cnblogs.com/chenqionghe/p/11454248.html 2013年 Docker项目开源 2013年,以A ...
strlen（）与sizeof（）
一.strlen() strlen()为计算字符串长度的函数,以‘\0’为字符串结束标志.注意:其传入参数必须是字符串指针(char*), 当传入的是数组名时,实际上数组退化成指针了. 二.sizeo ...
【LEETCODE】72、分割回文串 III 第1278题
package y2019.Algorithm.dynamicprogramming.hard; /** * @Auther: xiaof * @Date: 2019/12/11 08:59 * @D ...
PTA A1016
A1016 Phone Bills (25 分) 题目内容 A long-distance telephone company charges its customers by the followi ...
ansible debugger 模块
在搞TF(tungstenfabric)时遇到了一些错误,TF通过ansible playbook 来部署的.通常情况下遇到错误都是通过ansibale xxxx –vvv 来详细输出一下.出错的类型 ...
ArcGIS Engine开发鹰眼图的功能（基础篇）
鹰眼是用于调节全视域范围内主地图显示范围情况的副地图.它体现了地图整体与详细局部的关系. 用户可以通过鼠标单击或者画框等动作实现鹰眼与主地图的交互情况. 鹰眼功能的原理是通过主地图窗口的地图控件和鹰眼 ...
2019 家居云java面试笔试题（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.家居云等公司offer,岗位是Java后端开发,因为发展原因最终选择去了家居云,入职一年时间了,也成为了面试官 ...
Python进阶----类的结构(公有成员 , 私有成员(私有属性,私有方法),类方法,静态方法,属性) ,isinstance 和issubcalss ,元类(type())
Python进阶----类的结构(公有成员 , 私有成员(私有属性,私有方法),类方法,静态方法,属性) ,isinstance 和issubcalss ,元类(type()) 一丶类的结构细分 ...

Python 通过lxml遍历html xpath

Python 通过lxml遍历html xpath的更多相关文章

随机推荐

热门专题