xpath， urllib

xpath

        li_category = response.xpath("//div[@class='r-name']")    <div class="r-name"><div>

        li_category = response.xpath("//div[contains(@class, 'r-name')]")   <div class="r-name a b"><div> 包含'r-name'的所有div

　　　　 li_category = response.xpath("//a[text()='下一页']/@href").extract_first()  文本 = ’下一页‘的 a 标签的 href属性

　　　　 li_category = response.xpath("//a[text()='关键字：']/../li/text()").extract_first()  .. 父级

响应的同类数据但是格式不同，比如

　　 // category1 有a标签
　　 <div class="a">

        <a href="">aaaa</a>

    </div>

    // category2 没有a标签

    <div class="a">

        aaaa

    </div>

　　此时取文本可以这样取

response.xpath("//div[@class='a']//text()").extract().strip()

响应的同类数据但是格式不同，比如

    <div class='a'>

        <a href="">aaaa</a>

    </div>

    <div class='a'>

        <a href="">aaaa2</a>

        <a href="">aaaa1</a>

    </div>
此时取文本可以这样取

response.xpath("//div[@class='a']/a/text").extract()

完善url

import request, urllib

a = 'http://www.xxx.com?ss=1'

b = '?kw=22'

res = urllib.parse.urljoin(a, b) # parse需要与 request一起使用，框架中一般都有request

print(res) # http://www.xxx.com?kw=22

xpath， urllib的更多相关文章

在python3下使用requests,xpath，urllib爬取不得姐网站相关视频爬虫源代码
#coding=utf-8 from lxml import etreeimport requestsimport urllibimport os # 获取url的html等内容def getHtml ...
Selenium自动化中DOM，XPATH，CSS定位Web页面对象的优劣性分析
加速IE浏览器自动化执行效率:Selenium自动化中DOM,XPATH,CSS定位Web页面对象的优劣性分析 1.技术背景在Web应用中,用户通过键盘在输入框中输入值和鼠标点击按钮,链 ...
爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影
本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
爬取房价信息并制作成柱状图XPath，pyecharts
以长沙楼盘为例,看一下它的房价情况如何url = https://cs.newhouse.fang.com/house/s/b91/ 一.页面二.分析页面源代码我们要获得的数据就是名字和价格,先来 ...
初学XPath，其实很简单
XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. (我的理解:XPath 就是一个用来查找xml节点的路径语言,一个路径字符串语法) XM ...
java中的xpath，读取xml文档。
1,入门 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言. XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力.起初 X ...
JavaScript 【跨浏览器XPath，做个兼容】
IE的Xpath 获取单一节点 var xmlDom = getXMLDOM(xmlStr);//调用之前写好的方法获得XMLDOM对象 // var node = xmlDom.selectSing ...
Python+Selenium 利用ID，XPath，tag name，link text，partial link text，class name，css，name定位元素
使用firefox浏览器,查看页面元素,我们以“百度网页”为示例一.ID定位元素利用find_element_by_id()方法来定位网页元素对象 ①.定位百度首页,输入框的元素 ②.编写示 ...

随机推荐

我的代码-unsupervised learning
# coding: utf-8 # In[1]: import pandas as pdimport numpy as npfrom sklearn import treefrom sklearn.s ...
认识Applet
一.Applet 1.Applet的定义:Applet是采用Java编程语言编写的小应用程序,该程序可以包含在HTML(标准通用标记语言的一个应用)页中,与在页中包含图像的方式大致相同. Java写出 ...
EasyUI学习(一)——EasyUI入门
EasyUI学习总结(一)——EasyUI入门一.EasyUI下载 EasyUI官方下载地址:http://www.jeasyui.com/download/index.php,目前最新的版本是:j ...
BootStrap的table技术小结：数据填充、分页、列宽可拖动
本文结构:先说明,后代码.拷贝可直接运行. 一.demo结构: 二.文件引入这些里面除了下面2个比较难找,其他的都很好找 bootstrap-table-resizable.js colResiza ...
[工作积累] TAA Ghosting 的相关问题
因为TAA要使用上一帧的历史结果,那么在相机移动的时候,颜色就会有残留,出现ghosting(残影). 由于上一帧历史是累积的,是由上一帧的直接渲染结果和上上帧的结果做了合并,所以ghosting并不 ...
click python cli 开发包
python click 包是一个方便的cli 开发包,我们可以用来开发强大的cli 应用使用venv 进行环境准备,示例代码来自官方 venv 环境准备 python3 -m venv demoa ...
pache tomcat慢速HTTP拒绝服务攻击安全问题解决办法
问题说明:HTTP协议的设计要求服务器在处理之前完全接收到请求.如果HTTP请求未完成,或者传输速率非常低,则服务器将保持其资源占用等待剩余的数据.如果服务器占用的资源太多,则会造成拒绝服务. 漏洞危 ...
深入理解CSS系列（二）：为什么height:100%不生效？
对于height属性,如果父元素height为auto,只要子元素在文档流中(即position不等于fixed或者absolute),其百分比值完全就被忽略了.这是什么意思呢?首先来看个例子,比如, ...
Vue 开发经验总结
Vue 开发经验总结 1.变量和方法,别写在全局,使用模块化导出.导入对比项目优点缺点适用场景写在全局会一直存在使用模块化导出.导入按需要导入 2.组件的prop值是请求接口后设置的( ...
tomcat配置接口访问时间
这次刚好用到,亲测可用.参照:https://www.cnblogs.com/wuxun1997/p/9068398.html 项目中有些页面时延不稳定,需要看每次接口调用时延,怎么看,有两种方法:一 ...

xpath， urllib

xpath， urllib的更多相关文章

随机推荐

热门专题