1.页面解析接口 package com.dajiangtai.djt_spider.service; import com.dajiangtai.djt_spider.entity.Page; /** * 页面解析接口 * @author Administrator * */public interface IProcessService { public void process(Page page);} 2.页面解析实现类 package com.dajiangtai.djt_spider…
0.参考 1.初始化 In [325]: from scrapy import Selector In [326]: text=""" ...: <div> ...: <a>1a</a> ...: <p>2p</p> ...: <p>3p</p> ...: </div>""" In [327]: sel=Selector(text=text) In […
<div> <ul class="show"> <li>275万购昌平邻铁三居 总价20万买一居</li> <li>00万内购五环三居 140万安家东三环</li> <li>北京首现零首付楼盘 53万购东5环50平</li> <li>京楼盘直降5000 中信府 公园楼王现房</li> </ul> </div> 我想要把所有li标签中的文本提取出…
一.jQuery的父节点查找方法 $(selector).parent(selector):获取父节点 $(selector).parentNode:以node[]的形式存放父节点,如果没有父节点,则返回空数组 $(selector).parents(selector):获取祖先元素 二.jQuery的兄弟节点查找方法 $(selector).prev()   /   $(selector).previousSibling():获取上一个兄弟节点 $(selector).prevAll():获取…
一.前言 1.元素和节点的区别 2.总结获取元素的方式 3.总结获取节点的方式 二.主要内容 1.结点和元素的区别 (1)一些常见基本概念: 文档:document 元素:页面中所有的标签 结点:页面中所有的内容包括(标签,属性,文本(文字,空格,换行,回车)) 根元素:html标签 (2)节点属性 nodeType:表示节的类型:  1-------表示是标签, 2-------属性, 3-------文本 nodeName:节点的名字: 标签------大写的标签名字, 属性-----小写的…
概要:解析一个xml,当一个节点中又包含多个子节点如何解析,对比一个节点中不包括其他节点的情况. 一,xml样例 <cisReports batNo="查询批次号" unitName="查询单位名称" subOrgan="分支机构名称" queryUserID="查询操作员登录名" queryCount="查询请求数量" receiveTime="查询申请时间,格式YYYYMMDD HH24…
XPath轴(XPath Axes)可定义某个相对于当前节点的节点集: 1.child 选取当前节点的所有子元素 2.parent 选取当前节点的父节点 3.descendant 选取当前节点的所有后代元素(子.孙等) 4.ancestor 选取当前节点的所有先辈(父.祖父等) 5.descendant-or-self 选取当前节点的所有后代元素(子.孙等)以及当前节点本身 6.ancestor-or-self 选取当前节点的所有先辈(父.祖父等)以及当前节点本身 7.preceding-sib…
一.Dom获取 1.全称:Document     Object     Model 文档对象模型 2.我们常用的节点类型 元素(标签)节点.文本节点.属性节点(也就是标签里的属性). 3.document有个属性叫nodeType返回的是数字 1:代表元素节点 2:代表属性节点 3:代表文本节点 4.节点的获取 元素节点的获取方法 Document.getElementById() Document.getElementsByClassName() Document.getElementsBy…
创建节点 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=devic…
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在<table class="list" >...</table> 中 然后分别获却<tr class="odd"> 和<tr class="even">中的内容 ,使用xpath时可以写成xpath('/…