spider(一)
此爬虫内容无架构:
1.URL管理器:用集合,mysql表,缓存等
2.网页下载器:实现网页下载,
urllib2:官方基础模块
requests:三方的(更强):伪装成浏览器访问,代理登录,https加密访问等
3.页面解析器:
正则
html.parser解析器模块
lxml 解析器
soup = BeautifulSoup(html,"lxml") print soup.a
print "+++"
print soup.a.string
print "+++"
print type(soup.a.string) # <class 'bs4.element.NavigableString'>
第一行:将 html.text 用 lxml 解析,后赋值给soup变量
第三行:打印出搜索到的第一个 a 标签(即a节点)
第五行:打印出 a 标签内的文字。
获取标签 dl 所有的直接子节点:
1 for i in soup.dl.contents:
print i
print "++++++++++++++++"
# soup.dl.contents :返回其下所有节点(列表方式)
# soup.dl.children :遍历才能获得内容
获取节点的内容:用 soup.dl.strings
for string in soup.dl.strings:
print repr(string)
查找内容:
print soup.find_all('dt') #返回列表,里面包括了所有的 dt 标签
print soup.select("dt") #同上,,[<dt>Mutation ID</dt>, <dt>Gene name</dt>, <dt>Remark</dt>, <dt>Recurrent</dt>, <dt>Drug resistance</dt>]
print soup.select(".inline > dd") #精准定位,查找 dd 标签
print soup.select("dt").get_text() # AttributeError: 'list' object has no attribute 'get_text'
用 get_text() 方法,获取里面的文字。
for dt in soup.select(".inline > dt"):
print dt.get_text()
print "++++++++++++++++++" #每获取一个 dt 里面的文字,打印一次这行,结果如下:
Mutation ID
++++++++++++++++++
Gene name
++++++++++++++++++
AA mutation
++++++++++++++++++
显示搜索对象下所有的文字:
1 for dt in soup.select(".inline"):
print dt.get_text()
print '**********************' # 会在显示完 .inline 下面 所有的递归子标签里的文字后,打印一次本行。本例中只打印了一次。也就是本遍历值遍历了一个,已验证
其他关于 find_all() 和 select()
soup.find_all('a') # 找到所有 a 标签,遍历取出
soup.find_all(['a','b']) #任意匹配一个即可返回,
soup.find_all(id = "...") #根据 id 号码查找
soup.find_all("a",class_="...") #查找固定 class 的 a 标签
soup.find_all("a",limit=2) # 限制搜索到的 a 标签的个数,只要前两个
soup.find_all("p",recursive=False) # 只搜索 返回直接子节点。
soup.select("a") #搜索所有 a 标签
soup.select("#idname") # 根据 id 名搜索
soup.select(".classname") # 根据 class 搜索
soup.select(".classname > p > a > ...") # 精准搜索
soup.select("p a[class="..."]") # 搜索 p 标签下的 class为...的 a 标签
14 node.get_text() # 获取节点的文字
.select(a[href='...']) # 获取节点的 href 属性
node.name # 获取节点的 名字
spider(一)的更多相关文章
- spider RPC入门指南
本部分将介绍使用spider RPC开发分布式应用的客户端和服务端. spider RPC中间件基于J2SE 8开发,因此需要确保服务器上安装了JDK 8及以上版本,不依赖于任何额外需要独立安装和配置 ...
- Scrapy:为spider指定pipeline
当一个Scrapy项目中有多个spider去爬取多个网站时,往往需要多个pipeline,这时就需要为每个spider指定其对应的pipeline. [通过程序来运行spider],可以通过修改配置s ...
- spider RPC过滤器
spider支持在请求执行前或完成后进行特殊处理,比如安全性检查.敏感字段混淆等等.为此,spider提供了BeforeFilter和AfterFilter.其执行位置如下图所示: 流水线插件配置在s ...
- spider RPC插件化体系
为了满足灵活扩展的需要,spider支持灵活的自定义插件扩展,从功能上来说,插件和过滤器的差别在于过滤器不会阻止请求的执行同时对于主程序不会有API上的影响(比如servlet 过滤器和监听器)(最多 ...
- spider RPC管理接口
为了在独立管理模式下尽可能的容易运行时排查问题,spider中间件提供了一系列restful api用于动态管理当前节点的路由,下游节点等.目前支持的RESTFUL API如下所示: 功能 服务号 R ...
- spider RPC高级特性
多租户 spider原生支持多租户部署,spider报文头对外开放了机构号.系统号两个属性用于支持多租户场景下的路由. 多租户场景下的路由可以支持下述几种模式: n 系统号: n 系统号+服务号( ...
- spider RPC安全性
spider提供了多重安全保障机制,目前主要支持接入握手校验,报文完整性校验,报文加密,报文长度检查四种机制. 接入认证 spider使用两次握手校验,其握手流程如下: 签名AES加密的方式实现. l ...
- spider RPC开发指南
协议与兼容性 spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS系统模式的特性进行针对性和重点设计,以更加灵活和高效的满足多租户系统.高可 ...
- spider 配置文件参考
spider有一个配置文件spider.xml,为xml格式,spider.xml采用DTD进行管理,用于管理spider的所有特性.路由.高可用等. 配置文件支持三种不同的方式进行指定: 1. 通过 ...
- spider RPC性能测试报告
测试环境部署结构 测试用例 类 别 说明 请求报文 194字节({"systemId":"PL","appVersion":"qq ...
随机推荐
- 【LeetCode】 数相加组合 Combination Sum
描述 Given a set of candidate numbers (candidates) (without duplicates) and a target number (target), ...
- 【Flask模板】宏的概念和基本使用
# 宏:模板中的宏跟python中的函数类似,可以传递参数,但是不能有返回值,可以将一些经常用到的代码片段放到宏中,然后把一些不固定的值抽取出来当成一个变量.使用宏的时候,参数可以为默认值.相关示例代 ...
- P2487 [SDOI2011]拦截导弹
题目 P2487 [SDOI2011]拦截导弹 做\(SDOI\)有种想评黑的感觉,果然还是太弱了 做法 独立写(调)代码三个小时祭 简化题目:求二维最长不上升子序列及每个点出现在最长不上升子序列概率 ...
- 20165101刘天野 2018-2019-2《网络对抗技术》Exp8 Web基础
20165101刘天野 2018-2019-2<网络对抗技术>Exp8 Web基础 1.实验内容 1.1 Web前端HTML (1)输入命令service apache2 start启动A ...
- jsonpath对json数据进行分析校验做接口测试
在做接口测试的时候, 我们需要对返回的数据进行分析校验, 一般返回的都是json格式的数据, 怎么来解析校验呢? 之前有看过使用递归遍历json数据的, 然后找到了jsonpath, 可以很方便的对j ...
- Spring Cloud之搭建动态Zuul网关路由转发
传统方式将路由规则配置在配置文件中,如果路由规则发生了改变,需要重启服务器.这时候我们结合上节课内容整合SpringCloud Config分布式配置中心,实现动态路由规则. 将yml的内容粘贴到码云 ...
- 剑指offer之 调整奇数偶数数组位置
package Problem14; /* * 问题描述: * 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有奇数位与数组的前半部分,所有偶数位与数组的 * 后半部分 */ publ ...
- CodeForces 455C Civilization(并查集+树直径)
好久没有写过图论的东西了,居然双向边要开两倍空间都忘了,不过数组越界cf居然给我报MLE??这个题题意特别纠结,一开始一直不懂添加的边长是多长... 题意:给你一些点,然后给一些边,注意没有重边 环, ...
- delphi完美经典-第16章 Delphi数据库程序设计----使用BDE组件
第16章 Delphi数据库程序设计----使用BDE组件 Delphi访问数据库的方式有:ADO.BDE.dbExpress.InterBase Express. 一.TDataSet组件 虽然De ...
- 分享知识-快乐自己:Liunx 搭建 Dubbo
1.首先配置JDK 操作步骤 2.部署 Tomcat ① 上传 Tomcat 7 解压jdk文件:tar -zxvf jdk文件名称 ② tomcat目录下的bin/启动tomcat ③ tail ...