今日内容概要

  • bs模块之标签查找
  • 过滤器
  • selenium模块

今日内容详细

html_doc = """
<html>
<head>
<title>The Dormouse's story</title>
</head>
<body>
<p id="my p" class="title">
<b id="bbb" class="boldest">The Dormouse's story</b>
</p> <p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p> <p class="story">...</p>
"""
from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,'lxml')
#2、获取标签的名称
# print(soup.p.name)
#3、获取标签的属性
# print(soup.p.attrs)
#4、获取标签的内容
# print(soup.p.text)
#5、嵌套选择
# print(soup.head.title.string) # 依次往内部查找
# print(soup.body.a.string)
#6、子节点、子孙节点
# print(soup.p.contents) #p下所有子节点
# print(soup.p.children) #得到一个迭代器,包含p下所有的子节点
# for child in soup.p.children:
# print(child)
#7、父节点、祖先节点
# print(soup.a.parent) #获取a标签的父节点
# print(soup.a.parents) #找到a标签所有的祖先节点,父亲的父亲,父亲的父亲的父亲……
# for p in soup.a.parents
# print(p)
#8、兄弟节点
# print('=====>')
# print(soup.a.next_siblings) #下一个兄弟
# for i in soup.a.next_siblings:
# print(i)
# print(soup.a.previons_sibling) #上一个兄弟
# print(list(soup.a.next_siblings)) #下面的兄弟们=>生成器对象
# print(soup.a.previous_siblings) #上面的兄弟们=>生成器对象
"""
儿子:在一个标签内部的第一层级标签
<span>相对于下面同级别的div就是哥哥</span>
<div>
<div>相对于外层的div就是儿子
<p>上一层div的儿子上上一层div的孙子</p>
</div>
<p>相对于外层的div就是儿子</p>
</div>
<span>相对上面同级别的div就是弟弟</span>
后代
兄弟
弟弟
哥哥
"""

过滤器

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc,'lxml')
#1、五种过滤器:字符串、正则表达式、列表、True、方法
#1.1、字符串:即标签名 结果是一个列表 里面的元素才是真正的标签对象
# print(soup.find_all('b')) # [<b> class="boldest" id="bbb">The Dormouse's story</b'] #1.2、正则表达式
# import re # 一定要注意拿到的结果到底是什么数据类型
# print(soup.find_all(re.compile('^b'))) # 找出b开头的标签,结果有body和b标签 #1.3、列表:如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回。下面代码找到文档中所有<a>标签和<b>标签:
# print(soup.find_all(['a','b'])) # 找到文档中所有<a>标签和<b>标签 #1.4、True:可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点
# print(soup.find_all(True)) # True表示所有
# for tag in soup.find_all(True):
# print(tag.name) #1.5、方法:如狗哦没有合适的过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是返回 False
# def has_class_but_no_id(tag):
# return tag.has_attr('class') and not tag.has_attr('id')
#
# print(soup.find_all(has_class_but_no_id))

中文文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-parents-find-parent

selenium模块

嫩够帮你自动操作浏览器
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 1.需要下载模块
pip3 install -i
2.还需要下载一个控制浏览器的驱动
http://npm.taobao.org/mirrors/chromedriver/2.38/
# 注意下载的驱动一定呀跟你浏览器的版本匹配 不能无法操作
如何查看当前浏览器版本
3.下载好的驱动文件有两个存放的位置
1.直接放在你项目的目录下
2.放到Python安装路径的scripts目录中即可
from selenium import webdriver
import time
bro=webdriver.Chrome() # 生成谷歌浏览器的驱动对象
bro.get("http://www.baidu.com") # 自动打开谷歌浏览器访问百度首页
bro.implicitly_wait(10) # 设置一个等待时间 超出范围还没加载出来就放弃
# 1、find_element_by_id 根据id找
# 2、find_element_by_link_text 根据链接名字找到控件(a标签的文字)
# 3、find_element_by_partial_link_text 根据链接名字找到控件(a标签的文字)模糊查询
# 4、find_element_by_tag_name 根据标签名
# 5、find_element_by_class_name 根据类名
# 6、find_element_by_name 根据属性名
# 7、find_element_by_css_selector 根据css选择器
aEle = bro.find_element_by_link_text('登录')
# 点击a标签
aEle.click()
# 通过id获取p标签
pEle = bro.find_element_by_id('TANGRAM__PSP_11__footerULoginBtn')
# 点击p标签
pEle.click()
# 通过id找获取用户用户名的input框
UserEle = bro.find_element_by_id('TANGRAM__PSP_11__userName')
# 点击UserEle
UserEle.click()
# 输入用户名
UserEle.send_keys('18856211855')
time.sleep(1)
# 通过id找获取用户密码的input框
PwdEle = bro.find_element_by_id('TANGRAM__PSP_11__password')
# 点击UserEle
PwdEle.click()
# 输入用户名
PwdEle.send_keys('xxxxxx')
time.sleep(1)
SubEle = bro.find_element_by_id('TANGRAM__PSP_11__submit')
SubEle.click()
print(bro.get_cookies()) # 直接组织成字典里面有所有的键值对
print(bro.get_cookie()) # Get a single cookie by name bro.close()

等待元素加载完毕

"""
有些页面的标签元素并不是直接写在html文件上的而是通过后续
js代码动态加载出来的 所以需要在查找标签的时候设置一个等待时间
"""
# 隐式等待:在查找所有元素时,如果尚未被加载,则等10秒(推荐使用)
# browser.implicitly_wait(10) 表示等待所有, # 显式等待:显式地等待某个元素被加载(不推荐使用)
# wait=WebDriverWait(browser,10)
# wait.until(EC.presence_of_element_located((By.ID,'content_left')))

爬虫之标签查找补充及selenium模块的安装及使用与案例的更多相关文章

  1. 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求

    第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为 ...

  2. 第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS

    第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...

  3. Selenium模块的安装

    Selenium模块 1.安装selenium python2:pip install selenium python3:pip install selenium 2.设置浏览器驱动 解压后必须与浏览 ...

  4. python 全栈开发,Day136(爬虫系列之第3章-Selenium模块)

    一.Selenium 简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全 ...

  5. 二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求

    selenium模块 selenium模块为第三方模块需要安装,selenium模块是一个操作各种浏览器对应软件的api接口模块 selenium模块是一个操作各种浏览器对应软件的api接口模块,所以 ...

  6. 十六 web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS

    PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的 ...

  7. python selenium 模块的安装及使用

    安装 pip install selenium 或者到https://pypi.python.org/pypi/selenium 下载setup安装包,之后进入目录后运行python setup.py ...

  8. 网络爬虫(一):配置selenium、pycharm(windows平台)

    最近在学习爬虫的编写,使用selenium模块时候,遇到了很多坑,本blog的目的是总结一下遇到的坑和解决办法,以便后来人少走弯路! 以下介绍均以Python3.x为基准进行,基于windows平台的 ...

  9. selenium模块跳过用户名密码验证码输入,加载浏览器标签和cookie,进行翻页爬虫多页动态加载的数据(js)

    能解决登陆一次后,之后不需要二次登陆的动态加载数据,网页保存的cookie和标签,加入到selenium自动化测试浏览器中 1 from selenium import webdriver 2 imp ...

随机推荐

  1. 幂等性是数学中的一个概念,表达的是N次变换与1次变换的结果相同

    幂等性是数学中的一个概念,表达的是N次变换与1次变换的结果相同

  2. NOI Online 2021 入门组 T1

    Description 题目描述 Alice.Bob 和 Cindy 三个好朋友得到了一个圆形蛋糕,他们打算分享这个蛋糕. 三个人的需求量分别为 \(a, b, c\),现在请你帮他们切蛋糕,规则如下 ...

  3. Mysql 返回JSON值属性的函数 (五)

    本节中的函数返回JSON值的属性. JSON_DEPTH(json_doc) 返回JSON文档的最大深度.NULL如果参数为,则 返回 NULL.如果参数不是有效的JSON文档,则会发生错误. 一个空 ...

  4. 对JSP中的Session 简单理解

    我的理解: 简单来说,要使用服务器端的session对象,就是要有其对应的key,即sessionid,它只认识sessionid. 下面我说的cookie,url重写或者隐藏表单,都是为了将其对应的 ...

  5. iOS多线程总览 --By 吴帮雷

    在iOS中每个进程启动后都会建立一个主线程(UI线程),这个线程是其他线程的父线程.由于在iOS中除了主线程,其他子线程是独立于Cocoa Touch的,所以只有主线程可以更新UI界面(新版iOS中, ...

  6. OSPF多区域的进阶强化版

    OSPF多区域 1.OSPF多区域原理 2.末梢区域配置 1.生成OSPF多区域的的原因:改善网络的可扩展性,快速收敛. OSPF的三种通信量:a域内通信量(单个区域内的路由器之间交换数据包构成的通信 ...

  7. 深入Java微服务之网关系列1:什么是网关

    ​ 前言 近来,在想着重构一个新的产品.准备采用微服务的技术解决方案,来搭建基础设施框架.网关,是一个必不可少的组件.那么,网关到底是什么? 其又有什么特点或者特性,成为微服务必不可少的组件呢?今天, ...

  8. idea导入mavenJar、mavenWeb项目

    两种项目都是一样的,都是maven项目,所以主要是找到pom.xml,项目最好先放在idea的工作目录下,且工作目录最好为英文 1.打开idea,选择import project 2.把项目放到ide ...

  9. suse 12 二进制部署 Kubernetets 1.19.7 - 第03章 - 部署flannel插件

    文章目录 1.3.部署flannel网络 1.3.0.下载flannel二进制文件 1.3.1.创建flannel证书和私钥 1.3.2.生成flannel证书和私钥 1.3.3.将pod网段写入et ...

  10. pytest(3)-测试命名规则

    前言 在自动化测试项目中,单元测试框架运行时需要先搜索测试模块(即测试用例所在的.py文件),然后在测试模块中搜索测试类或测试函数,接着在测试类中搜索测试方法,最后加入到队列中,再按执行顺序执行测试. ...