获取当前页面的所有链接的四种方法对比（python 爬虫）

'''

得到当前页面所有连接

'''

import requests

import re

from bs4 import BeautifulSoup

from lxml import etree

from selenium import webdriver

url = 'http://www.ok226.com'

r = requests.get(url)

r.encoding = 'gb2312'

# 利用 re （太黄太暴力！）

matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)

for link in matchs:

    print(link)

print()

# 利用 BeautifulSoup4 （DOM树）

soup = BeautifulSoup(r.text,'lxml')

for a in soup.find_all('a'):

    link = a['href']

    print(link)

print()

# 利用 lxml.etree （XPath）

tree = etree.HTML(r.text)

for link in tree.xpath("//@href"):

    print(link)

print()

# 利用selenium（要开浏览器！）

driver = webdriver.Firefox()

driver.get(url)

for link in driver.find_elements_by_tag_name("a"):

    print(link.get_attribute("href"))

driver.close()

注意：若页面中含有 iframe，则 iframe 内所包含页面的所有标签都无法用以上四种方法获得！！！此时则要：

# 再打开所有iframe查找全部的a标签

for iframe in soup.find_all('iframe'):

    url_ifr = iframe['src'] # 取得当前iframe的src属性值 

    rr = requests.get(url_ifr)

    rr.encoding = 'gb2312'

    soup_ifr = BeautifulSoup(rr.text,'lxml')

    for a in soup_ifr.find_all('a'):

        link = a['href']

        m = re.match(r'http:\/\/.*?(?=\/)',link)

        #print(link)

        if m:

            all_urls.add(m.group(0))

获取当前页面的所有链接的四种方法对比（python 爬虫）的更多相关文章

JS获取当前页面的网址链接
JavaScript获取当前页面的URL .链接地址 var currUrl = decodeURIComponent(location.href.split('#')[0]); java获取方式:h ...
html5 获取和设置data-*属性值的四种方法讲解
1.获取id的对象 2.需要获取的就是data-id 和 dtat-vice-id的值一:getAttribute()方法 const getId = document.getElementById ...
C# List 根据对象属性去重的四种方法对比
测试代码: private void TestDistinct() { Task.Run(() => { //生成测试数据 DateTime dt = DateTime.Now; Random ...
【Java必修课】通过Value获取Map中的键值Key的四种方法
1 简介我们都知道Map是存放键值对<Key,Value>的容器,知道了Key值,使用方法Map.get(key)能快速获取Value值.然而,有的时候我们需要反过来获取,知道Value ...
通过Value获取Map中的键值Key的四种方法
1 简介我们都知道Map是存放键值对<Key,Value>的容器,知道了Key值,使用方法Map.get(key)能快速获取Value值.然而,有的时候我们需要反过来获取,知道Value ...
Python_selenium之获取当前页面的href属性，id属性，图片信息和截全屏
Python_selenium之获取当前页面的href属性,id属性,图片信息和截全屏一. 获取当前页面的全部信息 1. 图片信息包括图片名称.图片大小等信息 2. 只需将图片信息打印出来(ima ...
js获取当前页面的URL并且截取？之后的数据，返回json
js获取当前页面的URL并且截取'?'之后的数据,返回json格式的数据最近想要把学到的东西整理一下,以后方便查找,也是一种自我累积,如果有错误或者更好的,欢迎提出! 这篇文档主要是写关于获取页面的 ...
从IE浏览器获取当前页面的内容
从IE浏览器获取当前页面内容可能有多种方式,今天我所介绍的是其中一种方法.基本原理:当鼠标点击当前IE页面时,获取鼠标的坐标位置,根据鼠标位置获取当前页面的句柄,然后根据句柄,调用win32的东西进而 ...
js获取当前页面的url网址信息小汇总
在WEB开发中,时常会用到javascript来获取当前页面的url网址信息,在这里是我的一些获取url信息的小总结. 下面我们举例一个URL,然后获得它的各个组成部分:http://i.cnblog ...

随机推荐

[VS2008] [.NET 3.5] 如何解决 The imported project "C:\Windows\Microsoft.NET\Framework\v3.5\Microsoft.CompactFramework.CSharp.targets" was not found
重新安装或者修复 NETCFv35PowerToys https://download.microsoft.com/download/f/a/c/fac1342d-044d-4d88-ae97-d27 ...
转：c# WinForm开发 DataGridView控件的各种操作总结（单元格操作，属性设置）
一.单元格内容的操作 *****// 取得当前单元格内容 Console.WriteLine(DataGridView1.CurrentCell.Value); // 取得当前单元格的列 Index ...
Python日志记录（logging）
import logging logfile = 'e:\\a.txt' # logging.basicConfig(filename=logfile,level=logging.INFO) # lo ...
数据库启动丢失MSVCP120.dll
在自己第一次安装数据库的时候发生了很多问题,,首当其冲的就是数据库启动时丢失MSVCP120.dll,这里就不配图了(安装好了才想起来写一篇博客). 为什么安装不了? 这是因为系统缺失必要的运行库导致 ...
(1)基于tcp协议的编程模型 (2)tcp协议和udp协议的比较 (3)基于udp协议的编程模型 (4)反射机制
1.基于tcp协议的编程模型(重中之重)1.1 编程模型服务器: (1)创建ServerSocket类型的对象,并提供端口号: (2)等待客户端的连接请求,调用accept()方法: (3)使用输入输 ...
【问题定位】tcpdump 抓包简易命令
tcpdump -A -i lo port 2003 or port 2103 or port 2203 | grep '.*system.*'
标绘ol3版开源啦
地址:git.oschina.net/ilocation/plot By 平凡的世界 plot4ol3 说明基于OpenLayers3实现动态标绘API. 在线体验 :7xr2vb.com1.z0. ...
Hadoop学习之路（十七）MapReduce框架Partitoner分区
Partitioner分区类的作用是什么? 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中:按照性别划分的话,需要 ...
Day8 Servlet
HttpServletRequest 说明公共接口类HttpServletRequest继承自ServletRequest.客户端浏览器发出的请求被封装成为一个HttpServletRequest对 ...
5、JVM--调优案例分析
5.1.案例分析 5.1.1.高性能硬件上的程序部署策略假如一个15w/天左右的在线文档类型网站再准备更换硬件系统新的硬件为4个CPU.16GB物理内存,操作系统为64为Cento是 Resin作 ...

获取当前页面的所有链接的四种方法对比（python 爬虫）

获取当前页面的所有链接的四种方法对比（python 爬虫）的更多相关文章

随机推荐

热门专题