python爬虫入门---第一篇：获取某一网页所有超链接

这是一个通过使用requests和BeautifulSoup库，简单爬取网站的所有超链接的小爬虫。有任何问题欢迎留言讨论。

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    '''

    此函数用于获取网页的html文档

    '''

    try:

        #获取服务器的响应内容，并设置最大请求时间为6秒

        res = requests.get(url, timeout = 6)

        #判断返回状态码是否为200

        res.raise_for_status()

        #设置该html文档可能的编码

        res.encoding = res.apparent_encoding

        #返回网页HTML代码

        return res.text

    except:

        return '产生异常'

def main():

    '''

    主函数

    '''

    #目标网页，这个可以换成一个你喜欢的网站

    url = 'https://www.cnblogs.com/huwt/'

    demo = getHTMLText(url)

    #解析HTML代码

    soup = BeautifulSoup(demo, 'html.parser')

    #模糊搜索HTML代码的所有包含href属性的<a>标签

    a_labels = soup.find_all('a', attrs={'href': True})

    #获取所有<a>标签中的href对应的值，即超链接

    for a in a_labels:

        print(a.get('href'))

main()

测试结果：

https://www.cnblogs.com/huwt/

https://www.cnblogs.com/huwt/

https://www.cnblogs.com/

https://www.cnblogs.com/huwt/

https://i.cnblogs.com/EditPosts.aspx?opt=1

https://msg.cnblogs.com/send/%E8%B7%AF%E6%BC%AB%E6%BC%AB%E6%88%91%E4%B8%8D%E7%95%8F

https://www.cnblogs.com/huwt/rss

https://i.cnblogs.com/

https://www.cnblogs.com/huwt/archive/2019/04/10.html

https://www.cnblogs.com/huwt/p/10680209.html

https://www.cnblogs.com/huwt/p/10680209.html

https://i.cnblogs.com/EditPosts.aspx?postid=10680209

https://www.cnblogs.com/huwt/p/10685968.html

https://www.cnblogs.com/huwt/p/10685968.html

https://i.cnblogs.com/EditPosts.aspx?postid=10685968

https://www.cnblogs.com/huwt/archive/2019/04/08.html

https://www.cnblogs.com/huwt/p/10673470.html

https://www.cnblogs.com/huwt/p/10673470.html

https://i.cnblogs.com/EditPosts.aspx?postid=10673470

https://www.cnblogs.com/huwt/archive/2019/03/31.html

https://www.cnblogs.com/huwt/p/10633896.html

https://www.cnblogs.com/huwt/p/10633896.html

https://i.cnblogs.com/EditPosts.aspx?postid=10633896

https://www.cnblogs.com/huwt/p/10632084.html

https://www.cnblogs.com/huwt/p/10632084.html

https://i.cnblogs.com/EditPosts.aspx?postid=10632084

https://www.cnblogs.com/huwt/archive/2019/03/30.html

https://www.cnblogs.com/huwt/p/10629625.html

https://www.cnblogs.com/huwt/p/10629625.html

https://i.cnblogs.com/EditPosts.aspx?postid=10629625

https://www.cnblogs.com/huwt/archive/2019/03/25.html

https://www.cnblogs.com/huwt/p/10597502.html

https://www.cnblogs.com/huwt/p/10597502.html

https://i.cnblogs.com/EditPosts.aspx?postid=10597502

https://www.cnblogs.com/huwt/archive/2019/03/24.html

https://www.cnblogs.com/huwt/p/10591353.html

https://www.cnblogs.com/huwt/p/10591353.html

https://i.cnblogs.com/EditPosts.aspx?postid=10591353

https://www.cnblogs.com/huwt/archive/2019/03/16.html

https://www.cnblogs.com/huwt/p/10540942.html

https://www.cnblogs.com/huwt/p/10540942.html

https://i.cnblogs.com/EditPosts.aspx?postid=10540942

https://www.cnblogs.com/huwt/p/10541675.html

https://www.cnblogs.com/huwt/p/10541675.html

https://i.cnblogs.com/EditPosts.aspx?postid=10541675

https://www.cnblogs.com/huwt/default.html?page=2

[Finished in 1.1s]

python爬虫入门---第一篇：获取某一网页所有超链接的更多相关文章

Python爬虫入门案例：获取百词斩已学单词列表
百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过此列表可以很方便地找到自己在记忆哪些单词时总是反复出错记不住.我们来用Python来爬取这些信息,同时学习 ...
python爬虫入门---第二篇：获取2019年中国大学排名
我们需要爬取的网站:最好大学网我们需要爬取的内容即为该网页中的表格部分: 该部分的html关键代码为: 其中整个表的标签为<tbody>标签,每行的标签为<tr>标签,每行中 ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...
Python爬虫入门有哪些基础知识点
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫入门（二）之Requests库
Python爬虫入门(二)之Requests库我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
Python爬虫入门之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...

随机推荐

HaProxy 负载均衡集群
HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性.负载均衡,以及基于TCP和HTTP的应用程序代理,特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理.H ...
Java正则表达式API详解
1. Pattern类 public class PatternExample { /** * public static String quote(String s) * 返回指定字符串的字面值模式 ...
PHP、JS、Python,数据库获取今天是星期几了？[开发篇]
额,这个看起来是一个好简单的问题,但是真正到自己去一行行写的时候,又给忘了,妈蛋.有空就看看吧.今天是星期几?下面就来看看几种不同语言的实现吧! PHP语言输出当前时间: echo date('Y- ...
Shell-12 -- case
case 是一种匹配选择执行的结构,相当于java中的switch
spring boot 下 thymeleaf 配置
1. thymeleaf 配置参数 [参考文章]:spring-boot-starter-thymeleaf 避坑指南 #<!-- 关闭thymeleaf缓存开发时使用否则没有实时画面--& ...
centos7不小心删除了/etc/yum.repos.d/CentOS-Base.repo文件..........
一步小心使用rm -rf /etc/yum.repos.d/CentOS-Base.repo 删除了base.repo文件,导致使用yum安装时报错. 解决如下,使用阿里云的镜像: wget -O / ...
昕有灵犀-xyFS私有文件云存储OSS服务
本工程为本人开发的开源项目,地址: https://gitee.com/475660/xyFS 介绍: 一站式企业私有文件服务.针对软件开发时提供的文件存储系统,对文件上传.下载.分类.分组.审计.统 ...
postgresql-分页数据重复问题探索
postgresql-分页数据重复探索问题背景许多开发和测试人员都可能遇到过列表的数据翻下一页的时候显示了上一页的数据,也就是翻页会有重复的数据. 如何处理? 这个问题出现的原因是因为选择的排序字 ...
C# 本进程执行完毕后再执行下一线程
最近做了一套MES集成系统,由上料到成品使自动化运行,其中生产过程是逐步的,但是每一个动作都需要独立的线程进行数据监听,那么就需要实现线程等待. 代码: using System; using Sys ...
Linux学习笔记之二————Linux系统的文件和目录
一.Windows和Linux文件系统区别 1.在 windows 平台下,打开“计算机”,我们看到的是一个个的驱动器盘符: 每个驱动器都有自己的根目录结构,这样形成了多个树并列的情形,如图所示: ...

python爬虫入门---第一篇：获取某一网页所有超链接

python爬虫入门---第一篇：获取某一网页所有超链接的更多相关文章

随机推荐

热门专题