python爬取网站页面时，部分标签无指定属性而报错

在写爬取页面a标签下href属性的时候，有这样一个问题，如果a标签下没有href这个属性则会报错，如下：

百度了有师傅用正则匹配的，方法感觉都不怎么好，查了BeautifulSoup的官方文档，发现一个不错的方法，如下图：

官方文档链接：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

has_attr() 这个方法可以判断某标签是否存在某属性，如果存在则返回 True

解决办法：

为美观使用了匿名函数

soup_a = soup.find_all(lambda tag:tag.has_attr('href'))

最终实现爬取页面 url 脚本如下：

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# Author:Riy

import time

import requests

import sys

import logging

from bs4 import BeautifulSoup

from requests.exceptions import RequestException

from multiprocessing import Process, Pool

logging.basicConfig(

    level=logging.DEBUG,

    format='%(levelname)-10s: %(message)s',

)

class down_url:

    def download(self, url):

        '''爬取url'''

        try:

            start = time.time()

            logging.debug('starting download url...')

            response = requests.get(url)

            page = response.content

            soup = BeautifulSoup(page, 'lxml')

            soup_a = soup.select('a')

            soup_a = soup.find_all(lambda tag:tag.has_attr('href'))

            soup_a_href_list = []

            # print(soup_a)

            for k in soup_a:

                # print(k)

                soup_a_href = k['href']

                if soup_a_href.find('.'):

                    # print(soup_a_href)

                    soup_a_href_list.append(soup_a_href)

            print(f'运行了{time.time()-start}秒')

        except RecursionError as e:

            print(e)

        return soup_a_href_list

    def write(soup_a_href_list, txt):

        '''下载到txt文件'''

        logging.debug('starting write txt...')

        with open(txt, 'a', encoding='utf-8') as f:

            for i in soup_a_href_list:

                f.writelines(f'{i}\n')

        print(f'已生成文件{txt}')

    def help_memo(self):

        '''查看帮助'''

        print('''

        -h or --help 查看帮助

        -u or --url  添加url

        -t or --txt  写入txt文件

        ''')

    def welcome(self):

        '''欢迎页面'''

        desc = ('欢迎使用url爬取脚本'.center(30, '*'))

        print(desc)

def main():

    '''主函数'''

    p = Pool(3)

    p_list = []

    temp = down_url()

    logging.debug('starting run python...')

    try:

        if len(sys.argv) == 1:

            temp.welcome()

            temp.help_memo()

        elif sys.argv[1] in {'-h', '--help'}:

            temp.help_memo()

        elif sys.argv[1] in {'-u ', '--url'} and sys.argv[3] in {'-t', '--txt'}:

            a = temp.download(sys.argv[2])

            temp.write(a, sys.argv[4])

        elif sys.argv[1] in {'-t', '--txt'}:

            print('请先输入url！')

        elif sys.argv[1] in {'-u', '--url'}:

            url_list = sys.argv[2:]

            print(url_list)

            for i in url_list:

                a = p.apply_async(temp.download, args=(i,))

                p_list.append(a)

            for p in p_list:

                print(p.get())

        else:

            temp.help_memo()

            print('输入的参数有误！')

    except Exception as e:

        print(e)

        temp.help_memo()

if __name__ == '__main__':

    main()

python爬取网站页面时，部分标签无指定属性而报错的更多相关文章

python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
Python 爬取网站资源文件
爬虫原理: 以下来自知乎解释首先你要明白爬虫怎样工作.想象你是一只蜘蛛,现在你被放到了互联“网”上.那么,你需要把所有的网页都看一遍.怎么办呢?没问题呀,你就随便从某个地方开始,比如说人民日报的首页 ...
python 爬取html页面
#coding=utf-8 import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.rea ...
Python爬取中文页面的时候出现的乱码问题(续)
我在上一篇博客中说明了在爬取数据的时候,把数据写入到文件的乱码问题在这一篇里面我做一个总结: 1.首先应该看一个案例我把数据写在.py文件中: #coding:utf-8 s = 'hehe测试中 ...
Python爬取中文页面的时候出现的乱码问题
一.读取返回的页面数据在浏览器打开的时候查看源代码,如果在头部信息中指定了UTF-8 那么再python代码中读取页面信息的时候,就需要指定读取的编码方式: response.read().deco ...
Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
3.15学习总结（Python爬取网站数据并存入数据库）
在官网上下载了Python和PyCharm,并在网上简单的学习了爬虫的相关知识. 结对开发的第一阶段要求: 网上爬取最新疫情数据,并存入到MySql数据库中在可视化显示数据详细信息项目代码: im ...
解决：Python爬取https站点时SNIMissingWarning和InsecurePlatformWarning
今天想利用Requests库爬取糗事百科站点,写了一个请求,却报错了: 后来参考kinsomy的博客,在cmd中pip install pyopenssl ndg-httpsclient pyasn1 ...

随机推荐

Flutter调研（1）-Flutter基础知识
工作需要,因客户端有部分页面要使用flutter编写,需要QA了解一下flutter相关知识,因此,做了flutter调研,包含安装,基础知识与demo编写,第二部分是安装与环境配置. —— Flut ...
hadoop地址配置、内存配置、守护进程设置、环境设置
1.1 hadoop配置 hadoop配置文件在安装包的etc/hadoop目录下,但是为了方便升级,配置不被覆盖一般放在其他地方,并用环境变量HADOOP_CONF_DIR指定目录. 1.1.1 ...
pycharm 关于模块安装出现的“[error] Microsoft Visual C++ 14.0 is required” 解决办法
刚才正准备对pycharm进行一番操作的时候,噔噔磴噔噔 “no module define xxx” ,那我当然要把xxx给搞到pycharm上来啊, 不一会功夫 ,biu~ “[error] ...
jvm GC算法和种类
1.GC 垃圾收集 Garbage Collection 通常被称为“GC”,它诞生于1960年 MIT 的 Lisp 语言,经过半个多世纪,目前已经十分成熟了. jvm 中,程序计数器.虚拟 ...
统计 Django 项目的测试覆盖率
作者:HelloGitHub-追梦人物文中所涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库我们完成了对 blog 应用和 comment 应用这两个核心 app 的测试.现在 ...
css自定义 range radio select的样式滑轮，按钮，选择框
写在前面: 之前踩坑css的时候,遇到滑轮,按钮,选择框这类型的东西,为了页面效果,总是需要自定义他们的样式,而不使用他们的默认样式.当时写的时候,我也是蛮头疼的,弄了个demo,链接在下面.对此做个 ...
vue实现选中效果
前情提要好久没有写Vue了,略有生疏,这个东西还是得多用.下午看到一个需求,选择相册图片作为轮播图显示.接口返回相册列表,用户选一下再扔回去.直到我看到e.target.className我就知道这 ...
Python——工厂模式
目录前言一.简单工厂二.工厂方法抽象工厂结论参考前言工厂模式,顾名思义就是我们可以通过一个指定的"工厂"获得需要的"产品". 在设计模式中主要用 ...
Python之接口测试（一）
前言之前我们已经学会了利用JMeter工具进行接口测试,今天我们学习一下如何利用python进行接口测试. 一:发送get请求 import requests,json url = 'http:// ...
bootstrapValidator验证的remote中data属性里获取select一直是默认值
budgetEditionNo:{ message:'版本号输入不正确' , validators:{ notEmpty:{ message:'版本号不能为空,请填写' } , remote:{ ur ...

python爬取网站页面时，部分标签无指定属性而报错

python爬取网站页面时，部分标签无指定属性而报错的更多相关文章

随机推荐

热门专题