python 实现爬取网站下所有URL

python3 实现爬取网站下所有URL

获取首页元素信息：
首页的URL链接获取：
遍历第一次返回的结果：
递归循环遍历：
全部代码如下：
小结：

python3.6
requests && bs4
采用递归方法，最终爬取网站所有链接

获取首页元素信息：

目标 test_URL：http://www.xxx.com.cn/
首先检查元素，a 标签下是我们需要爬取得链接，通过获取链接路径，定位出我们需要的信息

soup = Bs4(reaponse.text, "lxml")

urls_li = soup.select("#mainmenu_top > div > div > ul > li")

首页的URL链接获取：

完成首页的URL链接获取，具体代码如下：

def get_first_url():

    list_href = []

    reaponse = requests.get("http://www.xxx.com.cn", headers=headers)

    soup = Bs4(reaponse.text, "lxml")

    urls_li = soup.select("#mainmenu_top > div > div > ul > li")

    for url_li in urls_li:

        urls = url_li.select("a")

        for url in urls:

            url_href = url.get("href")

            list_href.append(head_url+url_href)

            out_url = list(set(list_href))

    for reg in out_url:

        print(reg)

遍历第一次返回的结果：

从第二步获取URL的基础上，遍历请求每个页面，获取页面中的URL链接，过滤掉不需要的信息
具体代码如下：

def get_next_url(urllist):

    url_list = []

    for url in urllist:

        response = requests.get(url,headers=headers)

        soup = Bs4(response.text,"lxml")

        urls = soup.find_all("a")

        if urls:

            for url2 in urls:

                url2_1 = url2.get("href")

                if url2_1:

                    if url2_1[0] == "/":

                        url2_1 = head_url + url2_1

                        url_list.append(url2_1)

                        if url2_1[0:24] == "http://www.xxx.com.cn":

                            url2_1 = url2_1

                            url_list.append(url2_1)

                        else:

                            pass

                    else:

                        pass

                else:

                    pass

        else:

            pass

    url_list2 = set(url_list)

    for url_ in url_list2:

        res = requests.get(url_)

        if res.status_code ==200:

            print(url_)

    print(len(url_list2))

递归循环遍历：

递归实现爬取所有url，在get_next_url()函数中调用自身，代码如下：

get_next_url(url_list2)

全部代码如下：

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import requests

from bs4 import BeautifulSoup as Bs4

head_url = "http://www.xxx.com.cn"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"

}

def get_first_url():

    list_href = []

    reaponse = requests.get(head_url, headers=headers)

    soup = Bs4(reaponse.text, "lxml")

    urls_li = soup.select("#mainmenu_top > div > div > ul > li")

    for url_li in urls_li:

        urls = url_li.select("a")

        for url in urls:

            url_href = url.get("href")

            list_href.append(head_url+url_href)

            out_url = list(set(list_href))

    return out_url

def get_next_url(urllist):

    url_list = []

    for url in urllist:

        response = requests.get(url,headers=headers)

        soup = Bs4(response.text,"lxml")

        urls = soup.find_all("a")

        if urls:

            for url2 in urls:

                url2_1 = url2.get("href")

                if url2_1:

                    if url2_1[0] == "/":

                        url2_1 = head_url + url2_1

                        url_list.append(url2_1)

                        if url2_1[0:24] == "http://www.xxx.com.cn":

                            url2_1 = url2_1

                            url_list.append(url2_1)

                        else:

                            pass

                    else:

                        pass

                else:

                    pass

        else:

            pass

    url_list2 = set(url_list)

    for url_ in url_list2:

        res = requests.get(url_)

        if res.status_code ==200:

            print(url_)

    print(len(url_list2))

    get_next_url(url_list2)

if __name__ == "__main__":

    urllist = get_first_url()

    get_next_url(urllist)

小结：

刚开始学习写python脚本，有不足之处，多多指导，有一个小bug,后期会进一步完善。

python 实现爬取网站下所有URL的更多相关文章

Python：爬取网站图片并保存至本地
Python:爬取网页图片并保存至本地 python3爬取网页中的图片到本地的过程如下: 1.爬取网页 2.获取图片地址 3.爬取图片内容并保存到本地实例:爬取百度贴吧首页图片. 代码如下: imp ...
Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时先附上所 ...
java爬取网站信息和url实例
https://blog.csdn.net/weixin_38409425/article/details/78616688(出自此為博主) 具體代碼如下: import java.io.Buffer ...
用Python定时爬取网站最新资源
记录一下. 写做个网站,爬了另一个网站的内容来做自己网站的内容. 把脚本挂到服务器,每隔一个小时去爬一次资源,然后保存到一个HTML文件里. 用flask做web对接,当有请求的时候就返回那个HTML ...
【Python】爬取网站图片
import requests import bs4 import urllib.request import urllib import os hdr = {'User-Agent': 'Mozil ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同. 爬取一个问题的所有内容流程大致如下: 一个问题url 请求url,获取问题下的答案个数 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...

随机推荐

Java学习笔记——XML入门
以下内容来自网络什么是 XML? XML 指可扩展标记语言(EXtensible Markup Language). XML 是一种很像HTML的标记语言. XML 的设计宗旨是传输数据,而不是显示 ...
Java 集合类Hashmap
一.HashMap 简介 HashMap在程序员的开发过程中是一个十分常用的集合类,它是一个以键值对形式存在的集合类, 在开发中我们可以利用的它的一个key存在即替换的特性,实现一个更新的去重的操作. ...
extern和static区别
1. 声明和定义当定义一个变量的时候,就包含了对该变量声明的过程,同时在内存张申请了一块内存空间.如果在多个文件中使用相同的变量,为了避免重复定义,就必须将声明和定义分离开来.定义是创建与名字关 ...
SpringCloud解析之Ribbon
Ribbon是分布式微服务架构中负载均衡的一个解决方案,我们只需要引入ribbon依赖,然后初始化一个RestTemplate对象,在其上添加@LoadBalanced注解,就可以实现请求的负载均衡, ...
把 python 程序打包成 egg 或者 whl 安装包
原文出处:http://www.worldhello.net/2010/12/08/2178.html 本文略有改动 1.1 安装setuptools 首先要安装setuptools工具.Debian ...
python连接greenplum_postgresql
1. 场景描述使用python连接greenplum或者postgresql. 2. 解决方案 2.1 真实代码 2.1.1 调用类 import dbgp as dbgp # 执行 def exe ...
[HNOI2011]数学作业题解
这道题看着挺难然而其实看破了也挺容易的.首先N极其的大,几乎要炸掉long long ,所以O(n)的算法一定是扑街了,身为一个脑残志坚的OIer,怎能不想到矩阵快速幂优化呢? 有趣的是这道题矩阵有很 ...
开设“C程序答疑解惑”的初衷
博主经常在QQ群里.论坛里看到好多C语言初学者,甚至是有一定编程经验的人,咨询在编程中遇到的一些稀奇古怪的问题.博主对这些问题做过分析汇总,有些问题确实隐蔽的非常深,像break关键字用的不对啦,局部 ...
【朝花夕拾】Android自定义View篇之（十一）View的滑动，弹性滑动与自定义PagerView
前言由于手机屏幕尺寸有限,但是又经常需要在屏幕中显示大量的内容,这就使得必须有部分内容显示,部分内容隐藏.这就需要用一个Android中很重要的概念——滑动.滑动,顾名思义就是view从一个地方移动 ...
Mask-RCNN:教你如何制作自己的数据集进行像素级的目标检测
概述 Mask-RCNN,是一个处于像素级别的目标检测手段.目标检测的发展主要历程大概是:RCNN,Fast-RCNN,Fster-RCNN,Darknet,YOLO,YOLOv2,YOLO3(参考目 ...