本篇仅在于交流学习

解析页面

可以采用xpath进行页面连接提取

进入页面

通过进入的页面可以得到下载地址

步骤：

提取表页面模板链接——>进入连接——>提取页面内下载地址连接——>下载保存

headers = {

        'User-Agent': '用自己得头部'

    }

    response = requests.get(url=url, headers=headers).text  #解析页面

    tree = etree.HTML(response)

    #print(tree)

    page_list = tree.xpath('//div[@id="main"]/div/div/a') #捕获信息位置

    for li in page_list:

        page_list_url = li.xpath('./@href')[0]

        page_list_url = 'https:' + page_list_url  #提取页面地址

        #print(page_list_url)

        in_page = requests.get(url=page_list_url,headers=headers).text  #进入地址

        trees = etree.HTML(in_page)

        #print(trees)

        download_url = trees.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')[0]  #目的文件地址

        name = trees.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0] + '.rar'  #文件名字

        name = name.encode('iso-8859-1').decode('utf-8')  #修改命名乱码

        #print(download_url)

        if not os.path.exists('./download'):  #保存

            os.mkdir('./download')

        download = requests.get(url=download_url,headers=headers).content

        page_name = 'download/' + name

        with open(page_name,'wb') as fp:

            fp.write(download)

            print(name,'end!')

分析网页之间联系：

实施多页面提取

    try:

        start = int(input('请输入要爬取到的尾页：'))

        if start == 1 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            print("爬取完毕")

        elif start == 2 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            url = 'https://sc.chinaz.com/jianli/free_2.html'

            get_page(url)

            print("爬取完毕")

        elif start >= 3 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            for i in range(2, start):

                url = 'https://sc.chinaz.com/jianli/free_%s.html' % (i * 1)

                get_page(url)

                print("爬取完毕")

    except ValueError:

        print('请输入数字：')

完整代码：

import requests

from lxml import etree

import os

def get_page(url):

    headers = {

        'User-Agent': '自己的头部'

    }

    response = requests.get(url=url, headers=headers).text  #解析页面

    tree = etree.HTML(response)

    #print(tree)

    page_list = tree.xpath('//div[@id="main"]/div/div/a') #捕获信息位置

    for li in page_list:

        page_list_url = li.xpath('./@href')[0]

        page_list_url = 'https:' + page_list_url  #提取页面地址

        #print(page_list_url)

        in_page = requests.get(url=page_list_url,headers=headers).text  #进入地址

        trees = etree.HTML(in_page)

        #print(trees)

        download_url = trees.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')[0]  #目的文件地址

        name = trees.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0] + '.rar'  #文件名字

        name = name.encode('iso-8859-1').decode('utf-8')  #修改命名乱码

        #print(download_url)

        if not os.path.exists('./download'):  #保存

            os.mkdir('./download')

        download = requests.get(url=download_url,headers=headers).content

        page_name = 'download/' + name

        with open(page_name,'wb') as fp:

            fp.write(download)

            print(name,'end!')

def go():  #多页面选择

    try:

        start = int(input('请输入要爬取到的尾页：'))

        if start == 1 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            print("爬取完毕")

        elif start == 2 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            url = 'https://sc.chinaz.com/jianli/free_2.html'

            get_page(url)

            print("爬取完毕")

        elif start >= 3 :

            url = 'https://sc.chinaz.com/jianli/free.html'

            get_page(url)

            for i in range(2, start):

                url = 'https://sc.chinaz.com/jianli/free_%s.html' % (i * 1)

                get_page(url)

                print("爬取完毕")

    except ValueError:

        print('请输入数字：')

        go()

if __name__ == '__main__':

    go()

效果：

【python爬虫】对站长网址中免费简历模板进行爬取的更多相关文章

Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
Python爬虫入门教程第七讲：蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫实践~BeautifulSoup+urllib+Flask实现静态网页的爬取
爬取的网站类型: 论坛类网站类型涉及主要的第三方模块: BeautifulSoup:解析.遍历页面 urllib:处理URL请求 Flask:简易的WEB框架介绍: 本次主要使用urllib获取网 ...
Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日在使用本教程之 ...
Python中使用requests和parsel爬取喜马拉雅电台音频
场景喜马拉雅电台: https://www.ximalaya.com/ 找到一步小说音频,这里以下面为例 https://www.ximalaya.com/youshengshu/16411402/ ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
Python 网络爬虫 006 (编程) 解决下载（或叫：爬取）到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 20 ...
Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用正式步骤 Step1:流程分析抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: ...
python网络爬虫（12）去哪网酒店信息爬取
目的意义爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源少部分来源于书.python爬虫开发与项目实战构造本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...

随机推荐

discuz论坛或门户下载的图片无法显示？
discuz论坛或门户下载的图片无法显示? 使用某些插件或者软件(例如火车头采集器,简数采集工具等)的图片下载功能,发现下载成功了后台也有但是前台无法显示,捣鼓了一轮最终才发现是路径的问题. disc ...
axios请求本地文件404
解决办法:将json文件放在public文件夹下请求页面的url路径这样写,不能加上../public/这样的路径,直接就是/aa.json
理解Map-构建关联数组
理解Map 要更深入理解map,学习如何构建关联数组是很有帮助的,以下是简单实现 package org.example.onjava.senior.example03collection.map; ...
node使用multer进行文件上传
开场白在平时的业务中,我们很多使用都会有文件上传这个功能. 今天分享一下使用 node+element-ui实现一下文件上传. 请个人大佬指点一番~~~.批评的时候稍微轻一点. 毕竟我心里承受能力弱 ...
Linux 用户密码不能设置问题
当我们有时候要更改linux账户密码时,有时候会遇到下面这种情况: Password has been already used. Choose another.passwd: Have exhaus ...
Java笔记第九弹
升级版: 数据安全问题的解决 1.同步代码块 (弊端:降低了运行效率) 格式:(锁--同一把锁) synchronized(任意对象){ 多条语句操作共享数据的代码 } //sellTicket.ja ...
分布式CAP_BASE博客参考
https://blog.csdn.net/lixinkuan328/article/details/95535691 CAP 一致性(Consistency) 可用性(Availability) 分 ...
11.8 消除闪烁（2）（harib08h）
ps:看书比较急,有错误的地方欢迎指正,不细致的地方我会持续的修改 11.8 消除闪烁(2)(harib08h) 11.7 消除闪烁(1)(harib08g)存在的问题: 鼠标放在计时器上会有闪烁, ...
wx.BoxSizer布局管理器用法，及其Add()方法参数说明
wx.BoxSizer 布局管理器是一种常见的布局管理器,它可以在水平或垂直方向上布置子窗口部件.同时,它还可以在水平或垂直方向上包含其他 wx.BoxSizer 来创建复杂的布局. 下面是 wx.B ...
22.this指针
1.this指针工作原理我们知道,c++的数据和操作也是分开存储,并且每一个非内联成员函数(non-inline member function)只会诞生一份函数实例,也就是说多个同类型的对象会共用 ...

【python爬虫】对站长网址中免费简历模板进行爬取

本篇仅在于交流学习

【python爬虫】对站长网址中免费简历模板进行爬取的更多相关文章

随机推荐

热门专题