python批量爬取文档

　　最近项目需要将批量链接中的pdf文档爬下来处理，根据以下步骤完成了任务：

将批量下载链接copy到text中，每行1个链接；
再读txt文档构造url_list列表，利用readlines返回以行为单位的列表；
利用str的rstrip方法，删除 string 字符串末尾的指定字符（默认为空格）；
调用getFile函数：
1. 通过指定分隔符‘/’对字符串进行切片，取list的最后一列即链接文档名作为下载文件名。
2. 调用urlopen,调用read、write方法完成下载

　　参考资料：

https://blog.csdn.net/zhrq95/article/details/79300411
https://blog.csdn.net/yllifesong/article/details/81044619

 import urllib.request

 import os

 def getFile(url):

     file_name = url.split('/')[-1]

     u = urllib.request.urlopen(url)

     f = open(file_name, 'wb')

     block_sz = 8192

     while True:

         buffer = u.read(block_sz)

         if not buffer:

             break

         f.write(buffer)

     f.close()

     print("Sucessful to download" + " " + file_name)

 os.chdir(os.path.join(os.getcwd(), 'pdf_download'))

 f=open('E:/VGID_Text/url_list.txt')

 url_list=f.readlines()

 url_lst=[]

 for line in url_list:

     line=line.rstrip("\n")

     getFile(line)

python批量爬取文档的更多相关文章

Python批量创建word文档（2）- 加图片和表格
Python创建word文档,任务要求:小杨在一家公司上班,每天都需要给不同的客户发送word文档,以告知客户每日黄金价格.要求在文档开始处给出banner条,价格日期等用表格表示.最后贴上自己的联系 ...
Python批量创建word文档（1）- 纯文字
Python创建word文档,任务要求:小杨在一家公司上班,每天都需要给不同的客户发送word文档,以告知客户每日黄金价格.最后贴上自己的联系方式.代码如下: 1 ''' 2 #python根据需求新 ...
从0实现python批量爬取p站插画
一.本文编写缘由很久没有写过爬虫,已经忘得差不多了.以爬取p站图片为着手点,进行爬虫复习与实践. 欢迎学习Python的小伙伴可以加我扣群86七06七945,大家一起学习讨论二.获取网页源码爬取 ...
python 批量爬取四级成绩单
使用本文爬取成绩大致有几个步骤:1.提取表格(或其他格式文件——含有姓名,身份证等信息)中的数据,为进行准考证爬取做准备.2.下载准考证文件并提取出准考证和姓名信息.3.根据得到信息进行数据分析和存储 ...
python批量爬取动漫免费看！！
实现效果运行环境 IDE VS2019 Python3.7 Chrome.ChromeDriver Chrome和ChromeDriver的版本需要相互对应先上代码,代码非常简短,包含空行也才50 ...
用Python批量爬取优质ip代理
前言有时候爬的次数太多时ip容易被禁,所以需要ip代理的帮助.今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理. 一.爬虫分析首先看看今天要爬取的网址 ...
python 批量爬取代理ip
import urllib.request import re import time import random def getResponse(url): req = urllib.request ...
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一.环境配置 1.安装selenium 2.使用正确的谷歌浏览器驱动二.使用步骤 1.加载chromedriver.exe 2.设置是否开启可视化界面 3.输入关键词.下载图片数.图 ...
python批量爬取猫咪图片
不多说直接上代码首先需要安装需要的库,安装命令如下 pip install BeautifulSoup pip install requests pip install urllib pip ins ...

随机推荐

N 叉树的层序遍历
给定一个 N 叉树,返回其节点值的层序遍历. (即从左到右,逐层遍历). 例如,给定一个 3叉树 : 返回其层序遍历: [ [1], [3,2,4], [5,6] ] 说明: 树的深度不会超过 100 ...
redis在Windows下以后台服务一键搭建集群(单机--伪集群)
redis在Windows下以后台服务一键搭建集群(单机--伪集群) 一.概述此教程介绍如何在windows系统中同一台机器上布置redis伪集群,同时要以后台服务的模式运行.布置以脚本的形式,一键 ...
Redis 优缺点
REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统. Redis是一个开源的使用ANSI C语言编写.遵守B ...
Linux常用命令-1
内部命令:属于Shell解释器的一部分(已调入内存) 外部命令:独立于Shell解释器之外的程序文件(在磁盘上) 获得命令帮助 1)内部命令help 查看Bash内部命令的帮助信息 2)命令的“--h ...
远程链接mongoDB robomongo
墙裂推荐一个软件robomongo 下载地址:https://robomongo.org/download 最初不用这个软件的时候需要shell链接mongoDB,折腾了半天结果版本不匹配用robo ...
2018年ElasticSearch6.2.2教程ELK搭建日志采集分析系统（目录）
章节一 2018年 ELK课程计划和效果演示 1.课程安排和效果演示简介:课程介绍和主要知识点说明,ES搜索接口演示,部署的ELK项目演示章节二 elasticSearch 6.2版本基础讲解到 ...
Vue源码学习二 ———— Vue原型对象包装
Vue原型对象的包装在Vue官网直接通过 script 标签导入的 Vue包是 umd模块的形式.在使用前都通过 new Vue({}).记录一下 Vue构造函数的包装. 在 src/core/in ...
Symmetric Difference-freecodecamp算法题目
Symmetric Difference 1.要求创建一个函数,接受两个或多个数组,返回所给数组的对等差分(symmetric difference) 例子:给出两个集合 (如集合 A = {1, ...
PAT 乙级 1044
题目题目地址:PAT 乙级 1044 思路简单的进制转化问题,根据题意进行相应的进制转化即可,因为题目已经划定了数据的求解范围,甚至连进制转化中的循环都不需要,进行简单计算就可以得出结果: 但本题 ...
jQuery支持链式编程,一句话实现左侧table页+常用筛选器总结
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...

python批量爬取文档

python批量爬取文档的更多相关文章

随机推荐

热门专题