[爬虫]2.3.1 使用Python操作文件系统

博客0214 2026-06-19 16:40:23 原文

Python提供了许多内置库来处理文件系统，如os、shutil和pathlib等，这些库可以帮助你创建、删除、读取、写入文件和目录。

读取文件

在Python中，你可以使用内置的open函数来打开一个文件。open函数返回一个文件对象，你可以对这个对象进行各种操作。

以下是一个读取文件的例子：

with open('example.txt', 'r') as f:

    content = f.read()

print(content)

open函数的第一个参数是文件的路径，第二个参数是模式。在这个例子中，模式是'r'，表示读取。

使用with语句可以自动关闭文件，这是一个好习惯。

read方法可以读取文件的全部内容。如果文件很大，你可能想要使用readline或readlines方法来分行读取。

写入文件

你也可以使用open函数来写入文件。只需将模式改为'w'或'a'即可。'w'表示写入，如果文件已存在，它将被覆盖。'a'表示追加，如果文件已存在，新的内容将被添加到文件的末尾。

以下是一个写入文件的例子：

with open('example.txt', 'w') as f:

    f.write('Hello, Python!')

write方法可以将一个字符串写入文件。

操作目录

你可以使用os库来操作目录。

例如，你可以创建一个新的目录：

import os

os.mkdir('example')

你也可以删除一个目录：

os.rmdir('example')

你可以获取当前的工作目录：

cwd = os.getcwd()

print(cwd)

你也可以改变工作目录：

os.chdir('/path/to/directory')

文件路径

在处理文件路径时，你可能会遇到许多问题，如路径分隔符在不同操作系统下的差异。为了解决这些问题，你可以使用os.path或pathlib库。

以下是一些常用的路径操作：

import os

# 连接路径

path = os.path.join('directory', 'file.txt')

# 分割路径

directory, file = os.path.split(path)

# 获取文件的扩展名

extension = os.path.splitext(file)[1]

# 检查文件或目录是否存在

exists = os.path.exists(path)

这就是Python处理文件系统的基本知识。现在，你可以尝试使用这些知识来存储你爬取的数据了。

推荐阅读：

https://mp.weixin.qq.com/s/dV2JzXfgjDdCmWRmE0glDA

https://mp.weixin.qq.com/s/an83QZOWXHqll3SGPYTL5g

[爬虫]2.3.1 使用Python操作文件系统的更多相关文章

第三百五十节，Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求
第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为 ...
爬虫(九)：python操作MySQL、MongoDB
1. python操作MySQL 1.1 MySQL基础在java基础部分就写过了. https://www.cnblogs.com/liuhui0308/p/11891844.html 1.2 p ...
Python 操作 MySQL 的5种方式(转)
Python 操作 MySQL 的5种方式不管你是做数据分析,还是网络爬虫,Web 开发.亦或是机器学习,你都离不开要和数据库打交道,而 MySQL 又是最流行的一种数据库,这篇文章介绍 Pytho ...
Redis常用操作大全和Python操作Redis
简单使用 utils.py import redis POOL=redis.ConnectionPool(host='127.0.0.1',port=6379) view.py 第一种方式 (通用方式 ...
Python学习笔记 - day11 - Python操作数据库
MySQL的事务 MySQL的事务支持不是绑定在MySQL服务器本身,而是与存储引擎相关,MySQL的两种引擎如下: 1.MyISAM:不支持事务,用于只读程序提高性能 2.InnoDB:支持ACID ...
redis缓存数据库及Python操作redis
缓存数据库介绍 NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,泛指非关系型的数据库,随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站, 特 ...
redis集群配置及python操作
之前我们分析过喜马拉雅的爬取信息,使用分布式爬取,而且需要修改scrapy-redis的过滤算法为布隆过滤来减少redis内存占用,最后考虑这样还是不一定够,那么redis集群就是更好的一种选择方式了 ...
Python 操作 MySQL 的5种方式
不管你是做数据分析,还是网络爬虫,Web 开发.亦或是机器学习,你都离不开要和数据库打交道,而 MySQL 又是最流行的一种数据库,这篇文章介绍 Python 操作 MySQL 的5种方式,你可以在实 ...
python操作MySQL，SQL注入的问题，SQL语句补充，视图触发器存储过程，事务，流程控制，函数
python操作MySQL 使用过程: 引用API模块获取与数据库的连接执行sql语句与存储过程关闭数据库连接由于能操作MySQL的模块是第三方模块,我们需要pip安装. pip3 insta ...
Python（九） Python 操作 MySQL 之 pysql 与 SQLAchemy
本文针对 Python 操作 MySQL 主要使用的两种方式讲解: 原生模块 pymsql ORM框架 SQLAchemy 本章内容: pymsql 执行 sql 增\删\改\查语句 pymsql ...

随机推荐

2022CSP游记
目录 CSP-J2022 7:45 8:15 8:27 8:38 9:12 9:23 10:34 11:57 中午 CSP-S2022 2:27 4:15 6:12 估分普及提高自查出分废物 ...
RocketMQ的简单使用
大家好,我是Leo!今天来和大家分享RocketMQ的一些用法. 领域模型介绍 Producer: 用于生产消息的运行实体. Topic: 主题,用于消息传输和存储的分组容器. MessageQueu ...
如何将c#在线编辑器嵌入自己项目
如何将c#在线编辑器嵌入自己项目首先我们需要介绍一下这个在线编辑器,当前的在线编辑器支持c#的代码编译运行,并且无需后台服务,基于WebAssembly实现的在浏览器端去执行我们的c#代码,基于Ro ...
WPF入门教程系列二十四——DataGrid使用示例(1)
WPF入门教程系列二--Application介绍 WPF入门教程系列三--Application介绍(续) WPF入门教程系列四--Dispatcher介绍 WPF入门教程系列五--Window 介 ...
Django-账号用户密码修改
Django账号密码修改命令: python manage.py changepassword python manage.py changepassword 实操分析: 第一次修改失败是因为违反了密 ...
Grafana系列-统一展示-11-Logs Traces无缝跳转
系列文章 Grafana 系列文章概述如前文 Grafana 系列 - 统一展示 -1- 开篇所述, Grafana 可以了解所有相关的数据--以及它们之间的关系--对于尽快根治事件和确定意外系统 ...
一个线上全文索引BUG的排查：关于类阿拉件数字的分词与检索
说到全文检索的分词,多半讲到的是中(日韩)文分词,少有英文等拉丁文系语言,因为英语单词天然就是分词的. 但更少讲到阿拉伯数字.比如金额,手机号码,座机号码等等. 以下不是传统的从0开始针对mysql全 ...
深入浅出 OkHttp 源码解析及应用实践
作者:vivo 互联网服务器团队- Tie Qinrui OkHttp 在 Java 和 Android 世界中被广泛使用,深入学习源代码有助于掌握软件特性和提高编程水平. 本文首先从源代码入手简要分 ...
【CF】掉分总结
比赛总结前情提要自从前段时间连续掉分,就心态崩了,还是自己太菜,一直想写个总结,看看这几场比赛都干了啥,以后准备怎么办.鸽了这么久的总结,是该写写了. 这是正文首先大致提一下情感曲线(菜的真实) ...
Java的Atomic原子类
Java SDK 并发包里提供了丰富的原子类,我们可以将其分为五个类别,这五个类别提供的方法基本上是相似的,并且每个类别都有若干原子类. 对基本数据类型的变量值进行原子更新: 对对象变量的指向进行原子 ...