解决Linux下文本文件中文乱码问题

上一篇我们提到了OS和DB的一些中文乱码问题解决，本篇我们继续介绍下在OS上的文本文件中文乱码问题。

操作系统是Linux(OEL 8.10)，所有文件是打了一个压缩包上传的，上传解压后发现其中的文本文件中文乱码。类似现象如下：

[oracle@dbtest AIDIR]$ cat yy.txt

ʵa) (b)֪

Ʒ

b)a)ʵ0;

这通常是文本文件的字符编码导致。

举个例子。

现在有两个文件：

xx.txt是我自己vi编辑新建的
yy.txt这里代表的是同事发我的一些测试文件

# 两个测试文本文件 xx.txt, yy.txt

[oracle@dbtest AIDIR]$ ls -l xx.txt

-rw-r--r-- 1 oracle oinstall 38 Mar 20 01:50 xx.txt

[oracle@dbtest AIDIR]$ ls -l yy.txt

-rw-r--r-- 1 oracle oinstall 291 Mar 20 01:50 yy.txt

# 使用file -i 文件名 查看其字符编码

[oracle@dbtest AIDIR]$ file -i xx.txt

xx.txt: text/plain; charset=utf-8

[oracle@dbtest AIDIR]$ file -i yy.txt

yy.txt: text/plain; charset=iso-8859-1

看到两个文件是charset=utf-8和charset=iso-8859-1，但同事已经提前告诉我相关测试文件是GBK编码的，所以我不需要过多考虑。

至于为什么显示iso-8859-1，是因为 file 命令有时可能会错误识别 GBK 为 ISO-8859-1。

所以这里真实情况是，分别是UTF-8和GBK。

下面需要的就是如何转换编码，需要用到iconv这个命令：

iconv 是一个用于字符编码转换的命令，在 Unix/Linux 系统中常见，主要用于不同字符集（如 GBK、UTF-8、ISO-8859-1 等）之间的转换。

使用iconv 命令尝试转换yy.txt到yy1.txt：

iconv -f GBK -t UTF-8 yy.txt > yy1.txt

若文件中的中文字符显示正常，说明我们的推断正确。

但涉及的文件其实很多，那么我们需要批量处理下：

方案1：基于现有文件名，按规则生成新文件

保留现有文件，安全可控，新的文件是依据现有文件名，额外添加了_utf8标识。

for file in *.txt; do

    iconv -f GBK -t UTF-8 "$file" -o "${file%.txt}_utf8.txt"

done

方案2：直接覆盖现有文件

文件名不变，适用于需要保持原文件路径的场景。

因为我的源文件是有备份的，所以可以采纳这种方法。

for file in *.txt; do

    iconv -f GBK -t UTF-8 "$file" -o tmpfile && mv tmpfile "$file"

done

解决Linux下文本文件中文乱码问题的更多相关文章

解决Linux下Oracle中文乱码的一些心得体会，转自
以下转自 http://blog.itpub.net/29151695/viewspace-1173238/ 最近在linux上安装完oracle 10gR2后,又遇到了字符集乱码的问题,之前在网上找 ...
解决Linux下sqlplus中文乱码问题
错误现象:在windows下用其他工具访问oracle,确认中文正常显示.在Linux下使用sqlplus查询数据表中文内容出现乱码. 分析及解决:因为windows下正常,所以问题应出现在Linux ...
解决windows下vim中文乱码
解决windows下vim中文乱码 windows安装了vim8,也就是gvim后,打开带有中文的文档,显示中文是乱码. 毕竟有许多文档我是用utf-8编码的,所以解决的办法是设置一下编码为utf-8 ...
解决linux下unzip中文有乱码的问题
xxx.zip 中有中文的文件,在linux下unzip就会有乱码. 解决办法:安装7zip 去http://sourceforge.net/projects/p7zip/files/latest/d ...
.net core在linux下图片中文乱码
不得不吐槽一下,.net core 2.2的System.Drawing在linux有很多坑,又是依赖libgdiplus,又是依赖gdiplus,依赖解决了又来了个中文乱码,怎的一声哀叹这里做个笔 ...
解决linux下导入数据库乱码问题
引言:在windows下的mysql数据库导出SQL文件,在Linux下导入后显示为乱码. 1.启动Mysql服务及创建数据库(下面uushop为我将创建的数据库名) service mysqld s ...
解决Ubuntu下gedit中文乱码的情况
windows下简体中文多用GBK编码 (或GB2312, GB18030), 而linux下多用UTF-8编码. 因此,一般来说在微软平台编辑的中文txt不能在ubuntu下直接打开查看,除非在保存 ...
linux下python中文乱码解决方案
1. 场景描述 linux服务器下安装了Anaconda3,执行Pyhton的K-means算法,结果出现如下图的中文字符乱码.上次已经解决了,忘记记录解决流程了,这次配置了一台新的服务器,又出现,默 ...
解决mac下sublime中文乱码
Mac OS X 属于 Apple 独家演绎的 Unix 分支版本,默认使用 UTF-8 编码,当使用不同开发平台的小伙伴们,共同维护一份代码的时候,尤其现在很多人都还在用 Windows 系统的时候 ...
linux下mysql中文乱码
登录mysql执行mysql> show variables like 'character%';发现编码有些不是utf-8 修改/etc/mysql/my.cnf,网上说的是/etc/my.c ...

随机推荐

ImageSharp：高性能跨平台.NET开源图形库
在.Net中,System.Drawing有平台限制的问题,如果需要跨平台就需要使用第三方库. 今天推荐一个.NET开源图形库,不依赖任何库,支持跨平台的图形库. 01 项目简介 ImageSharp ...
Linux安全加固（一）
1.Linux关键用户文件/etc/password文件 Root:x:0:0:root:/bin/bash ●用户名:代表用户账号的字符串.通常长度不超过8个字符,并且由大小写字母和/或数字组成.登 ...
Note -「M. Analysis 24 Aut. Prev.」“重聚是你我共同的回答”
\[\textit{Litar!} \newcommand{\opn}[1]{\operatorname{#1}} \newcommand{\card}[0]{\opn{card}} \newcomm ...
CDS标准视图：技术对象检验级别描述 I_TechObjInspectionLevelText
视图名称:技术对象检验级别描述 I_TechObjInspectionLevelText 视图类型:基础视图视图代码: 点击查看代码 @AbapCatalog: { sqlViewName: 'IT ...
Mongodb使用手册-文档存储
简介 MongoDB 是一个基于分布式文件存储的NoSQL数据库由C++语言编写,运行稳定,性能高旨在为 WEB 应用提供可扩展的高性能数据存储解决方案查看官方网站 MongoDB特点模式自由 ...
w3cschool-Flink 入门
Flink 入门 Apache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态的计算.Flink被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算. A ...
Codeforces Round 967 (Div. 2)
题目链接:Codeforces Round 967 (Div. 2) - Codeforces 总结:B题没测试就交wa一发,C题一直没想到怎么回溯,哎. A. Make All Equal tag: ...
第4章 C#的高级特性
第4章 C#的高级特性 4.1 委托 4.1.2 多播委托对值为 null 的委托变量进行 + 或 += 操作,等价于为变量指定一个新值: SomeDelegate d = null; d += ...
FLink自定义Sink，生产的数据导出到mysql
一.自定义生产数据 https://www.cnblogs.com/robots2/p/16048729.html 二.生产转化数据,导出到mysql 2.1 建表语句 CREATE TABLE `v ...
鸿蒙开发 - 数据持久化 Preferences (内存存储) (封装)
这篇文章介绍鸿蒙中的 Preferences,它是一种轻量级存储方式,数据存储在内存中,用于存储少量的数据. 可以执行 flush() 方法将内存中的数据写入到磁盘文件,保证下次重启后数据可以继续使用 ...

解决Linux下文本文件中文乱码问题

方案1：基于现有文件名，按规则生成新文件

方案2：直接覆盖现有文件

解决Linux下文本文件中文乱码问题的更多相关文章

随机推荐

热门专题