node.js整理 03文件操作-遍历目录和文本编码

遍历目录

递归算法

遍历目录时一般使用递归算法，否则就难以编写出简洁的代码。
递归算法与数学归纳法类似，通过不断缩小问题的规模来解决问题

function factorial(n) {

    if (n === 1) {

        return 1;

    } else {

        return n * factorial(n - 1);

    }

}

// 使用递归算法编写的代码虽然简洁，但由于每递归一次就产生一次函数调用，在需要优先考虑性能时，需要把递归算法转换为循环算法，以减少函数调用次数。

遍历算法

目录是一个树状结构，在遍历时一般使用深度优先+先序遍历算法。
深度优先，意味着到达一个节点后，首先接着遍历子节点而不是邻居节点。
先序遍历，意味着首次到达了某节点就算遍历完成，而不是最后一次返回某节点才算数。
因此使用这种遍历方式时，下边这棵树的遍历顺序是A > B > D > E > C > F。

同步遍历

function travel (dir, cb) {

  fs.readdirSync(dir).forEach(function (file) {

    var pathname = path.join(dir, file);

    if (fs.statSync(pathname).isDirectory()) {

      travel (pathname, callbakc);

    }  else {

      callback(pathname);

    }

  });

}

该函数以某个目录作为遍历的起点。遇到一个子目录时，就先接着遍历子目录。遇到一个文件时，就把文件的绝对路径传给回调函数。回调函数拿到文件路径后，就可以做各种判断和处理。因此假设有以下目录：

- /home/user/

    - foo/

        x.js

    - bar/

        y.js

    z.css

使用以下代码遍历该目录时，得到的输入如下。

travel('/home/user', function (pathname) {

    console.log(pathname);

});

------------------------

/home/user/foo/x.js

/home/user/bar/y.js

/home/user/z.css

异步遍历

如果读取目录或读取文件状态时使用的是异步API，目录遍历函数实现起来会有些复杂，但原理完全相同

function travel(dir, callback, finish) {

    fs.readdir(dir, function (err, files) {

        (function next(i) {

            if (i < files.length) {

                var pathname = path.join(dir, files[i]);

                fs.stat(pathname, function (err, stats) {

                    if (stats.isDirectory()) {

                        travel(pathname, callback, function () {

                            next(i + 1);

                        });

                    } else {

                        callback(pathname, function () {

                            next(i + 1);

                        });

                    }

                });

            } else {

                finish && finish();

            }

        }(0));

    });

}

文本编码

常用的文本编码有UTF8和GBK两种，并且UTF8文件还可能带有BOM。在读取不同编码的文本文件时，需要将文件内容转换为JS使用的UTF8编码字符串后才能正常处理。

BOM的移除

BOM用于标记一个文本文件使用Unicode编码，其本身是一个Unicode字符（"\uFEFF"），位于文本文件头部
在不同的Unicode编码下，BOM字符对应的二进制字节如下：

    Bytes      Encoding

----------------------------

    FE FF       UTF16BE

    FF FE       UTF16LE

    EF BB BF    UTF8

因此，可以根据文本文件头几个字节等于啥来判断文件是否包含BOM，以及使用哪种Unicode编码。
BOM字符虽然起到了标记文件编码的作用，其本身却不属于文件内容的一部分，如果读取文本文件时不去掉BOM，在某些使用场景下就会有问题。
例如我们把几个JS文件合并成一个文件后，如果文件中间含有BOM字符，就会导致浏览器JS语法错误。因此，使用NodeJS读取文本文件时，一般需要去掉BOM。
以下代码实现了识别和去除UTF8 BOM的功能。

function readText(pathname) {

    var bin = fs.readFileSync(pathname);

    if (bin[0] === 0xEF && bin[1] === 0xBB && bin[2] === 0xBF) {

        bin = bin.slice(3);

    }

    return bin.toString('utf-8');

}

GBK转UTF8

NodeJS支持在读取文本文件时，或者在Buffer转换为字符串时指定文本编码; 但是，GBK编码不在NodeJS自身支持范围内。
一般我们借助iconv-lite这个三方包来转换编码。使用NPM下载该包后，可以按下边方式编写一个读取GBK文本文件的函数。

var iconv = require('iconv-lite');

function readGBKText(pathname) {

    var bin = fs.readFileSync(pathname);

    return iconv.decode(bin, 'gbk');

}

单字节编码

无法预知需要读取的文件采用哪种编码，因此也就无法指定正确的编码
首先，如果一个文本文件只包含英文字符，比如Hello World，那无论用GBK编码或是UTF8编码读取这个文件都是没问题的。这是因为在这些编码下，ASCII0~128范围内字符都使用相同的单字节编码。
反过来讲，即使一个文本文件中有中文等字符，如果需要处理的字符仅在ASCII0~128范围内，比如除了注释和字符串以外的JS代码，就可以统一使用单字节编码来读取文件，不用关心文件的实际编码是GBK还是UTF8。

1. GBK编码源文件内容：

    var foo = '中文';

2. 对应字节：

    76 61 72 20 66 6F 6F 20 3D 20 27 D6 D0 CE C4 27 3B

3. 使用单字节编码读取后得到的内容：

    var foo = '{乱码}{乱码}{乱码}{乱码}';

4. 替换内容：

    var bar = '{乱码}{乱码}{乱码}{乱码}';

5. 使用单字节编码保存后对应字节：

    76 61 72 20 62 61 72 20 3D 20 27 D6 D0 CE C4 27 3B

6. 使用GBK编码读取后得到内容：

    var bar = '中文';

这里的诀窍在于，不管大于0xEF的单个字节在单字节编码下被解析成什么乱码字符，使用同样的单字节编码保存这些乱码字符时，背后对应的字节保持不变。
NodeJS中自带了一种binary编码可以用来实现这个方法

function replace(pathname) {

    var str = fs.readFileSync(pathname, 'binary');

    str = str.replace('foo', 'bar');

    fs.writeFileSync(pathname, str, 'binary');

}

node.js整理 03文件操作-遍历目录和文本编码的更多相关文章

node.js整理 02文件操作－常用API
NodeJS不仅能做网络编程,而且能够操作文件. 拷贝小文件拷贝 var fs = require('fs'); function copy(src, dst) { fs.writeFileSync ...
node.js整理 04网络操作
简介 var http = require('http'); http.createServer(function (req, res) { res.writeHead(200, {'Content- ...
使用Node.JS监听文件夹变化
使用Node.JS监听文件夹改变有许多应用场合,比如: 构建自动编绎工具当源文件改变时,自动运行build过程,比如当你写CoffeeScript文件或SASS CSS文件时,保存之后可即时生成对应 ...
Linux基础(10)AIO项目设计与POSIX文件操作和目录管理
实现fast-cp :拷贝文件到目标对象 Linux的七种文件类型 :https://blog.csdn.net/linkvivi/article/details/79834143 ls -al :h ...
node.js 学习03
node.js学习03 解决浏览器接收服务端信息之后乱码的问题: 服务器通过设置http响应报文头,告诉浏览器使用相应的编码来解析网页. res.setHeader('Content','text/ ...
node.js编译less文件
大多数文章对于到底怎样编译less文件并没有一个详细的说明,清一色的grunt命令,看得也是晕晕的,所以也就有了这篇手记的存在. 步入正题 1.安装配置好sublime text3(包括各种实用插件) ...
node 学习笔记 - fs 文件操作
本文同步自我的个人博客:http://www.52cik.com/2015/12/03/learn-node-fs.html 最近看到群里不少大神都开始玩 node 了,我感觉跟他们步伐越来越大了, ...
Node基础篇（文件操作）
文件操作相关模块 Node内核提供了很多与文件操作相关的模块,每个模块都提供了一些最基本的操作API,在NPM中也有社区提供的功能包 fs: 基础的文件操作 API path: 提供和路径相关的操作 ...
Node.js入门：文件查找机制
文件查找流程图从文件模块缓存中加载尽管原生模块与文件模块的优先级不同,但是都不会优先于从文件模块的缓存中加载已经存在的模块. 从原生模块加载原生模块的优先级仅次于文件模块缓存的优 ...

随机推荐

跨浏览器的事件对象-------EventUtil 中的方法及用法
什么是EventUti----封装好的事件对象在JavaScript中,DOM0级.DOM2级与旧版本IE(8-)为对象添加事件的方法不同为了以跨浏览器的方式处理事件,需要编写一段“通用代码”,即 ...
用Mybatis返回Map,List<Map>
返回Map,Mybatis配置如下 : <select id="getCountyHashMap" resultType="java.util.HashMap&qu ...
3.UNION
--联合结果集union(集合运算符-- group by StudentNo union ---union可以合并多个结果集 --它有两个前提和一个注意: --1.合并的结果集的列数必须完全一致 - ...
【leetcode】Reverse Words in a String(hard)☆
Given an input string, reverse the string word by word. For example,Given s = "the sky is blue& ...
Httpsqs的安装以及安装过程错误的解决方法转
需求 :进行商品搜索的时候,要从索引中进行搜索,由于后台要更新商品和插入商品,当时考虑到了怎么来插入新的索引和更新索引的问题,通过讨论,大家决定用Httpsqs这个消息中间来通知插入新索引和删除索引最 ...
struts.xml配置详解
struts.xml是我们在开发中利用率最高的文件,也是Struts2中最重要的配置文件. 一下分别介绍一下几个struts.xml中常用到的标签 1.<include> 利用includ ...
backBarButtonItem 替换
最上级vc里面加下级设置生效 UIImage* image = [UIImage imageNamed:@"back_button.png"]; [item setBackBut ...
比较各大挪动门户网站淘宝、京东、网易、新浪、腾讯meta标签的异同
首先先展示一下各个网站的有关meta标签的代码: 网易 <meta charset="UTF-8"> <meta content="width=devi ...
图结构练习——最短路径（floyd算法(弗洛伊德)）
图结构练习——最短路径 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目描述给定一个带权无向图,求节点1到节点n的最短路径. 输 ...
ytu 2558: 游起来吧！超妹！（水题，趣味数学题）
2558: 游起来吧!超妹! Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 7 Solved: 3[Submit][Status][Web Board ...

node.js整理 03文件操作-遍历目录和文本编码

遍历目录

递归算法

遍历算法

同步遍历

异步遍历

文本编码

BOM的移除

GBK转UTF8

单字节编码

node.js整理 03文件操作-遍历目录和文本编码的更多相关文章

随机推荐

热门专题