Java.nio-随机读写汉字

笔者最近在用多线程来计算中文文本的标点符号数目，遇到了以下问题：

在Windows下，文本中汉字通常采用Unicode编码，这就导致需要随机(RandomAccessFile)读取文本时，产生乱码现象。
多线程计算前（假设有2个线程），需要将文本内容尽量等分成2份，并输出到新的文件中，再进行计算。

总体思路：

规定一次读取的字节数，再在存储和输出时转化成GBK编码
- 由于RandomAccessFile可以随机定位读取起始点，当规定了一次读取的字节数，也就规定了读取结束点。
- 按行读取，每一行的字节有对应的数组保存，转化成GBK后，写入输出文本。
引入java.nio，在读取文件和转化编码时方便很多，笔者认为java.io也可以实现。
- 关于NIO的详细教程可以参考：NIO系列教程
- 本文引入java.nio.ByteBuffer,java.nio.channels.FileChannel，前者无需解释，后者为通道，相当于流。

具体代码实现如下：

package Yue.IO;

import java.io.*;

import java.nio.ByteBuffer;

import java.nio.channels.FileChannel;

/**

 * 将文本内容尽量分成n份，使n个线程处理对应的文本

 */

public class SplitFile {

    int fileNum;                                                    //分离的文件数

    File fileIn = new File("E:\\白夜行.txt");

    int bufSize;

    SplitFile(int threadsNum) {

        fileNum = threadsNum;

        bufSize = (int) (fileIn.length() / fileNum);                //一次读取的字节数

    }

    FileChannel fileChaIn, fileChaOut;

    ByteBuffer rBuffer, wBuffer;

    /*设置缓冲区，读文件时，最后一行往往不完整，需要将存在断点的那一行保存，与下一次读文本时的第一行合并*/

    byte[] temp = new byte[0];

    /**

     * 按行具体读出每一个线程所要处理的文本内容

     *

     * @param NO    Thread-NO

     */

    public void readByLine(int NO) {

        String enter = "\n";

        byte[] lineByte;                                            //保存每一行读取内容

        /*确认读取范围*/

        try {

            RandomAccessFile raf = new RandomAccessFile(fileIn, "r");

            raf.seek(NO * bufSize);                                 //根据分离文本进程定位

            fileChaIn = raf.getChannel();

            rBuffer = ByteBuffer.allocate(bufSize);

        } catch (FileNotFoundException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        try {

            if (fileChaIn.read(rBuffer) != -1) {

                /*生成输出文件Part-No.txt*/

                try {

                    fileChaOut = new RandomAccessFile("E:\\Part-" + NO + ".txt", "rws").getChannel();

                    wBuffer = ByteBuffer.allocateDirect(bufSize);

                } catch (FileNotFoundException e) {

                    e.printStackTrace();

                }

                /*根据一次读取，确定本次输出的字节长度*/

                int rSize = rBuffer.position();

                byte[] bs = new byte[rSize];

                rBuffer.rewind();

                rBuffer.get(bs);

                rBuffer.clear();

                int startNum = 0;

                int LF = 10;                                        //换行符

                int CR = 13;                                        //回车符

                boolean hasLF = false;                              //是否有换行符

                for (int i = 0; i < rSize; i++) {

                    if (bs[i] == LF) {

                        hasLF = true;

                        int tempNum = temp.length;

                        int lineNum = i - startNum;

                        lineByte = new byte[tempNum + lineNum];     //数组大小已经去掉换行符

                        /*把上一次读取保存在缓冲区的内容和本次读取的这一行的内容合并，保存到lineByte[]中*/

                        System.arraycopy(temp, 0, lineByte, 0, tempNum);

                        temp = new byte[0];

                        System.arraycopy(bs, startNum, lineByte, tempNum, lineNum);

                        /*把该行内容转换成String类型，写入输出文件中*/

                        String line = new String(lineByte, 0, lineByte.length, "GBK");

                        writeByLine(line + enter);

                        /*过滤回车和换行*/

                        if (i == rSize - 1 && bs[i + 1] == CR) {

                            startNum = i + 2;

                        } else {

                            startNum = i + 1;

                        }

                    }

                }

                /*对每次读取的最后一行做特殊处理，将未读完整的当前行不输出，保存在缓冲区中，与下一次读取时合并*/

                if (hasLF) {

                    temp = new byte[bs.length - startNum];

                    System.arraycopy(bs, startNum, temp, 0, temp.length);

                } else {

                    /*兼容单次读取不足一行的情况*/

                    byte[] toTemp = new byte[bs.length + temp.length];

                    System.arraycopy(temp, 0, toTemp, 0, temp.length);

                    System.arraycopy(bs, 0, toTemp, temp.length, bs.length);

                    temp = toTemp;

                }

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            try {

                fileChaIn.close();

                fileChaOut.close();

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    }

    /**

     * 写入输出文件

     *

     * @param line 已转换成String类型的当前行文本内容

     */

    public void writeByLine(String line) {

        try {

            fileChaOut.write(wBuffer.wrap(line.getBytes("GBK")), fileChaOut.size());

        } catch (UnsupportedEncodingException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

Java.nio-随机读写汉字的更多相关文章

java中随机生成汉字
main方法中使用: //随机生成100个汉字 String ss=""; for(int i=0;i<100;i++){ ss+=getChinese(i); } Syst ...
java nio 缓冲区读写数据（图形详解）
Position 您可以回想一下,缓冲区实际上就是美化了的数组.在从通道读取时,您将所读取的数据放到底层的数组中. position 变量跟踪已经写了多少数据.更准确地说,它指定了下一个字节将放到数组 ...
Java基础之读文件——使用通道随机读写文件（RandomReadWrite）
控制台程序,使用通道随机读写primes_backup.bin文件. import static java.nio.file.StandardOpenOption.*; import java.nio ...
Java知多少（72）文件的随机读写
Java.io 包提供了 RandomAccessFile 类用于随机文件的创建和访问.使用这个类,可以跳转到文件的任意位置读写数据.程序可以在随机文件中插入数据,而不会破坏该文件的其他数据.此外,程 ...
Java编程的逻辑 (60) - 随机读写文件及其应用 - 实现一个简单的KV数据库
本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...
【JavaNIO的深入研究4】内存映射文件I/O，大文件读写操作，Java nio之MappedByteBuffer，高效文件/内存映射
内存映射文件能让你创建和修改那些因为太大而无法放入内存的文件.有了内存映射文件,你就可以认为文件已经全部读进了内存,然后把它当成一个非常大的数组来访问.这种解决办法能大大简化修改文件的代码.fileC ...
java大文件读写操作，java nio 之MappedByteBuffer，高效文件/内存映射
java处理大文件,一般用BufferedReader,BufferedInputStream这类带缓冲的Io类,不过如果文件超大的话,更快的方式是采用MappedByteBuffer. Mapped ...
java 随机读写访问流及seek方法
package stream; import java.io.File; import java.io.FileNotFoundException; import java.io.IOExceptio ...
Java IO流之普通文件流和随机读写流区别
普通文件流和随机读写流区别普通文件流:http://blog.csdn.net/baidu_37107022/article/details/71056011 FileInputStream和Fil ...

随机推荐

软件测试必备-前端知识点之css基础及ps的用法
CSS 一. css定义 css样式表.层叠样式表,级联样式表二. css基础语法 1. 写style标签,放在head标签里面的最后位置 2. 自己写的css代码,放在style标签里面三. c ...
Win10下Ubuntu bash上手
第一次发表博客,可能写的不是很好,希望大家谅解! 今天咱们来上手一下Windows10下的bash,首先这款bash是基于Ubuntu操作系统的一个移植,也是方便开发和学习Linux中的shell命令 ...
Redis进阶实践之十八使用管道模式加速Redis查询
一.引言学习redis 也有一段时间了,该接触的也差不多了.后来有一天,以为同事问我,如何向redis中批量的增加数据,肯定是大批量的,为了这主题,我从新找起了解决方案.目前 ...
MySQL多数据源笔记2-Spring多数据源一主多从读写分离(手写)
一.为什么要进行读写分离呢? 因为数据库的"写操作"操作是比较耗时的(写上万条条数据到Mysql可能要1分钟分钟).但是数据库的"读操作"却比"写操作 ...
MVC4不支持EF6解决方案 && Nuget控制台操作说明
问题背景:MVC4不支持EF6,所以要把EF6卸载然后安装EF5.只能降低版本EF5+MVC4或者EF6+MVC5; 这时候: Uninstall-Package EntityFramework -F ...
ServiceFabric极简文档-1.0 Service Fabric 自定义集群部署
Service Fabric 部署集群:https://docs.microsoft.com/zh-cn/azure/service-fabric/service-fabric-get-started ...
VMware静态地址上网
虚拟机通过dhcp获取ip,当系统重启时可能导致ip变更,出现不必要的麻烦,以下是通过nat模式设置虚拟机静态ip同时能够上网的方式. 编辑VMware,依次点击“编辑”--“虚拟网络编辑器” 注:为 ...
Linux系统命令归纳
常规操作命令: # netstat -atunpl |egrep "mysql|nginx"# vimdiff php.ini*# runlevel# rpm -e httpd - ...
针对微信的一篇推送附有的数据链接进行MapReduce统计
原推送引用:https://mp.weixin.qq.com/s/3qQqN6qzQ3a8_Au2qfZnVg 版权归原作者所有,如有侵权请及时联系本人,见谅! 原文采用Excel进行统计数据,这里采 ...
笔记：Maven 仓库和插件配置本机私服
通过配置POM中的配置仓库和插件仓库,只在当前项目生效,而实际应用中,我们希望通过一次配置就能让本机所有的Maven项目都使用自己的Maven私服,这个时候我们需要配置 settings.xml文件, ...

Java.nio-随机读写汉字

Java.nio-随机读写汉字的更多相关文章

随机推荐

热门专题