1. 背景

在网络传输、设备之间转存、复制大文件等时,可能会出现传输前后数据不一致的情况。这种情况在网络这种相对更不稳定的环境中,容易出现。那么校验文件的完整性,也是势在必行的。

md5sum命令用于生成和校验文件的md5值。它会逐位对文件的内容进行校验。是文件的内容,与文件名无关,也就是文件内容相同,其md5值相同。md5值是一个128位的二进制数据,转换成16进制则是32(128/4)位的进制值。

md5校验,有很小的概率不同的文件生成的md5可能相同。比md5更安全的校验算法还有SHA*系列的。

在网络传输时,我们校验源文件获得其md5sum,传输完毕后,校验其目标文件,并对比如果源文件和目标文件md5 一致的话,则表示文件传输无异常。否则说明文件在传输过程中未正确传输。

2. 重要的选项

  • -b 以二进制模式读入文件内容
  • -t 以文本模式读入文件内容
  • -c 根据已生成的md5值,对现存文件进行校验
  • --status 校验完成后,不生成错误或正确的提示信息,可以通过命令的返回值来判断。

3. 使用举例

  • 生成文件md5值
md5sum file
1: [root@master lianxi]# md5sum data
2: 0a6de444981b68d6a049053296491e49 data
   1: [root@master lianxi]# md5sum *
2: 0a6de444981b68d6a049053296491e49 data
3: 13df384c47dd2638fd923f60c40224c6 data2

     md5sum校验的是文件内容,与文件名无关

  • 以文本模式或二进制模式读入文件并对其进行校验

-b 以二进制模式读入内容
        -t 以文本模式读入文件内容进行校验
        虽然是不同的读入模式,但是在进行求md5的时候,是一样的,因为是逐位校验的。
        如下文本文件,无论通过哪种模式读取md5都一致。

1: [root@master lianxi]# file data
2: data: ASCII text
3: [root@master lianxi]# md5sum data
4: 0a6de444981b68d6a049053296491e49 data
5: [root@master lianxi]# md5sum -b data
6: 0a6de444981b68d6a049053296491e49 *data
7: [root@master lianxi]# md5sum -t data
8: 0a6de444981b68d6a049053296491e49 data
  • md5值重定向

将生成md5值重定向到指定的文件,通常文件的扩展名我们会命为.md5

   1: [root@master lianxi]# md5sum data > data.md5
2: [root@master lianxi]# md5sum data
3: 0a6de444981b68d6a049053296491e49 data
4: [root@master lianxi]# cat data.md5
5: 0a6de444981b68d6a049053296491e49 data
  • 将多个文件的md5重定向到指定的文件

每个文件的md5生成为一行

   1: [root@master lianxi]# ls
2: data data.bak data.md5 d.md5
3: [root@master lianxi]# md5sum data* > d.md5
4: [root@master lianxi]# cat d.md5
5: 0a6de444981b68d6a049053296491e49 data
6: 0a6de444981b68d6a049053296491e49 data.bak
7: 0bd94658869c53cdcdf35a0f7de93e01 data.md5
  • 重定向追加

这里新增文件ls,单独求其md5,将其md5追加到文件中

   1: [root@master lianxi]# cp /bin/ls .
2: [root@master lianxi]# ls
3: data data.bak data.md5 d.md5 ls
4: [root@master lianxi]# md5sum ls >> d.md5
5: [root@master lianxi]# cat d.md5
6: 0a6de444981b68d6a049053296491e49 data
7: 0a6de444981b68d6a049053296491e49 data.bak
8: 0bd94658869c53cdcdf35a0f7de93e01 data.md5
9: c6337b20f3c159544bff5cf622391f9e ls
  • md5校验

-c选项来对文件md5进行校验。校验时,根据已生成的md5来进行校验。生成当前文件的md5,并和之前已经生成的md5进行对比,如果一致,则返回OK,否则返回错误信息
         md5sum –c d.md5

   1: [root@master lianxi]# md5sum -c d.md5
2: data: OK
3: data.bak: OK
4: data.md5: OK
5: ls: OK

修改文件后,文件md5变化

   1: [root@master lianxi]# ls
2: data
3: [root@master lianxi]# md5sum data
4: 2360752c3368ca4f89169f5ecc06e383 data
5: [root@master lianxi]# md5sum data > data.md5
6: [root@master lianxi]# echo "lwg" >> data
7: [root@master lianxi]# md5sum data
8: 287d237083a42f09785daa46a5fa3afe data
9: [root@master lianxi]# md5sum -c data.md5
10: data: FAILED
11: md5sum: WARNING: 1 of 1 computed checksum did NOT match

--status,不显示校验信息,以命令返回值来判断
         校验一致返回0,不一致返回1

   1: [root@master lianxi]# md5sum -c data.md5
2: data: FAILED
3: md5sum: WARNING: 1 of 1 computed checksum did NOT match
4: [root@master lianxi]# md5sum -c --status data.md5
5: [root@master lianxi]# echo $?
6: 1
  • 多个文件文件校验和grep连用

通过grep将正确的信息过滤掉

   1: [root@master lianxi]# md5sum -c ../value.md5
2: acpid: OK
3: acpid.1: OK
4: anaconda.log: OK
5: anaconda.syslog: OK
6: anaconda.xlog: OK
7: boot.log: OK
8: boot.log.1: OK
9: ...
10: ...
11: 省略中间部分
12: ...
13: ...
14: yum.log.2: OK 15: md5sum: WARNING: 1 of 56 computed checksums did NOT match
1: [root@master lianxi]# md5sum -c ../value.md5 | grep -v OK
2: md5sum: WARNING: 1 of 56 computed checksums did NOT match
3: cron.1: FAILED

特殊说明
1)md5sum 是校验文件内容,与文件名是否相同无关

2)md5sum值逐位校验,所以文件越大,校验时间越长。

总结
通过md5sum来校验生成文件校验码,来发现文件传输(网络传输、复制、本地不同设备间的传输)异常造成的文件内容不一致的情况。

工作 实践应用场景:

需要比较2个rc1.tar.gz 包和rc2.tar.gz两个包,变更是不是和开发说的一致

1.获取包,确保包正确无误

获取包后,验证包的MD5值:md5sum rc*.tar.gz

2. 解压缩到指定目录

确保对应的目录存在

tar -zxvf  rc1.tar.gz -C ./test_rc1

tar -zxvf  rc2.tar.gz -C ./test_rc2

3. 递归生成各文件的的MD5值

find ./test_rc1 -type f -print0| xargs -0 md5sum >> rc1_md5.txt

find ./test_rc2 -type f -print0| xargs -0 md5sum >> rc2_md5.txt

4. 比较两文件的MD5值

diff -c rc1_md5.txt  rc2_md5.txt

或者用UltraCompare Professional比对结果

md5sum 文件一致性校验的更多相关文章

  1. python 全栈开发,Day26(hashlib文件一致性,configparser,logging,collections模块,deque,OrderedDict)

    一.hashlib文件一致性校验 为何要进行文件一致性校验? 为了确保你得到的文件是正确的版本,而没有被注入病毒和木马程序.例如我们经常在网上下载软件,而这些软件已经被注入了一些广告和病毒等,如果不进 ...

  2. Java 获取 文件md5校验码

    讯雷下载的核心思想是校验文件的md5值,两个文件若md5相同则为同一文件. 当得到用户下载某个文件的请求后它根据数据库中保留的文件md5比对出拥有此文件的url, 将用户请求挂接到此url上并仿造一个 ...

  3. ETL应用:使用shell实现文件级校验的方法

    BI应用中,对接口规范性约束很重要,接口文件提供需要配套提供该文件的校验文件,校验文件格式如下: 序号 信息内容 数据类型及长度 说明 1 接口数据文件名称 CHAR(50) 2 文件的大小(字节数) ...

  4. FIT文件CRC校验

    校验FIT文件CRC代码做个记录,分为两步先校验头部然后再校验整个FIT文件.校验头部不是必需的看个人需要吧.为了偷懒使用Okio库,还有计算CRC的时候用的Garmin的FitSDK. public ...

  5. mysql主从一致性校验工具-pt

    一.环境 1.系统环境 系统 IP 主机名 说明 server_id centos6.7 MasterIP master 数据库:主 177  centos6.7 SlaveIP slave 数据库: ...

  6. windows 文件hash校验,字符串加密,base64转换工具

    对下载的文件使用hash校验验证文件完整性 1 import hashlib 2 def md5(): 3 md5_value = hashlib.md5() 4 with open('C:\Inte ...

  7. Linux中文件MD5校验

    md5sum命令用于生成文件的md5数字摘要,并可以验证文件内容是否发生了改变,间接地还可以检验两个文件内容是否完全相同.因为md5sum是读取文件内容来计算校验码的,因此只能验证文件内容,而无法验证 ...

  8. linux 文件 md5校验

    为解决官方发布的软件包被别人更改或者软件在传输过程中出现传输错误等问题,软件官方在提供软件包的同时,还提供一个保存MD5校验码的文件. Linux/unix中可以使用命令 # md5sum 文件名 方 ...

  9. Eclipse打开xml文件报校验错误解决办法

    XML文件在Eclipse中报校验错误: The content of element type "web-app" must match "(icon?,display ...

  10. C# 获取文件MD5校验码

    using System; using System.IO; using System.Security.Cryptography; using System.Text; public class M ...

随机推荐

  1. 在线免费ChatGPT,官方api

    作为一款强大的语言模型,ChatGPT在自然语言处理领域享有较高声誉.现在,您可以在我们的在线平台上免费体验ChatGPT的功能了! 经过不断地优化和改进,我们的在线聊天机器人已经能够针对各种话题展示 ...

  2. 2023-06-20:给定一个长度为N的数组arr,arr[i]表示宝石的价值 你在某天遇到X价值的宝石, X价值如果是所有剩余宝石价值中的最小值,你会将该宝石送人 X价值如果不是所有剩余宝石价值中的

    2023-06-20:给定一个长度为N的数组arr,arr[i]表示宝石的价值 你在某天遇到X价值的宝石, X价值如果是所有剩余宝石价值中的最小值,你会将该宝石送人 X价值如果不是所有剩余宝石价值中的 ...

  3. 韩顺平Spring体系化笔记(内含ioc,aop,动态代理等底层原理)

    Spring Spring 核心学习内容 IOC.AOP. JdbcTemplate.声明式事务 1.Spring 几个重要概念 Spring 可以整合其他的框架(Spring 是管理框架的框架) S ...

  4. 本地python调试 问题笔记

    ImportError: cannot import name 'int_classes' from 'torch._six' 把  "from torch._six import stri ...

  5. php发起支付加密数据供获取订单状态使用

    <?php//作者主页: https://www.bz80.comnamespace Index\Controller; class PayController extends BaseCont ...

  6. Web网页音视频通话之Webrtc相关操作(一)

    目录 打开摄像头/关闭摄像头 静音/解除静音 打开视频/关闭视频 截图且下载 打开摄像头/关闭摄像头 效果图 HTML <!DOCTYPE html> <html lang=&quo ...

  7. [TSG开发日志4]算法组件、个人编写的库文件如何封装成DLL,如何更好地对接软件开发?

    写在前面 这个内容确实是我有点疏忽了,我以为做算法的同事应该多少对这方面会有点了解的.但是我想了一下我刚毕业的时候,确实对这方面的理解不深,查了很多资料才勉强搞懂什么意思,也是后来随着工程学习的愈加深 ...

  8. GaussDB技术解读丨高级压缩

    本文作者|华为云数据库GaussDB首席架构师 冯柯 [背景介绍] 数据压缩与关系数据库的结合,早已不是一个新鲜的话题,当前我们已经看到了各种各样数据库压缩的产品和解决方案.对于GaussDB来说,在 ...

  9. SSH远程主机执行命令:s2c

    #!/bin/bash ip=$1 ip_num=$(echo $ip | awk -F\. '{print NF}') if [ $ip_num -eq 2 ]; then ip=192.168.$ ...

  10. 超越.NET极限:我打造的高精度数值计算库

    超越.NET极限:我打造的高精度数值计算库 还记得那一天,我大学刚毕业,紧张又兴奋地走进人生第一场.NET工作面试.我还清楚地记得那个房间的气氛,空调呼呼地吹着,面试官的表情严肃而深沉.我们进行了一番 ...