Linux 下 ls 和 du 计算的文件差别那么大?排查后结果竟是这样

2022-07-28 00:00:00 命令 文件 大小 磁盘空间 给他
来自公众号:运维研习社

事情是这样的,昨天开发让我给他倒个日志,由于历史原因吧,没有日志系统,直接上服务器看了下他要的日志大小

[root@xxxxx apps]du -hs smartorder.log
9.0G smartorder.log

看了下,不小,我问开发,要整个日志吗,还是可以按日期给他切一下,他说要整个,我想着日志文件,通常压缩完也没多少,就压缩了一下,压缩完确实也不是太大

[root@xxxxx apps]du -hs smartorder.log.tar.gz 
744M smartorder.log.tar.gz  

没多想,我就给他down下来发过去了

晚上回家,哥们找到我了

我说不可能啊,怎么可能100G,吓到我了,他还给我发了个截图

确实是100G,没办法,开电脑上服务器查看,通过ls指定--block-size查看大小

[root@xxxxx apps]ls -l --block-size=G smartorder.log
-rw-r--r-- 1 root root 103G Oct 21 09:00 smartorder.log

这。。。。。

后来想起来,du查找的时候是按照block大小计算的,计算的是实际占用磁盘空间的大小,但即便这样,按道理,和ls命令查出来的大小不会差太多,但是凡事有例外

linux中有一种文件叫做sparse file,它可以延迟分配磁盘空间,类似于我们用的虚拟机,在创建虚拟机的时候,可以分配20G的磁盘空间,但是你创建完后,去查看宿主机磁盘占用,确实际没有占用那么多

Sparse File专业名称叫稀疏文件,这是Unix类和NTFS等文件系统的一个特性

开始时,一个sparse file不包含数据,也没有分配到用来存储用户数据的磁盘空间。当数据被写入sparse file时,NTFS逐渐为其分配磁盘空间。

Sparse File以64KB为单位增量增长,所以磁盘上sparse file的大小总是64KB的倍数

Sparse File就是在文件中留有很多空余空间,留备将来插入数据使用。如果这些空余空间被ASCII码的NULL字符占据,并且这些空间相当大,那么,这个文件就被称为稀疏文件,而且,并不分配相应的磁盘块。

很显然,我上面遇到的就是一个Sparse File,那么这么大的一个sparse file,怎么处理?

其实cp命令有一个针对sparse文件拷贝优化的参数--spare=WHEN,WHEN的值为auto、always、never,默认为auto,如果设置为never则会自动填数据

同样支持sparse的命令还有tar、cpio、rsync,下面通过tar试下

[root@bibang-server apps]# tar cSf smartorder.log.tar smartorder.log
[root@bibang-server apps]ls -l --block-size=G smartorder.log.tar
-rw-r--r-- 1 root root 10G Oct 21 09:57 smartorder.log.tar

如何查找系统上的sparse file,或确认文件是否是sparse file?

[root@xxxxx apps]find ./smartorder.log -type f -printf "%S\t%p\n"
0.0886597 ./smartorder.log

如上,通过find命令,find命令通过%S输出的结果中,左边一列显示的值是(BLOCK-SIZE*st_blocks/st_size),sparse file的大小通常是小于1.0的

如果要查找文件系统上所有稀疏文件,可以通过以下find命令

find / -type f -printf "%S\t%p\n" | gawk '$1 < 1.0 {print}'

ok,今天的内容就到这里了,欢迎转发、在看、关注!


--- EOF ---

相关文章