PHP大数据导出之扩展phpoffice/phpexcel跟rap2hpoutre/fast-excel的测试效果对比

2023-06-01 00:00:00 数据 扩展 导出

大数据导出之扩展phpoffice/phpexcel跟rap2hpoutre/fast-excel测评对比



1.phpoffice/phpexcel

作为PHP常用导出EXCEL的扩展包,用了很多项目,虽然现在它不更新了


测试导出数据量:10万左右

不说了看看效果

执行开始时间:2021-03-02 14:11:05
执行结束时间:2021-03-02 14:13:15
执行时间:130秒
使用内存:192M
导出行数:68560


phpexcel是有缓存机制的:

有以下几种缓存方式可以使用:

cache_in_memory;

默认情况下,如果你不初始化任何缓存方式,PHPExcel将使用内存缓存的方式。

cache_in_memory_serialized;  

使用这种缓存方式,单元格会以序列化的方式保存在内存中,这是降低内存使用率性能比较高的一种方案。

cache_in_memory_gzip;

与序列化的方式类似,这种方法在序列化之后,又进行gzip压缩之后再放入内存中,这回跟进一步降低内存的使用,但是读取和写入时会有一些慢。

cache_to_discISAM;

当使用cache_to_discISAM这种方式时,所有的单元格将会保存在一个临时的磁盘文件中,只把他们的在文件中的位置保存在PHP的内存中,这会比任何一种缓存在内存中的方式都慢,但是能显著的降低内存的使用。临时磁盘文件在脚本运行结束是会自动删除。

cache_to_phpTemp;

类似cache_to_discISAM这种方式,使用cache_to_phpTemp时,所有的单元格会还存在php://temp I/O流中,只把他们的位置保存在PHP的内存中。PHP的php://memory包裹器将数据保存在内存中,php://temp的行为类似,但是当存储的数据大小超过内存限制时,会将数据保存在临时文件中,默认的大小是1MB,但是你可以在初始化时修改它 


加上缓存测试

$cacheMethod = \PHPExcel_CachedObjectStorageFactory::cache_to_discISAM;
$cacheSettings = ['dir' => $path];
\PHPExcel_Settings::setCacheStorageMethod($cacheMethod, $cacheSettings);
$PHPExcel = new \PHPExcel(); ......


测试结果如下:

1.cache_in_memory

执行开始时间:2021-03-02 14:18:45
执行结束时间:2021-03-02 14:21:04
执行时间:139秒
使用内存:192M
导出行数:68560


2.cache_in_memory_serialized

执行失败


3.cache_in_memory_gzip

执行开始时间:2021-03-02 14:24:26
执行结束时间:2021-03-02 14:27:25
执行时间:179秒
使用内存:182M
导出行数:68560


4.cache_to_discISAM

执行开始时间:2021-03-02 14:29:14
执行结束时间:2021-03-02 14:32:10
执行时间:176秒
使用内存:279M
导出行数:68560


可以发现,phpoffice/phpexcel是比较吃内存的,所以数据量大不建议使用



2.rap2hpoutre/fast-excel

一种更快(且对内存更友好)的替代方案,主要就是导出导入,功能较少


分两种默认执行跟用生成器执行




默认测试:

测试导出数据量:10万左右

执行开始时间:2021-03-02 17:50:07
执行结束时间:2021-03-02 17:50:14
执行时间:7秒
使用内存:103M
导出行数:99627


用生成器:

执行开始时间:2021-03-03 08:46:56
执行结束时间:2021-03-03 08:47:06
执行时间:10秒
使用内存:3M
导出行数:99627



测试导出数据量:60万左右

执行开始时间:2021-03-03 09:03:19
执行结束时间:2021-03-03 09:04:22
执行时间:63秒
使用内存:2M
导出行数:552119

在内部使用生成器时是一行一行地创建,因此不会消耗额外的内存。这会是一个耗时操作,因此请确保不会触到 max_execution_time 限制 (你可以使用队列、 任何的异步技术、增加最大执行时间、甚至是从 CLI 执行)。尽管这样,仍然要注意,不要因一个导出操作耗尽你的服务器所有的内存。


因此,借助「生成器」,你现在可以在借助这个包导出大数据


相关文章