用 Python 简化数据处理流程的 w

2023-01-31 02:01:59 数据处理 流程 简化

注1:本文同步也发表在我的独立博客中。

注2:本文所述方法肯定不是最简单的,但对我这非编程相关专业的人来说已经提高很多效率了。如果你有更好的办法,欢迎留言。

如果同样的一个程序,改变一系列参数,分别计算结果,我一般选择把这个程序复制很多份,放在不同的文件夹里,然后写几个批处理文件(写几个是为了能同时几个一起算),按一定的次序分别执行它们,并把结果保存的相应的目录。保存的结果有很多时候是逗号分隔的csv文件,这时候如果想作图的话,就需要从每个文件中拷出数据来,然后复制到 Origin 中进行绘图。

这样的 workflow 在对付我之前面对的多数问题都 ok,但如果保存的数据量大了,尤其是每一个 csv 文件中的列数多了(比如10列以上),或者 copy 出来的数据需要进行修改、筛选等复杂操作时,就显得有些繁琐和吃力了。相比之下,用 python 来读取数据,并进行后续的处理和绘图就会简单一些,并且有更好的一致性。

举例来说,比如按不同的参数,跑了10组结果,分别存在 param1~param10的文件夹中,每个文件夹中都有 result.txt 的文件。按我原来的做法,就是分别打开每个文件夹,把所有的数据拷到一个大的 excel 表中,进行了后处理之后,再复制到 Origin 中作图。这样的做法,会有几个潜在的问题。

  1. 当结果中的列数很多时,最后的 Excel 总表的列数会更多得多,处理起来不方便;
  2. 在 Excel 中处理数据虽然也算方便,但处理过程不直观;
  3. 需要在多个软件中来回复制数据,如果数据发生变化,要重新走一遍所有流程。

而如果用 Python 来做这些事,至少一致性会好很多,因为读取数据、处理数据以及作图三大功能它都能很简单地完成,尤其是当前两步已经完成的时候,作图其实就已经比用 Origin 更方便了。读取数据很简单,可以用专门读取 csv 格式的函数,也可以直接用 numpy 自带的 genfromtxt,一次性就可以从所有目录里把数据读成 numpy 数组。而处理数据和作图本来也就是 Python 的强项。

按 Python 的这种 workflow,也许第一次做的时候花费的时间更长一些,但只要走通了第一步,后面任何一个环节发生修改,比如源数据修改了,或者数据处理稍作改变,或者作图的格式需要修改,这些都只需要在代码中作很小的改动,就可以很快地看到结果,而不再需要在几个软件中倒来倒去。

通过编程的学习,慢慢带来的这些小改变,虽然每一次都只是提升一点点,但这种「把繁琐的事情写成自动程序让电脑完成」的思维,确实大有帮助。

相关文章