非结构化数据怎么治理？

2022-07-04 00:00:00 数据都是治理结构化要做

编辑：彭文华

来源：大数据架构师

彭友们好，我是老彭。近遇到几个项目，都跟非结构化数据脱不开关系。

老彭刚毕业的时候，做的是数据库的活儿，那都是结构化数据。后来有了hadoop技术，可以用来处理物联网、互联网的半结构化数据。

真正做非结构化的场景还是比较少的，大多是在项目中选取一两个点给意思意思一下。

但是现在已经发展这么多年了，大多数企业结构化数据多少有些基础了，非结构化数据治理还是一片空白。今天就唠唠这个话题~~

非结构化数据

这里说的非结构化数据特指：

1、公文、研究报告等各种文档

2、监控视频等各种音视频

3、设计图等各种特殊文件

这些东西想想就很费劲。与数据库里的结构化数据不一样，这些数据的问题更严重。我们随便想想都能罗列几个出来：

1、没有统一存储（各种附件，各种微信传输）

2、没有统一标准（都是各自写的文件）

3、数据种类特别多（除了结构化的，都是非结构化、半结构化的）

4、法外之地，治理盲区（次知道处理非结构化数据的方法是TF/IDF词频统计，次知道非结构化应用是词云）

5、没人管，不知道怎么管（有档案管理室、档案管理员的企业非常非常少）

如果你原意，自己都还能再列个十条八条的。总之，这就是个巨坑！

非结构化数据治理

其实按我说，绝大多数企业的非结构化数据还远远没有具备“治理”的前期条件。

因为他们连数据都还没准备好，全都散落在各个地方，你就说怎么治？

对于结构化数据，我们知道要盘点，要做标准，要弄主数据，要梳理指标，要做质量控制。因为我们知道数据就在那几个库里。

不管数据库有多少个，表有多少张，我们知道，数据就在那里。但是非结构化数据不一样啊！鬼知道在哪里！

有档案管理室、知识中心的公司，还算好的，不管全不全，总归有个集中的地方。

但是更多的，都是各自存储：OA、邮箱、云盘、个人存储，到处都是！没法弄！

所以，想要做非结构化数据治理，步是什么？数据盘点吗？数据汇聚吗？

NONONONONO！

首先要做的，是对企业的非结构化数据的分布进行梳理，知道哪些是我们治理的重心才行！

你就说，这么多各种非结构化数据，哪些多，哪些少？哪些重要，哪些次要？哪些先治理？哪些后治理？哪些对业务影响大？哪些对业务影响小？哪些价值大？哪些价值小？

这些问题都不搞清楚，就闷头干活，谁知道你干了半天是不是有效的？

你可能会问了，那搞清楚了这些，是不是就该汇聚数据了？

NONONONONO！

还是不行。还是那句话，你得有一个牵引才行。一般来说，好是应用牵引比较好。跟数仓建设逻辑一样，自下而上建设见效快。

个项目，必须速胜！给所有人信心才行。否则遥遥无期，谁都受不了。

所以第二步应该是根据业务，拟定一个合适的应用，然后再快速收集部分数据，用NLP等技术将非结构化数据结构化，然后再利用数据库、大数据、图计算等技术处理数据，做出一两个能看到效果的应用。

比如这个：

在报销场景中，用OCR识别，用RPA进行发票验真、数据校对，实现快速报销、记账。

这样就能帮助哥们解放报销的时间了：

小结

非结构化数据管理很难，非常难，不管是技术还是管理，都比结构化数据难上N个量级。工作的方式方法也完全不一样，需要慎重！一定要慎重啊！！！

相关文章