时序图数据库AbutionGraph在公安金融场景的应用
GraphOLAM时序图数据库-AbutionGraph在公安金融领域的应用案例分享
经侦经典业务举例:
打击涉税、洗钱、du-博-q庄等,通过调度数据,发现团伙、资金链条(资金交易行为特征分析),刻画xi钱fan罪、团huo经营轨迹,生成资金链,定位金主。
业务背景
互联网和信息化技术的普及,不仅改变了人们的生活和生产方式,也给犯罪分子提供了更多的犯罪手段和模式,特别是在金钱活跃的经济领域。经济案件中的犯罪活动逐渐与互联网相融合,犯罪分子也逐渐开始使用大数据思维来躲避追踪,使得案件的线索和犯罪的证据容易被淹没在错综复杂的关系网络中,给侦查的情报分析工作提出了巨大挑战。应在犯罪手法变化多端的形式下,我们民警还使用传统的多种数据多张Excel方式对案件进行挖掘分析已经不是一般人力能够应付的了,所以需要更智能化的反诈技术来应对挑战。近年来,随着人工智能技术的深入发展,知识图谱掀起了一个新的研究的热潮。知识图谱作为一个语义网络,具有强大的语义处理能力和开放的数据组织能力,逐渐被应用于各大领域中。而公安业务主要是案件和各种各样的线索搜集、关联碰撞,线索之间的联系就是一张天然的语义网络,叫作社会网络可能更贴切,所谓“法网灰灰,疏而不漏”,所以使用知识图谱技术管理各类案件线索再适合不过了。应用知识图谱等人工智能技术,面向公安实战需求开展数据的深度整合和综合利用,构建一套基于大数据的统一数据采集、存储、分析、挖掘、应用的综合平台,是现代化提高打击犯罪效率的迫切需求。
技术方案
我们通过将案j线索知识化,通过对企业和个人银行资金交易明细、通话、出行、住宿、工商、税务等信息构建“资金账户-人-公司“关联知识图谱。从公安案j描述、笔录等非结构化文本中抽取嫌疑人、事件、物品、卡号、时间、地点等信息,补充到知识图谱中,形成完整的证据链,辅助公安刑侦、经侦进行案件线索侦查和挖掘工作。
1)以前的数据分析方案:
如图所示,历史数据或者以前的数据存储方式都是以表单进行存储和分析,不直观、多种类数据关系无法反映出来,如果关联上工商、税务、通话、出行等数据进行分析,那就是个大工程了,管理和搜索起来相当麻烦耗时。
2)现在的数据分析方案:
如上图所示,我们通过构建案件知识图谱,打通AJ线索、工商、物流、银行、车房产、通话数据之间的关联,以点线图的形式直观的可视化出来,这更符合人的思维理解。基于知识图谱的经侦情报分析系统,使多种数据的协同分析,辅助梳理AJ脉络,提高公安部门的信息侦查、数据收集、智能分析、经侦调度、精准预测分析能力,构建符合公安实战所需要的智能大数据支撑体系,让工作效率大大提升,进而推进经侦情报分析工作的变革与创新。
时序知识图谱在经济侦察(金融交易)中的应用
在公安知识图谱中,我们了解了图谱技术对于多源异构数据的关联分析能力,但却忽略了所有的犯罪都跟金钱交易相关,我们大多数时候都要分析案件关联人员的资金明细来定义案件性质,这还需要金融的资金交易分析能力。账单的数据量和关联信息要远远高于其它AJ信息,比如一个大型传销组织的关联数据就可能上千万,分析千万级数据一般的数据库系统都能够返回想要的结果,实效性可能得分钟级,更多时候我们还需要频繁的获取这千万帐号中的异常指标。在案件线索分析过程中,每次分析都需要很长的等待时间,这效率明显的低,特别是在交易账单的分析时,需要对每一个账户和关联账户进行计算分析,并立即返回结果至前端页面展示,这不仅对数据库系统的实时计算要求非常高,还考验数据关联分析的能力。
技术挑战:实时计算能力恰恰是图数据库的弱项,实时关联分析能力恰恰是传统关系型数据库的弱点,再有,交易都是时间维且时序发生的,时间属性能衍生出许多重要的判别条件,直接作为预警研判的依据,这就需要数据库对时序数据的维度分析能力足够强,能够从年月日,甚至是早中晚等维度中发现异常,因为骗子往往具有一定行为规律。我们需要底层的数据平台满足这些要求的同时,关联上Aj信息,通过一张图、一张关系网,在案件分析时,网页上点击一下,就能查看到所有的历史和明细信息,所以还涉及多维异构数据的存储。从需求上分析,可谓多项技术挑战汇聚一处,面向实施方,降低服务器、技术开发、维护和时间成本等都具有非常大的挑战。
时序图数仓技术的应对方案:从这些挑战中,我们不难发现,如果市场上有一款数据能同时满足这些需求,即:案件数据关联碰撞(图数据库)+个体时序行为指标计算(时序数据库)+个体关联的多种数据-多维异构数据即席分析(数据仓库),集多种先进的刚需技术于一身,那么各方面的成本都能得到明显降低,只需关注以人为中心的数据开发,将数据标签化,即可一体化大数据支撑体系,这恰恰是“时序图数仓”AbutionGraph善于解决的问题。
如上图所示,我们可以给定一个时间窗口作为参数,计算出窗口内所有卡号的行为特征,如:平均每天转入/转出金额、转入转出次数、每一天大一笔交易金额、每一天的后一笔交易的余额等等。除了节点的维度,在关系上同样可以生成时序的指标,比如:每个月交易次数(判断诱骗规律)、交易频率(组织都有一定的敛财规律)、大和小交易差(新卡一般存在小额试卡行为)等。通过这些特征,业务人员可以依据经验快速的作出异常判断。
这些指标计算都是实时的,1秒就可以返回一年时间范围内的数据,我们通常称为“实时图分析”。目前为止,只有AbutionGraph能够满足这样的性能要求,其他图数据库的图计算都是离线的。我们曾经采用JanusGraph做对比测试,在千万级的总数据量和5台分布式集群中,响应是十几分钟级的,如果数据量再大,环路链路的分析就挂了。客户旧平台使用的是IBM的图分析工具i2,是一款离线的客户端软件,功能非常强大,就是很慢,通常分析一下要转3,5分钟,客户吐槽这太难受了。可以想象,民警正在页面上操作,有点线索了还得等几分钟才能探索下一步,等待越久效率越低,也很考验业务人员的耐心。
时序特征的价值
在交易数据中,每个节点都会和时间信息(交易确认时间)相关联,每一个时间步都是一个独立的联通子图,即时间步之间的交易具有相似性和连通性,不同时间步的节点不存在关系。
对于非法交易而言,可以观察到它在1-6和43-49时间步上存在“非法交易消失”的问题。可能的原因是交易费用昂贵导致非法交易成本上升,或监管问题等,终原因还需结合更多的数据指标进行支持分析,可以扩展更多的时间维作为指标。
(案件线索中的时间先后顺序也很有用)
关于交易时间得出的相关特征还有:
时间维度:年月日等维度的聚合指标;
出入度:当前交易节点出/入边数量,结合年月日等维度扩增指标效果更好;
交易费用:每一笔交易产生的交易费用,如果交易费用高也可能影响交易成本,可以记录Min/Max/Avg等;
邻居关联指标:除了自身特征,交易对方的所有人的行为指标也很有用,可以记录在每个节点上;
关系关联指标:计算每个交易对手的行为,很多人不只交易一次,可以存在边上做同比和环比。
这些聚合指标不仅可用来行为监控,对上百亿实体实时监测,进一步可以作为机器学习和深度学习模型的特征,识别异常的分类和聚类。
总结
知识图谱技术已经在公安刑侦、经侦工作中广泛应用,但都是孤立的、零星的应用(也有很多是停留在概念上的),没有形成一体化的联勤平台。知识图谱的落地不仅仅是把数据串联起来,更要从时间和空间上分析和探索其中的行为,挖掘更多的指标,真正实现一张网办案。从技术架构的角度,单一依靠一款图数据库只能将线索串联成知识,解决不了资金数据的及时分析,如果采用数据仓库分析行为指标,则难以关联数据进行分析(join操作的性能是臭名昭著的),时序的指标计算可以借助时序数据库做实时监控,但又无法关联数据。总之,我们想要完成这样一个基于知识图谱的经侦情报分析系统,在效率、易用性和资源开销的三极能效上,基于一款图数据库是办不到的,那么还得引入其他技术体系,资源成本和开发成本无疑都至少上升一倍。为了解决大数据中的交叉性(存储+计算+分析+检索)问题,我们花了5年的时间进行时序图数仓AbutionGraph的研发,并在中国科学院计算机网络信息中心做了大规模的项目验证。现在,您可以只使用一款数据库即可解决复杂的大数据问题,模型的实现不再局限于技术,而是用户的idea,您甚至可以把一整套运算逻辑交给数据库自动完成计算和更新,或是把音视频关联存储到知识网络里,采用人脸识别比对图片数据,再与其他数据关联分析。
来源 https://www.modb.pro/db/389123
相关文章