Gemini需要的数据集格式

2022-02-24 00:00:00 专区 订阅 付费 格式 转成

step1:
从Laboratory for Web Algorihmics下载wordassociation-2011.graph和wordassociation-2011.propertices两个文件:

wordassociation-2011.graph里的数据类型如下:

8ba7 a1d3 f18e 0175 81a4 dafc 254d e414
e524 220d 456a 4928 a2d8 af40 91da fcbe
8bb8 8461 6117 4fa0 a21d 8da6 9468 5394
60c0 4308 fd39 8a78 ac51 e518 c949 a98e
d579 0186 458f f254 835e 5861 a644 b620
d420 5388 2b29 58dd 15c1 8ce0 8c12 d2bb
04af 2a0a 6a9a 9ffc 3141 02dc 15b2 3421
4bd5 e1a1 0154 6311 b377 3812 0e5d e609
c553 542b d235 9010 10be 369b 1941 1b04
1746 1e00 6121 1fc2 f4cf d209 b02b 617d
1102 2410 56d8 204a 3992 dfff 0953 e415
e112 4454 c9a1 6004 11b5 350b 12b9 f8af
2540 86de 3d42 2328 b7a7 e13a 11b8 39d2
84e7 1aca 5880 1e4a 6158 3080 e662 138b
f254 82ba 0362 e282 cd25 59f1 9d5c 14db
1096 2b84 908e 843d f162 d482 1323 7f50
dca0 4bcf ff09 50c7 720a 6714 3ad8 40a5
8207 cc5e 70c5 3320 3271 f531 3042 8782
d742 022c 8b96 e265 a469 3ff0 a754 8ef4
5eec f58a 805f e864 a4a0 dc89 d155 0af4
9b03 315b 9776 244d 517f 50cc b0b2 d89a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
wordassociation-2011.propertices里是配置文件:

#BVGraph properties
#Tue Nov 08 15:39:23 CET 2011
compratio=0.883
bitsforblocks=37011
residualarcs=61314
version=0
zetak=3
residualexpstats=5117,4870,4366,4020,3550,3302,3208,3877,5799,6964,7015,4839,2091,1797,499
avgref=0.31
residualavggap=1333.624
avgbitsforoutdegrees=4.227
windowsize=7
bitsforintervals=9308
copiedarcs=8890
avgbitsforblocks=3.486
bitsperlink=10.646
bitsforresiduals=666674
bitsforreferences=10480
avgdist=0.514
successoravgloggap=6.56046819690199
avgbitsforreferences=0.987
successoravggap=1178.816
maxrefcount=3
successorexpstats=8520,6838,5282,4754,4130,3669,3620,4359,6347,7702,7581,4944,2049,1844,533
nodes=10617
compressionflags=
intervalisedarcs=1968
bitspernode=72.37
arcs=72172
bitsforoutdegrees=44875
avgbitsforintervals=0.877
minintervallength=4
graphclass=it.unimi.dsi.webgraph.BVGraph
avgbitsforresiduals=62.793
residualavgloggap=7.024087393160478
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
step2:
转成邻接表的格式,这里对于大数据集得到的结果会非常大,要注意内存是否够用。
amazon-2008-edgelist.txt如下:

0 1 63599 63670 389305 536016 536102 598597
1 0 63670 389305 452950 536102 592883
2 3 4 5 63610 184001 411660 504483 592273 592274 606073
3 2 4 5
4 2 3 5 390818 556156 598610 606024
5 2 3 4 6 13777 324264 614774
6 5 7 605884 713528
7 6
8 9 10 13 13064 63618 465029 467750 489647 556443 572834
9 8 13 5824 14872 58923 411719 514771
10 8 11
11 10
12 13
13 8 9 12 14 15 16 183888 183889 573028 602430
1
2
3
4
5
6
7
8
9
10
11
12
13
14
以上这两种格式均可以通过txt转bin代码。
step3:
这一步是Gemini外加的,由txt转成bin格式所需时间非常长,我们实现的时候考虑省略这一步,并把它作为减少预处理时间的一处优化。
amazon-2008.bin如下:
以8位表示一个点(id),16位表示一条边(src和dst的id)

疑问:以598597为例,转成16进制后是92245,一个点有8位,所以应该是0009 2245,但是amazon-2008.bin里面却是4522 0900 为什么会这样?
0000 0000 0100 0000 0000 0000 6ff8 0000
0000 0000 b6f8 0000 0000 0000 b9f0 0500
0000 0000 d02d 0800 0000 0000 262e 0800
0000 0000 4522 0900 0100 0000 0000 0000
0100 0000 b6f8 0000 0100 0000 b9f0 0500
0100 0000 56e9 0600 0100 0000 262e 0800
0100 0000 f30b 0900 0200 0000 0300 0000
0200 0000 0400 0000 0200 0000 0500 0000
0200 0000 7af8 0000 0200 0000 c1ce 0200
0200 0000 0c48 0600 0200 0000 a3b2 0700
0200 0000 9109 0900 0200 0000 9209 0900
0200 0000 793f 0900 0300 0000 0200 0000
0300 0000 0400 0000 0300 0000 0500 0000
0400 0000 0200 0000 0400 0000 0300 0000
0400 0000 0500 0000 0400 0000 a2f6 0500
0400 0000 7c7c 0800 0400 0000 5222 0900
0400 0000 483f 0900 0500 0000 0200 0000
0500 0000 0300 0000 0500 0000 0400 0000
0500 0000 0600 0000 0500 0000 d135 0000
0500 0000 a8f2 0400 0500 0000 7661 0900
0600 0000 0500 0000 0600 0000 0700 0000
0600 0000 bc3e 0900 0600 0000 38e3 0a00
0700 0000 0600 0000 0800 0000 0900 0000
————————————————
版权声明:本文为CSDN博主「吃瓜三道杠」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/envy13/article/details/77912273

相关文章