Hadoop Mapreduce二次排序过程是怎样的
二次排序是指将数据按照key值进行分组,然后将每组数据按照value值进行排序。
例如有一组数据如下:
key value
a 2
a 1
b 3
b 2
b 1
c 2
c 1
第一步将数据按照key值分组,得到如下结果:
key value
a 2
a 1
b 3
b 2
b 1
c 2
c 1
第二步将每组数据按照value值进行排序,得到如下结果:
key value
a 1
a 2
b 1
b 2
b 3
c 1
c 2
相关文章