
答案
TextInputFormat根据⽂件⼤⼩将⽂件拆分成splits,如果单个⽂件较⼩,则每个⽂件为⼀个split,并将⽂件按分割形成对,如果单个⽂件较⼤。超过block块默认⼤⼩的1.1倍,则会将⽂件切分为多个split。这⼀步由MapReduce框架⾃动完成,其中偏移量包括了回车所占的字符数。将分割好的对交给⽤户⾃定义的map⽅法进⾏处理,⽣成新的对。得到map⽅法输出的 对后,Mapper会将它们按照key值进⾏排序,并执⾏Combine过程,将key值相同value值累加,得到Mapper的最终输出结果。Reducer先对从Mapper接收的数据进⾏排序,再交由⽤户⾃定义的reduce⽅法进⾏处理,得到新的对,并作为任务的输出结果。