博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop 2.8.5的job提交过程源码解析
阅读量:6645 次
发布时间:2019-06-25

本文共 3465 字,大约阅读时间需要 11 分钟。

hot3.png

1、 创建一个job实例

Job job=Job.getInstance(conf);

job.waitForCompletion(true);

2、  进入waitForCompletion()方法

6abb68a7cc788d02a095a7e3f08632edf9a.jpg

3、 当JobState为define时,则提交作业,进入submit方法

b74f862ba295b15530606acb5e5a0bcf39d.jpg

4、 进入connect()方法中。代码主要如下

8ccb8450d475a7c4759d9287bead8c8cce7.jpg

5、进入return的Cluster(getConfiguration())方法。看下Cluster的几个主要成员

19b2035b91aed4443aff7e9a4eb75be3474.jpg

Cluster最重要的两个成员变量是客户端通信协议提供者ClientProtocolProvider实例clientProtocolProvider和客户端通信协议ClientProtocol实例client,而后者是依托前者的create()方法生成的。Cluster类提供了两个构造函数,如下:ad4270b5335cf7f69a497c00d1b30541c63.jpg

6、在Cluster构造方法中最后一步initialize(jobTrackAddr,conf);会先加载通信协议提供者列表,然后对其遍历,会先遍历到LocalClientProtocolProvider,如果clientProtocol的值不为null,就对Cluster的成员clientProtocolProvider和client赋值,break调出循环;如果clientProtocol的值为null,则进行下一次循环。  

ad4991df3d568aa64931a08422f0ab470e7.jpg

当我用本地模式调试时,provider=LocalClientProtocolProvider2db5ee264d1a6a4e1633d5286a26cffbe58.jpg 

 7、上面再说create()方法时已经提到了两种ClientProtocolProvider实现类,后来通过查阅资料得知了更加确切的说法:MapReduce中,ClientProtocolProvider抽象类的实现共有YarnClientProtocolProvider、LocalClientProtocolProvider两种,前者为Yarn模式,而后者为Local模式。

看下Local模式,LocalClientProtocolProvider的create()方法,代码如下:

47aa1f2b442850b9d86546464ce50d5f3c3.jpg

由上可知,MapReduce需要看参数mapreduce.framework.name确定连接模式,但默认是Local模式的。

再来看Yarn模式,看下YarnClientProtocolProvider的create()方法,代码如下:b52da2aa8a57b4e7d087af659d06c268ef2.jpg

8、 到了这里,我们就能够知道一个很重要的信息,Cluster中客户端通信协议ClientProtocol实例,要么是Yarn模式下的YARNRunner,要么就是Local模式下的LocalJobRunner。

 ·          以Yarn模式来分析MapReduce集群连接,看下YARNRunner的实现,先看下它的成员变量,如下:

66e3b0db9f6d8afd1264b24ea9883435ec2.jpg

其中,最重要的一个变量就是ResourceManager的代理ResourceMgrDelegate类型的resMgrDelegate实例,Yarn模式下整个MapReduce客户端就是由它负责与Yarn集群进行通信,完成诸如作业提交、作业状态查询等过程,通过它获取集群的信息,其内部有一个YarnClient实例YarnClient,负责与Yarn进行通信,还有ApplicationId、ApplicationSubmissionContext等与特定应用程序相关的成员变量。以后有时间还要详细介绍这个对象。另外一个比较重要的变量就是客户端缓存ClientCache实例clientCache。

d1fade7d3c43af5f8e49b02d71efa1271ef.jpg

YARNRunner一共提供了三个构造函数,而我们之前说的WordCount作业提交时,其内部调用的是YARNRunner带有一个参数的构造函数,它会先构造ResourceManager代理ResourceMgrDelegate实例,然后再调用两个参数的构造函数,继而构造客户端缓存ClientCache实例,然后再调用三个参数的构造函数,而最终的构造函数只是进行简单的类成员变量赋值,然后通过FileContext的静态getFileContext()方法获取文件山下文FileContext实例defaultFileContext。

·         本地模式分析LocalJobRunner:对LocalJobRunner实例调用submitJob( )方法会创建Job(LocalJobRunner的内部类)实例,该实例完成作业的执行。

149cf3e0bed122b0503af3abfd4bb849c25.jpg

LocalJobRunner的内部类Job就是一个线程,其实本地模式的MapReduce作业就由该线程完成。Job的内部类MapTaskRunnable实现了Runnable接口,代表了Map任务,每个分片都对应一个MapTaskRunnable实例,Job采用java并发包提供的ExecutorService线程池来执行MapTaskRunnable实例,线程池的大小为分片数量和mapreduce.local.map.tasks.maximum配置项值中较小者,至少为1。线程池创建好之后就将MapTaskRunnable实例都提交到其中去执行,然后线程池停止接受新任务等待线程执行完毕。线程执行完毕后会逐个检查MapTaskRunnable实例有没有异常出现,如果有则认为map执行失败,直接抛出异常终止执行,如果都没有异常则认为map都执行成功,接下来继续执行reduce。本地模式值允许0个或者1个reduce任务。ReduceTask代表一个reduce任务,它从map的输出文件中读取数据进行reduce操作,将结果写到指定的目录中。reduce任务执行完之后,会进行一些清理操作,删除map的中间输出,删除作业提交目录和其中的作业配置文件、删除作业的本地拷贝文件等。

9、 connect()方法总结    

   MapReduce作业提交时连接集群是通过Job的connect()方法实现的,它实际上是构造集群Cluster实例cluster。Cluster为连接MapReduce集群的一种工具,提供了一种获取MapReduce集群信息的方法。在Cluster内部,有一个与集群进行通信的客户端通信协议ClientProtocol实例client,它由ClientProtocolProvider的静态create()方法构造,而Hadoop2.8.5中提供了两种模式的ClientProtocol,分别为Yarn模式的YARNRunner和Local模式的LocalJobRunner,Cluster实际上是由它们负责与集群进行通信的,而Yarn模式下,ClientProtocol实例YARNRunner对象内部有一个ResourceManager代理ResourceMgrDelegate实例resMgrDelegate,Yarn模式下整个MapReduce客户端就是由它负责与Yarn集群进行通信,完成诸如作业提交、作业状态查询等过程,通过它获取集群的信息。  

 10、运行完connect方法后执行submitJobInternal(Job.this, cluster);

该方法隶属于JobSubmitter类,顾名思义,该类是MapReduce中作业提交者,而实际上JobSubmitter除了构造方法外,对外提供的唯一一个非private成员变量或方法就是submitJobInternal()方法,它是提交Job的内部方法,实现了提交Job的所有业务逻辑。       

首先,我们先看下JobSubmitter的类成员变量,如下:

8206b36118948926566ef5aed8819d67b22.jpg

它一共有四个类成员变量,分别为:

    1、 文件系统FileSystem实例jtFs:用于操作作业运行需要的各种文件等;  

      2、客户端通信协议ClientProtocol实例submitClient:用于与集群交互,完成作业提交、作业状态查询等,上文已经介绍过了。

    3、提交作业的主机名submitHostName;        

    4、提交作业的主机地址submitHostAddress。        

接下来,我们再看下JobSubmitter的构造函数,如下:

4b8f098039afa2069d9f766956879ab3a50.jpg

接下里是最重要的代码——JobSubmitter唯一的对外核心功能方法submitJobInternal(),它被用于提交作业至集群,代码如下:

27143cea0a1a67ba902c2fa41c2f960f925.jpg

55f8a259ce043baef65d5835427136f17d8.jpg

494cbf55bcb82ba3dc8a596699533ec4a4c.jpg

6d39322ddafc5363ee2662caf7aa75b7883.jpg

a7505de0e4b332e4ff44827180fab7e4e23.jpg

MapReducer的作业提交大致过程就这样了。

转载于:https://my.oschina.net/905042249/blog/2875683

你可能感兴趣的文章
设计师的视觉设计五项修炼
查看>>
php的错误级别
查看>>
eclipse修改android项目的apk包名类名
查看>>
斐讯路扫地机器人怎么关机_扫地机器人使用方法,使用教程
查看>>
java 二元一次方程式_JAVA求解一元一次二次方程
查看>>
上车是什么意思_“上车饺子下车面”,是什么意思?看完心里暖暖的
查看>>
anaconda安装python3消失_Python学习第47课-安装Python以及anaconda介绍
查看>>
centos7中编译安装nodejs_Docker(一)CentOS7中安装Docker视频教程
查看>>
ug装配绕轴旋转_UG模具设计培训就到新科教育
查看>>
Unix整理笔记-超级无敌常用命令杂谈1-里程碑M6
查看>>
CloudStack4.1.1升级CloudPlatForm4.2.0实践手册
查看>>
Centos安装各种数据分析库,numpy,pandas,matplotlib,seaborn,scipy
查看>>
C#基础知识整理:C#类和结构(3)
查看>>
SharePoint Server 2010 初始化
查看>>
【我眼中的戴尔转型】(四)惠普之道,月亮的脸悄悄地在改变
查看>>
***S 2012 聚合函数 -- 指定分页示例
查看>>
直播疑难杂症排查(3)— 首开慢
查看>>
某公司机房成功搭建openssh server跳板服务器
查看>>
ADT在線互動教學
查看>>
PowerShell 添加 自定义的ScriptProperty 属性
查看>>