gracejpw1117

2020-07-04   阅读量: 600

大数据

如何解决HDFS的大量小文件问题(续)

扫码加入数据分析学习群

(2)采用CombineTextInputFormat

(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间:

<property>

<name>mapreduce.job.jvm.numtasks</name>

<value>10</value>

<description>How many tasks to run per jvm,if set to -1 ,there is

no limit</description>

</property>


34.3921 2 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子