主机知识库
分享服务器知识

Spark属性的配置方式有哪些

今天我就来和大家说说Spark属性的配置方法,可能很多人不太懂。为了让大家更好的了解,本站为大家总结了以下内容。希望大家能从这篇文章中有所收获。

1.火花属性:这可以控制应用程序的大多数属性。并且可以通过SparkConf对象或Java系统属性进行设置;

2.环境变量:可以为每台机器设置,比如IP。这可以在每台机器的$SPARK_HOME/conf/spark-env.sh脚本中设置;

3.日志:所有与日志相关的属性都可以在log4j.properties文件中设置。

  下面对这三种属性设定进行详细的说明。

一、Spark properties

火花属性可以控制大多数应用程序的属性,并且可以在每个应用程序上单独设置。这些属性可以直接在SparkConf对象上设置,该对象可以传递给SparkContext。SparkConf对象允许您设置一些常见属性(如主网址、应用程序名称等)。),它可以传递给set()方法的任何键-值对。如下:

十万牛顿每平米(英国压力单位)

conf=

newSparkConf()。setMaster(‘local ‘)。setAppName(‘CountingSheep ‘)。set(‘spark.executor.memory ‘,’ 1g ‘)

十万牛顿每平米(英国压力单位)

sc=

动态加载Spark属性新闻背景

在某些情况下,您可能希望避免在代码中将SparkConf对象的属性设置为死亡;例如,您可能希望在不同的主机或不同的内存容量上运行您的应用程序。这需要在运行程序时进行设置。Spark允许您创建一个空的conf对象,如下所示:

十万牛顿每平米(英国压力单位)

sc=

新闻标记上下文(新

SparkConf())然后您可以在运行时通过命令行配置一些属性:/bin/spark-submit – name’Myapp ‘

– masterlocal[4]

-conf park . shuffle . spall=false

-conf ‘ spark . executor . ExtrajavaOptions=-XX : print gcdetails

-XX:打印时间戳’

myApp.jarSpark shell和spark-submit工具支持两种动态加载配置属性的方法。首先是命令行模式,比如-master;火花提交工具可以通过- conf标签接收任何火花属性。跑步。/bin//bin/spark-submit – help将显示所有选项。

那个。/bin/spark-submit工具还从conf/spark-defaults.conf配置文件中读取配置选项。在conf/spark-defaults.conf配置文件中,每一行都是键值对,中间可以用空格或等号分隔。如下:

spark . master spark ://it blog.com :70777

spark.executor.memory512m

spark . EventLog . enabled tree

火花的每一个价值。序列化程序组织。阿帕奇。火花。序列化程序。kryoseriaiz将作为标志传递给应用程序,并且SparkConf对象中的相应属性将被合并。通过SparkConf对象配置的属性优先级最高;其次,spark-submit或spark-shell是用标志配置的;最后,spark-defaults.conf文件中的配置。

哪里可以查看配置好的Spark属性

在应用程序对应的网络用户界面(http://驱动程序:4040)的环境选项卡下,将显示应用程序的所有火花配置选项。当您想要确保配置正确时,这非常有用。应该注意的是,只有通过spark-defaults.conf或SparkConf配置的属性才会显示在该页面上。对于未显示的所有其他属性,您可以将这些属性的值视为默认值。

二、环境变量

火花设置的很大一部分可以通过环境变量来设置。这些环境变量在conf/spark-env.sh脚本文件中设置(如果您是windows系统,文件名为conf/spark-env.cmd)。在独立模式和Mesos模式下,该文件可以设置一些与机器相关的信息(如主机名)。

需要注意的是,conf/Spark-env.sh文件并不存在于刚刚安装的Spark中。但是您可以通过复制conf/spark-env.sh.template文件来创建它,并且您应该确保复制的文件是可操作的。

  下面的属性是可以在conf/spark-env.sh文件中配置

JAVA_HOMEJava的安装目录

PYSPARK _ PythonpythonbinaryexecutableTouseForpyspark。

SPARK _ LOCAL _ ipipipaddressof machine Tobind to。

spark _ public _ dnshostname yoursparkprogramme将广告其他机器。对于单机模式下的集群,除了上面的属性,还有很多可以配置的属性,就不说细节了,自己看文档吧。

三、日志配置

Spark用log4j来记录。您可以配置log4j.properties来设置不同日志的级别和存储位置。默认情况下,此文件不存在,您可以通过复制log4j.properties.template文件来获取它。

看了以上内容,对Spark属性的配置方法有进一步的了解吗?如果您想了解更多的知识或相关内容,请关注本站,感谢您的支持。

(Python内容来源于IDC同行,若侵权,请联系我们删除)

赞(0)
文章名称:《Spark属性的配置方式有哪些》
文章链接:https://www.cmy.cn/host/10978.html
版权声明:茶猫云所有发布的内容,部分为原创文章,转载请注明来源!网络转载文章如有侵权请联系我们解决!
最新优惠:茶猫云VPS服务器