今天我就来和大家说说Spark属性的配置方法,可能很多人不太懂。为了让大家更好的了解,本站为大家总结了以下内容。希望大家能从这篇文章中有所收获。
1.火花属性:这可以控制应用程序的大多数属性。并且可以通过SparkConf对象或Java系统属性进行设置;
2.环境变量:可以为每台机器设置,比如IP。这可以在每台机器的$SPARK_HOME/conf/spark-env.sh脚本中设置;
3.日志:所有与日志相关的属性都可以在log4j.properties文件中设置。
下面对这三种属性设定进行详细的说明。
一、Spark properties
火花属性可以控制大多数应用程序的属性,并且可以在每个应用程序上单独设置。这些属性可以直接在SparkConf对象上设置,该对象可以传递给SparkContext。SparkConf对象允许您设置一些常见属性(如主网址、应用程序名称等)。),它可以传递给set()方法的任何键-值对。如下:
十万牛顿每平米(英国压力单位)
conf=
newSparkConf()。setMaster(‘local ‘)。setAppName(‘CountingSheep ‘)。set(‘spark.executor.memory ‘,’ 1g ‘)
十万牛顿每平米(英国压力单位)
sc=
动态加载Spark属性新闻背景
在某些情况下,您可能希望避免在代码中将SparkConf对象的属性设置为死亡;例如,您可能希望在不同的主机或不同的内存容量上运行您的应用程序。这需要在运行程序时进行设置。Spark允许您创建一个空的conf对象,如下所示:
十万牛顿每平米(英国压力单位)
sc=
新闻标记上下文(新
SparkConf())然后您可以在运行时通过命令行配置一些属性:/bin/spark-submit – name’Myapp ‘
– masterlocal[4]
-conf park . shuffle . spall=false
-conf ‘ spark . executor . ExtrajavaOptions=-XX : print gcdetails
-XX:打印时间戳’
myApp.jarSpark shell和spark-submit工具支持两种动态加载配置属性的方法。首先是命令行模式,比如-master;火花提交工具可以通过- conf标签接收任何火花属性。跑步。/bin//bin/spark-submit – help将显示所有选项。
那个。/bin/spark-submit工具还从conf/spark-defaults.conf配置文件中读取配置选项。在conf/spark-defaults.conf配置文件中,每一行都是键值对,中间可以用空格或等号分隔。如下:
spark . master spark ://it blog.com :70777
spark.executor.memory512m
spark . EventLog . enabled tree
火花的每一个价值。序列化程序组织。阿帕奇。火花。序列化程序。kryoseriaiz将作为标志传递给应用程序,并且SparkConf对象中的相应属性将被合并。通过SparkConf对象配置的属性优先级最高;其次,spark-submit或spark-shell是用标志配置的;最后,spark-defaults.conf文件中的配置。
哪里可以查看配置好的Spark属性
在应用程序对应的网络用户界面(http://驱动程序:4040)的环境选项卡下,将显示应用程序的所有火花配置选项。当您想要确保配置正确时,这非常有用。应该注意的是,只有通过spark-defaults.conf或SparkConf配置的属性才会显示在该页面上。对于未显示的所有其他属性,您可以将这些属性的值视为默认值。
二、环境变量
火花设置的很大一部分可以通过环境变量来设置。这些环境变量在conf/spark-env.sh脚本文件中设置(如果您是windows系统,文件名为conf/spark-env.cmd)。在独立模式和Mesos模式下,该文件可以设置一些与机器相关的信息(如主机名)。
需要注意的是,conf/Spark-env.sh文件并不存在于刚刚安装的Spark中。但是您可以通过复制conf/spark-env.sh.template文件来创建它,并且您应该确保复制的文件是可操作的。
下面的属性是可以在conf/spark-env.sh文件中配置
JAVA_HOMEJava的安装目录
PYSPARK _ PythonpythonbinaryexecutableTouseForpyspark。
SPARK _ LOCAL _ ipipipaddressof machine Tobind to。
spark _ public _ dnshostname yoursparkprogramme将广告其他机器。对于单机模式下的集群,除了上面的属性,还有很多可以配置的属性,就不说细节了,自己看文档吧。
三、日志配置
Spark用log4j来记录。您可以配置log4j.properties来设置不同日志的级别和存储位置。默认情况下,此文件不存在,您可以通过复制log4j.properties.template文件来获取它。
看了以上内容,对Spark属性的配置方法有进一步的了解吗?如果您想了解更多的知识或相关内容,请关注本站,感谢您的支持。
(Python内容来源于IDC同行,若侵权,请联系我们删除)