ambari 异常总结及解决办法

2018-07-10

前言

本文总结在使用ambari时产生的异常，以及如何解决的。
如果发生了异常，在界面上不能直观的看出异常的原因，那么我一般通过查看日志的方法解决。
通过下面的命令查看

1	vim /var/log/ambari-server/ambari-server.log

若该日志文件没有异常信息，可在其他日志文件里查找
1、异常一
异常发生在add host并confirm host的时候，会卡住不动，然后看日志会发现异常信息：
1
Error executing bootstrap Cannot create /var/run/ambari-server/bootstrap

more >>

展开全文 >>

spark-submit报错:Application application_1529650293575_0148 finished with failed status

2018-07-06

前言

记录spark-submit提交Spark程序出现的一个异常，以供第一次出现这种异常且不知道原因，该怎么解决的的同学参考。

1、异常信息

Exception in thread "main" org.apache.spark.SparkException: Application application_1529650293575_0148 finished with failed status
	at org.apache.spark.deploy.yarn.Client.run(Client.scala:1187)
	at org.apache.spark.deploy.yarn.Client$.main(Client.scala:1233)
	at org.apache.spark.deploy.yarn.Client.main(Client.scala)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:782)
	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

more >>

展开全文 >>

Spark DataFrame按某列降序排序

2018-07-04

前言

本文总结如何将DataFrame按某列降序排序，因为Spark默认的排序方式为升序，而降序的用法和java语言等又不一样，所以需要特地总结记录一下其用法。

1、创建测试用DataFrame

1
2
3

val data = Array((7, 2, 3), (1, 8, 6), (4, 5, 9))
val df = spark.createDataFrame(data).toDF("col1", "col2", "col3")
df.show()

+----+----+----+
|col1|col2|col3|
+----+----+----+
|   7|   2|   3|
|   1|   8|   6|
|   4|   5|   9|
+----+----+----+

2、默认的升序排序效果(按col2排序，以下都是)

1	df.orderBy("col2").show()

+----+----+----+
|col1|col2|col3|
+----+----+----+
|   7|   2|   3|
|   4|   5|   9|
|   1|   8|   6|
+----+----+----+

more >>

展开全文 >>

Spark获取当前分区的partitionId

2018-06-28

前言

本文讲解Spark如何获取当前分区的partitionId，这是一位群友提出的问题，其实只要通过TaskContext.get.partitionId（我是在官网上看到的），下面给出一些示例。

1、代码

下面的代码主要测试SparkSession，SparkContext创建的rdd和df是否都支持。

package com.dkl.leanring.partition

import org.apache.spark.sql.SparkSession
import org.apache.spark.TaskContext

/**
 * 获取当前分区的partitionId
 */
object GetPartitionIdDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("GetPartitionIdDemo").master("local").getOrCreate()
    val sc = spark.sparkContext
    val data = Seq(1, 2, 3, 4)

    // 测试rdd,三个分区
    val rdd = sc.parallelize(data, 3)
    rdd.foreach(i => {
      println("partitionId：" + TaskContext.get.partitionId)
    })

    import spark.implicits._
    // 测试df,三个分区
    val df = rdd.toDF("id")
    df.show
    df.foreach(row => {
      println("partitionId：" + TaskContext.get.partitionId)
    })
    // 测试df,两个分区
    val data1 = Array((1, 2), (3, 4))
    val df1 = spark.createDataFrame(data1).repartition(2)
    df1.show()
    df1.foreach(row => {
      println("partitionId：" + TaskContext.get.partitionId)
    })

  }
}

more >>

展开全文 >>

SparkStreaming+Kafka 实现统计基于缓存的实时uv

2018-06-25

前言

本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看起来要对用户去重，其实只要按照WordCount的思路，最后输出key的数量即可，所以可以利用SparkStreaming+Kafka 实现基于缓存的实时wordcount程序，这里稍加改动，如果uv数量增加的话就打印uv的数量(key的数量)。

1、数据

数据是我随机在kafka里生产的几条，用户以空格区分开（因为用的之前单词统计的程序）

2、kafka topic

首先在kafka建一个程序用到topic:KafkaUV

1	bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic KafkaUV

3、创建checkpoint的hdfs目录

我的目录为：/spark/dkl/kafka/UV_checkpoint

1	hadoop fs -mkdir -p /spark/dkl/kafka/UV_checkpoint

more >>

展开全文 >>

前言

1、异常一

前言

1、异常信息

前言

1、创建测试用DataFrame

2、默认的升序排序效果(按col2排序，以下都是)

前言

1、代码

前言

1、数据

2、kafka topic

3、创建checkpoint的hdfs目录