旧版Spark（1.6版本）将RDD动态转为DataFrame

2018-05-11

前言

旧版本spark不能直接读取csv转为df,没有spark.read.option(“header”, “true”).csv这么简单的方法直接将第一行作为df的列名，只能现将数据读取为rdd,然后通过map和todf方法转为df,如果csv(txt)的列数很多的话用如(1,2,…,n)，即创建元组很麻烦，本文解决如何用旧版spark读取多列txt文件转为df

1、新版

为了直观明白本文的目的，先看一下新版spark如何实现
more >>

展开全文 >>

spark-submit报错:Exception in thread "main" java.sql.SQLException:No suitable driver

2018-05-06

前言

最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序，在本地eclipse里运行没有问题，想在集群上跑一下，看看在集群上性能如何，但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver，一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。

1、猜测是否是缺失oracle驱动

由于在本地没有问题，所以不会想到是代码问题，根据提示想到的是spark-submit找不到oracle驱动，因为maven或sbt仓库里没有oracle驱动，在本地跑的时候，是将oracle驱动下载到本地，然后在eclipse设置build path就可以了。

但是我在spark-submit 里已经通过–jars 加载oracle驱动了：

1	spark-submit --class com.dkl.leanring.spark.sql.Oracle2HiveDemo --jars ojdbc5-11.2.0.3.jar spark-scala_2.11-1.0.jar

开始以为自己用法不对，但是上网搜了一下，发现就是这么用的~
然后尝试用–driver-class-path、–driver-library-path等都没成功。
more >>

展开全文 >>

Centos7 安装oracle11

2018-05-05

前言

由于需要学习配置oracle goldengate(ogg),奈何没有oracle环境，所以想自己装一个oracle，搜了一下相关文档，跟着安装了一下，发现oracle安装比mysql安装麻烦多了，而且出现了很多博客上没有提到的错误，所以特此记录一下~

1、下载

下载地址：http://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html，我下载的是Oracle Database 11g Release 2
(11.2.0.1.0) Linux x86-64，注意File1和File2都要下载

2、为host添加映射

我的虚拟机之前已经配好

1	192.168.44.128 ambari.master.com

3、安装依赖

3.1 先安装pdksh

centos7没有相关安装包可用，可下载pdksh的rpm包

1 2	wget http://vault.centos.org/5.11/os/x86_64/CentOS/pdksh-5.2.14-37.el5_8.1.x86_64.rpm rpm -ivh pdksh-5.2.14-37.el5_8.1.x86_64.rpm

3.2 安装其他依赖

yum -y install binutils compat-libstdc++-33 elfutils-libelf elfutils-libelf-devel expat gcc gcc-c++ glibc glibc-common glibc-devel glibc-headers libaio libaio-devel libgcc libstdc++ libstdc++-devel make pdksh sysstat unixODBC unixODBC-devel

3.3 检查所有依赖是否安装完整

rpm -q binutils compat-libstdc++-33 elfutils-libelf elfutils-libelf-devel expat gcc gcc-c++ glibc glibc-common glibc-devel glibc-headers libaio libaio-devel libgcc libstdc++ libstdc++-devel make pdksh sysstat unixODBC unixODBC-devel | grep "not installed"

其中中文系统”not installed” 可能需要替换成中文相关的
more >>

展开全文 >>

Spark 将DataFrame所有的列类型改为double

2018-04-27

前言

由于Spark机器学习要求输入的DataFrame类型为数值类型，所以如果原始数据读进来的列为string类型，需要一一转化，而如果列很多的情况下一个转化很麻烦，所以能不能一个循环或者一个函数去解决呢。

1、单列转化方法

import org.apache.spark.sql.types._
val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))
val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5")

import org.apache.spark.sql.functions._
df.select(col("col1").cast(DoubleType)).show()

+----+
|col1|
+----+
| 1.0|
| 6.0|
+----+

more >>

展开全文 >>

centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

2018-04-25

前言

本文是讲如何在centos7（64位）安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装，需要先将集群服务停掉，然后将不需要的环境变量注释掉即可，如果不注释掉，后面虽然可以安装成功，但是在启动某些服务的时候可能会有异常，比如最后提到的hive启动异常。本文适合系统： RedHat7、CentOS7、Oracle Linux7(都是64位)
注意:centos7中文系统有bug（python脚本中文识别问题）,需要使用英文系统。
本文仅作参考（基本每个配置博客都有局限性和坑~），推荐先参考官方文档：
https://docs.hortonworks.com/HDPDocuments/Ambari-2.6.1.5/bk_ambari-installation/content/ch_Getting_Ready.html
以下均在root用户下执行。

1、满足最低系统要求

1.1 浏览器

建议您将浏览器(自己使用的windows既可)更新至最新的稳定版本

1.2 软件要求（在每台主机上）

1.2.1 yum和rpm
1.2.2 scp, curl, unzip, tar、 wget
1.2.3 OpenSSL（v1.01，build 16或更高版本）
1.2.4 python：2.7(注意如果有使用python3.x的需求，不要改变python环境变量，否则3.x会报错)
1.2.5 jdk：1.8
1.2.6 mysql：5.6（官网上写的5.6，不确定更高版本有没有问题，也可以使用其他数据库，根据自己习惯）
1.2.7 内存要求：Ambari主机应该至少有1 GB RAM，500 MB空闲，（但如果使用的话，建议内存8g以上，我自己的虚拟机内存4g搭好后跑起来会很卡，配置低的话警告也会很多）
1.2.8 检查最大打开文件描述符,推荐的最大打开文件描述符数为10000或更多
1.2.9 mysql-connector-java

more >>

展开全文 >>