Linux 安装 oh-my-zsh

2018-12-29

前言

之前在大三实习的时候，用的纯Linux（Ubuntu）开发，然后Linux上装了oh-my-zsh。
优点：
1、界面比默认的好看一些
2、敲命令是提示、自动补全、搜索等比较方便好用

Zsh和bash一样，是一种Unix shell，但大多数Linux发行版本都默认使用bash shell。但Zsh有强大的自动补全参数、文件名、等功能和强大的自定义配置功能
摘自https://blog.csdn.net/aoshilang2249/article/details/48681849

安装

因为之前用的Ubuntu，现在用的Centos，所以都写一下

Ubuntu

zsh:

1	sudo apt-get install zsh -y

git:

1	sudo apt-get install git -y

Centos

zsh:

1	sudo yum install zsh -y

git:

1	sudo yum install git -y

more >>

展开全文 >>

Spark SQL 优化笔记

2018-12-26

前言

记录自己在工作开发中遇到的SQL优化问题

1、避免用in 和 not in

解决方案：

用exists 和 not exists代替
用join代替

not exists示例

not in:

1	select stepId,province_code,polyline from route_step where stepId not in (select stepId from stepIds)

not exists:

1	select stepId,province_code,polyline from route_step where not exists (select stepId from stepIds where route_step.stepId = stepIds.stepId)

more >>

展开全文 >>

Scala学习笔记

2018-12-14

前言

之前看Scala编程思想学习Scala，只看完了一半多，就没再继续深入学习，导致一些Scala基础知识还不知道，而且过去这么长时间了，之前学过的也遗忘了，所以这里主要记录自己学习Scala时容易遗忘的一些点，以备自己随时查看，增加记忆。这个主要给自己用，不定时更新添加~

1、在线文档

https://docs.scala-lang.org/zh-cn/tour/tour-of-scala.html

2、一些点

setter

setter方法是在getter方法的后面加上_=，后面跟着参数

构造方法的参数

主构造方法中带有val和var的参数时公有的。然而由于val是不可变的，所以不能像下面这样去使用。

1
2
3

class Point(val x: Int, val y: Int)
val point = new Point(1, 2)
point.x = 3  // <-- does not compile

不带val或var的参数是私有的，仅在类中可见。

1
2
3

class Point(x: Int, y: Int)
val point = new Point(1, 2)
point.x  // <-- does not compile

more >>

展开全文 >>

Hive分桶表学习总结

2018-12-07

前言

学习总结一下Hive的分桶表。

分桶规则：对分桶字段值进行哈希，哈希值除以桶的个数求余，余数决定了该条记录在哪个桶中，也就是余数相同的在一个桶中。

优点：1、提高join查询效率 2、提高抽样效率

1、建表

通过 clustered by(字段名) into bucket_num buckets 分桶，意思是根据字段名分成bucket_num个桶

create table test_bucket (
id int comment 'ID', 
name string comment '名字'
)
comment '测试分桶'
clustered by(id) into 4 buckets
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

more >>

展开全文 >>

Spark操作Hive分区表

2018-12-04

前言

前面学习总结了Hive分区表，现在学习总结一下Spark如何操作Hive分区表，包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据，并记录一下遇到的问题以及如何解决。

1、Spark创建分区表

只写主要代码，完整代码见附录

val data = Array(("001", "张三", 21, "2018"), ("002", "李四", 18, "2017"))
val df = spark.createDataFrame(data).toDF("id", "name", "age", "year")
//可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表
df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition")

more >>

展开全文 >>