Vue版本Echarts中国地图三级钻取及Vue踩坑笔记

2019-02-18

前言

这段时间又搞起了前端，用Vue做一个项目，前段时间用html+css+js写了一个Echarts中国地图三级钻取，现在用Vue再实现一遍，主要用来练手，熟悉一下Vue的使用并记录一下期间遇到的一些坑及如何解决的。

1、演示地址

http://dongkelun.com/vue-echarts-map/#/

2、代码

代码已上传到GitHub：https://github.com/dongkelun/vue-echarts-map

more >>

展开全文 >>

Spark 异常总结及解决办法

2019-01-09

前言

总结Spark开发中遇到的异常及解决办法，之前也写过几篇，之所以不再一个异常写一篇博客，是因为现在Spark用的比较熟悉了一些，觉得没必要把异常信息写那么详细了，所以就把异常总结在一篇博客里了，这样既能备忘也方便查找。

1、之前的几篇

spark-submit报错:Exception in thread “main” java.sql.SQLException:No suitable driver

hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

spark-submit报错:Application application_1529650293575_0148 finished with failed status

more >>

展开全文 >>

Spark Checkpoint 使用及源码浅析

2019-01-07

前言

总结一下Spark Checkpoint 用法及源码，包括RDD和Spark Streaming两种。

1、RDD

作用：持久化数据-将RDD的数据保存到可靠文件系统中（一般是HDFS），以便数据恢复
容错、复用：在Spark程序中，如果某个RDD因为业务逻辑比较复杂，导致Transformation很多，计算很耗时，且该RDD后面用到很多次，那么有可能因为各种原因导致数据丢失、程序失败，之后Spark会重新尝试执行程序（默认三次），就需要重新从头开始执行，而如果执行了Checkpoint，那么就会直接从HDFS文件读取相关数据信息，不需要从头开始执行，节省很多时间。
cache和persist：有了cache和persist，还需要Checkpoint么？需要，因为cache到内存，虽然最快，但是也最不可靠，即使persist到磁盘也不如HDFS文件系统可靠，且能cache到内存最好在内存，因为这样很快，然后和Checkpoint一起用，就能既保证了速度也保证了可靠性。

1.1 用法
代码示例
1
2
3
4
5
6
7
8
9
//首先设置Checkpoint路径，这会在hdfs建立文件夹
sc.setCheckpointDir("hdfs://ambari.master.com:8020/spark/dkl/checkpoint/checkpointdemo")
//强烈建议先把rdd持久化到内存、否则保存到文件时会触发一个新的job重新计算
val rdd = sc.parallelize(1 to 1000, 10).cache
//调用checkpoint，标记该RDD要Checkpoint，将checkpointData设为ReliableRDDCheckpointData
//transformation操作，直到action操作才会执行，所以必须在一个action算子之前执行
rdd.checkpoint()
//直到action算子触发job，才会将rdd持久化到对应的hdfs文件中
println(rdd.sum)

more >>

展开全文 >>

Linux 安装 oh-my-zsh

2018-12-29

前言

之前在大三实习的时候，用的纯Linux（Ubuntu）开发，然后Linux上装了oh-my-zsh。
优点：
1、界面比默认的好看一些
2、敲命令是提示、自动补全、搜索等比较方便好用

Zsh和bash一样，是一种Unix shell，但大多数Linux发行版本都默认使用bash shell。但Zsh有强大的自动补全参数、文件名、等功能和强大的自定义配置功能
摘自https://blog.csdn.net/aoshilang2249/article/details/48681849

安装

因为之前用的Ubuntu，现在用的Centos，所以都写一下

Ubuntu

zsh:

1	sudo apt-get install zsh -y

git:

1	sudo apt-get install git -y

Centos

zsh:

1	sudo yum install zsh -y

git:

1	sudo yum install git -y

more >>

展开全文 >>

Spark SQL 优化笔记

2018-12-26

前言

记录自己在工作开发中遇到的SQL优化问题

1、避免用in 和 not in

解决方案：

用exists 和 not exists代替
用join代替

not exists示例

not in:

1	select stepId,province_code,polyline from route_step where stepId not in (select stepId from stepIds)

not exists:

1	select stepId,province_code,polyline from route_step where not exists (select stepId from stepIds where route_step.stepId = stepIds.stepId)

more >>

展开全文 >>