前言
总结Spark覆盖写Hive分区表,如何只覆盖部分对应分区
版本
要求Spark版本2.3以上,亲测2.2无效
配置
1 | config("spark.sql.sources.partitionOverwriteMode","dynamic") |
注意
1、saveAsTable方法无效,会全表覆盖写,需要用insertInto,详情见代码
2、insertInto需要主要DataFrame列的顺序要和Hive表里的顺序一致,不然会数据错误!
总结记录Python 连接 MYSQL
1 | from sqlalchemy import create_engine |
前两天为了升级pycharm,重新安装了一下,这里记录一下,之所以升级,是因为之前anaconda换成了64位的,也就是anaconda升级了,Python版本升级为3.7,但是之前的pycharm不能支持这么高版本的Python,导致一些功能不能用,所以决定升级一下
地址:https://www.jetbrains.com/pycharm/download/other.html
选择对应的安装包下载,这里选择的是pycharm-community-2019.3.1.exe
一键式安装,选择安装目录,配置选项这里我全选了,最后打开软件,提示是否导入之前的配置,这里我选择不导入,然后打开一个Python项目,配置Python interpreter
(File=>Settings=>Project=>Project Interpreter),先安装的pycharm是没有Python环境的,需要新增一个,选择Conda environment,选择之前安装的 anaconda即可,然后加载一会儿,这是就可以运行之前的代码了
more >>
学习总结Python处理Excel
一个测试有两个sheet页的Excel测试文件 test.xlsx
完整代码已上传到GitHub sheetDemo.py
1 | import pandas as pd |
1 | <pandas.io.excel._base.ExcelFile object at 0x0000021DE525DF88> |
pd.read_excel读出来是一个dataframe可以直接打印出内容,但是只能读取一个sheet页,默认第一个sheet页
more >>
记录一下anaconda安装使用
之前安装过,但是是32位的,32位的有内存限制,所以现在换成了64位的
地址:https://www.anaconda.com/distribution/#download-section
在上面的地址里选择对应的版本下载即可,这里选择的是Python3.7 64-Bit Graphical Installer (462 MB)
一键式安装,除了安装路径外我都是按照默认的来,我的安装路径:1
D:\Company\anaconda-64
装好anaconda之后就可以在pycharm里切换新的版本了,File=>Settings=>Project=>Project Interpreter,选择新安装的anaconda就好了,如图:
more >>
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true