前言
本文是讲如何使用spark ml进行线性回归,不涉及线性回归的原理。
1、数据格式
1.1 普通标签格式
1.1.1 格式为:
1 | 标签,特征值1 特征值2 特征值3... |
1 | 1,1.9 |
1.1.2 spark 读取
1、Rdd
旧版(mllib)的线性回归要求传入的参数类型为RDD[LabeledPoint]
more >>
这个是在大三实习的时候记录在印象笔记里的,当时学长给我的,现在稍加改动一下,记录在这里。
若刚装完系统ping不通外网,如baidu.com,请参考:http://dongkelun.com/2018/01/17/networkIsUnreachable/
在/etc/resolv.conf添加:1
2
3nameserver 114.114.114.114
nameserver 8.8.8.8
nameserver 8.8.4.4
然后执行1
chattr +i /etc/resolv.conf
本文安装配置的hadoop为分布式的集群,单机配置见:centos7 hadoop 单机模式安装配置
我用的三个centos7, 先将常用环境配置好(CentOS 初始环境配置),设置的ip分别为:192.168.44.138、192.168.44.139,192.168.44.140,分别对应别名master、slave1、slave2
在每个虚拟机上执行1
vim /etc/hosts
在最下面添加:1
2
3192.168.44.138 master
192.168.44.139 slave1
192.168.44.140 slave2
在每个虚拟机上ping一下,保证都能ping通1
2
3ping master
ping slave1
ping slave2
保证三台机器都可以免密互通,参考:linux ssh 免密登录
下载地址:http://mirror.bit.edu.cn/apache/hadoop/common/,我下载的是hadoop-2.7.5.tar.gz
1 | tar -zxvf hadoop-2.7.5.tar.gz -C /opt/ |
以下用三台centos为例,ip分别为192.168.44.138、192.168.44.139、192.168.44.140,分别对应别名master、slave1、slave2
1 | ssh-keygen -t rsa |
一直按回车默认就好
more >>
1 | val map1 = Map("key1" -> 1, "key2" -> 3, "key3" -> 5) |
结果:1
2Map(key1 -> 3, key2 -> 3, key3 -> 5)
Map(key1 -> 1, key2 -> 4, key3 -> 6, key5 -> 10)
可以看到现有的方法在key相同时,没有将value相加,而是操作符右边的值把左边的值覆盖掉了。
more >>
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true