前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住给大家分享一下。点击跳转到网站:https://www.captainai.net/dongkelun
前言
本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)和代码都是这位大佬(相对于尚处于小白阶段的我)写的,我只是在基于倒排索引的基础上帮忙想出了最后一步思路,感觉这个解题思路不错,值得记录一下。
1、原始数据
1 | 2017-01-01 a |
根据数据可以看出我们要求的结果为:
2017-01-01 新增三个用户(a,b,c)
2017-01-02 新增一个用户(d)
2017-01-03 新增两个用户(e,f)
2、解题思路
2.1 对原始数据进行倒排索引
结果如下:
用户名 | 列一 | 列二 | 列三 |
---|---|---|---|
a | 2017-01-01 | 2017-01-02 | |
b | 2017-01-01 | 2017-01-02 | 2017-01-03 |
c | 2017-01-01 | ||
d | 2017-01-02 | ||
e | 2017-01-03 | ||
f | 2017-01-03 |
2.2 统计列一中每个日期出现的次数
这样我们只看列一,统计每个日期在列一出现的次数,即为对应日期新增用户数。
3、代码
1 | package com.dkl.leanring.spark.test |
结果:1
2
3(2017-01-03,2)
(2017-01-02,1)
(2017-01-01,3)
附图: