1. 背景介绍 将一份数据量很大的用户属性文件解析成结构化的数据供查询框架查询剖析,其中用户属性包含用户标识,平台类型,性别,年龄,学历,兴趣爱好,购物倾向等等,大概共有七百个左右的标签属性.为了查询框架能够快速查询出有特定标签的人群,将最终的存储结果定义为了将七百个左右的标签属性展平存储为parquet文件,这样每个标签属性对于用户而言只有存在和不存在两种情况. 2. 第一版实现过程 第一步,将用户所有标签标识作为一个资源文件保存到spark中,并读取该资源文件的标签标识为一个标签集合(定义…