python spark 求解最大最小平均中位数

rating_data_raw = sc.textFile("%s/ml-100k/u.data" % PATH)

print rating_data_raw.first()

num_ratings = rating_data_raw.count()

print "Ratings: %d" % num_ratings

# In[35]:

rating_data = rating_data_raw.map(lambda line: line.split("\t"))

ratings = rating_data.map(lambda fields: int(fields[2]))

max_rating = ratings.reduce(lambda x, y: max(x, y))

min_rating = ratings.reduce(lambda x, y: min(x, y))

mean_rating = ratings.reduce(lambda x, y: x + y) / float(num_ratings)

median_rating = np.median(ratings.collect())

ratings_per_user = num_ratings / num_users

ratings_per_movie = num_ratings / num_movies

print "Min rating: %d" % min_rating

print "Max rating: %d" % max_rating

print "Average rating: %2.2f" % mean_rating

print "Median rating: %d" % median_rating

print "Average # of ratings per user: %2.2f" % ratings_per_user

print "Average # of ratings per movie: %2.2f" % ratings_per_movie

# In[36]:

# we can also use the stats function to get some similar information to the above

ratings.stats()

上面是粗暴的做法

简单的做法：

>>> all_data = sc.parallelize([1,2,3,4,5,6,7,8,100])

>>> all_data.mean()

15.11111111111111

>>> all_data.max()

100

>>> all_data.min()

1

>>> all_data.median()

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

AttributeError: 'RDD' object has no attribute 'median'

>>> all_data.stats()

(count: 9, mean: 15.1111111111, stdev: 30.0903987804, max: 100.0, min: 1.0)

python spark 求解最大最小平均中位数的更多相关文章

python spark 求解最大最小平均
rdd = sc.parallelizeDoubles(testData); Now we’ll calculate the mean of our dataset. 1 LOGGER.info( ...
The Minimum Cycle Mean in a Digraph 《有向图中的最小平均权值回路》 Karp
文件链接 Karp在1977年的论文,讲述了一种$O(nm)$的算法,用来求有向强连通图中最小平均权值回路(具体问题请参照这里) 本人翻译(有删改): 首先任取一个节点 $s$ ,定义 \(F ...
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子从如下地址获取文件: https://github.com/databricks/spark-avro/r ...
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子：
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...
[开发技巧]·Python极简实现滑动平均滤波（基于Numpy.convolve）
[开发技巧]·Python极简实现滑动平均滤波(基于Numpy.convolve) 1.滑动平均概念滑动平均滤波法(又称递推平均滤波法),时把连续取N个采样值看成一个队列 ,队列的长度固定为N ...
[Python] Spark平台下实现分布式AC自动机（一）
转载请注明出处:http://www.cnblogs.com/kirai/ 作者:Kirai 零.问题的提出最近希望在分布式平台上实现一个AC自动机,但是如何在这样的分布式平台上表示这样的非线性数据 ...
51Nod 1110 距离之和最小 V3 中位数思维
基准时间限制:1 秒空间限制:131072 KB 分值: 40 难度:4级算法题 X轴上有N个点,每个点除了包括一个位置数据X[i],还包括一个权值W[i].点P到点P[i]的带权距离 = 实际距离 ...
[Spark][Python]Spark Python 索引页
Spark Python 索引页为了查找方便,建立此页 === RDD 基本操作: [Spark][Python]groupByKey例子
[spark][python]Spark map 处理
map 就是对一个RDD的各个元素都施加处理,得到一个新的RDD 的过程 [training@localhost ~]$ cat names.txtYear,First Name,County,Sex ...

随机推荐

SQLServer In和Exists
In Exists () 1分42秒 5秒 Exists() 返回布尔值如果子查询结果行>0,则返回 TRUE. 反之返回FALSE exists(select * fro ...
Android使用charles抓包
1.下载并安状软件,官网在此: 2.前题条件,电脑和手机必须在同一网段 3.在Charles界面选择菜单 proxy->proxy settings 勾选"Enable transpa ...
Hbase 简单记录
进入hbase 客户端命令行: hbase shell 根据rowkey获取单条数据: get 'HXXT_ns:app_test_hbase', 'rowkey值' 范围查询,并指定数据量: s ...
AMQP及RabbitMQ
AMQPAMQP协议是一个高级抽象层消息通信协议,RabbitMQ是AMQP协议的实现.它主要包括以下组件: 1.Server(broker): 接受客户端连接,实现AMQP消息队列和路由功能的进程. ...
【sqli-labs】 less27a GET- Blind based -All you Union&Select Belong to us -Double Quotes(GET型基于盲注的去除了Union和Select的双引号注入)
和less 27一样,单引号换双引号 http://192.168.136.128/sqli-labs-master/Less-27a/?id=0"%a0uNion%a0sElect%a01 ...
【sqli-labs】 less2 GET - Error based - Intiger based (基于错误的GET整型注入)
与less1相同,直接走流程提交参数,直接order by http://localhost/sqli/Less-2/?id=1 order by 1%23 http://localhost/sql ...
http 请求头示例
POST /3-0/app/account/item HTTP/1.1 Host 10.100.138.32:8046 Content-Type application/json Accept-E ...
javaee IO流作业
package Zy; import java.io.Serializable; public class Student implements Serializable{ private stati ...
BZOJ 1984月下“毛景树” LCT维护边权 + 下传标记
Description 毛毛虫经过及时的变形,最终逃过的一劫,离开了菜妈的菜园. 毛毛虫经过千山万水,历尽千辛万苦,最后来到了小小的绍兴一中的校园里.爬啊爬~爬啊爬~~毛毛虫爬到了一颗小小的“毛景树” ...
BZOJ 1585: Earthquake Damage 2 地震伤害网络流 + 最小割
Description Farmer John的农场里有P个牧场,有C条无向道路连接着他们,第i条道路连接着两个牧场Ai和Bi,注意可能有很多条道路连接着相同的Ai和Bi,并且Ai有可能和Bi相等.F ...

python spark 求解最大 最小 平均 中位数

python spark 求解最大 最小 平均 中位数的更多相关文章

随机推荐

热门专题

python spark 求解最大最小平均中位数

python spark 求解最大最小平均中位数的更多相关文章