get value out of dataframe(从数据框中获取价值)
问题描述
在 Scala 中,我可以使用 get(#) 或 getAs[Type](#) 从数据帧中获取值.在 pyspark 中应该怎么做?
In Scala I can do get(#) or getAs[Type](#) to get values out of a dataframe. How should I do it in pyspark?
我有一个两列 DataFrame:item(string) 和 salesNum(integers).我做了一个 groupby 和 mean 来获得这些数字的平均值,如下所示:
I have a two columns DataFrame: item(string) and salesNum(integers). I do a groupby and mean to get a mean of those numbers like this:
saleDF.groupBy("salesNum").mean()).collect()
它有效.现在我在一个数据框中有了一个平均值.
and it works. Now I have the mean in a dataframe with one value.
如何从数据框中获取该值以获取浮点数的平均值?
How can I get that value out of the dataframe to get the mean as a float number?
推荐答案
collect() 将结果作为 python 列表返回.要从列表中取出值,您只需要像这样获取第一个元素:
collect() returns your results as a python list. To get the value out of the list you just need to take the first element like this:
saleDF.groupBy("salesNum").mean()).collect()[0]
这篇关于从数据框中获取价值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本文标题为:从数据框中获取价值
基础教程推荐
- 由Python将MP3转换为MIDI(类型错误:无法加载插件:mtg-Melodia:Melodia) 2022-01-01
- 将 x 轴刻度更改为自定义字符串 2022-01-01
- 用 Python 编写 Fortran 无格式文件 2022-01-01
- Discord.py 缺少必需的参数 2022-01-01
- 使用生成器和迭代器时 Python 多循环失败 2022-01-01
- 在 Celery 工作人员中捕获 Heroku SIGTERM 以优雅地关 2022-01-01
- numpy float:比算术运算中内置的慢 10 倍? 2022-01-01
- 与常规 dict 相比,Python manager.dict() 非常慢 2022-01-01
- 尝试制作WhatsApp机器人 2022-01-01
- pyserial - 可以从线程 a 写入串行端口,是否阻塞从线程 b 读取? 2022-01-01
