Spark中的dataframe与Pandas中的dataframe对比/转化 - 代码天地

Spark中的dataframe与Pandas中的dataframe对比/转化

其他 2020-03-09 23:11:17 阅读次数: 0

〇、声明

Spark中可以运行numpy和pandas程序，只要你装了

一、为什么要将用了pandas.dataframe的程序改为Spark中的dataframe

前者只能单机运行，后者可以集群运行

二、对比

直接跳转这篇博文《Spark与Pandas中DataFrame对比》，写的很好

三、转化

spark —> pandas	pandas —> spark
pandas_df = spark_df.toPandas()	spark_df = spark.createDataFrame(pandas_df)

由于pandas的方式是单机版的，即toPandas()的方式是单机版的，改成分布式版本：

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def topas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand
    
pandas_df = topas(spark_df)

参考博文：
《spark跟pandas数据转换》
《pandas和spark的dataframe互转》

四、SparkContext在Spark2.x中被整合入SparkSession，是整个Spark的指挥台

参考博文：
《Spark 核心篇-SparkContext》
《Spark 2.0系列之SparkSession详解》

发布了131 篇原创文章 · 获赞 81 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43469047/article/details/104010581

Spark中的dataframe与Pandas中的dataframe对比/转化

Spark与Pandas中DataFrame对比

Spark与Pandas中DataFrame对比（详细）

Spark中DataFrame与Pandas中DataFrame的区别

Spark中DataFrame与Pandas中DataFrame相互转换

Spark中的RDD、DataFrame、Dataset对比

pandas中DataFrame相关

Pandas中DataFrame索引

Spark中的DataFrame

Spark DataFrame 与Pandas DataFrame差异

Pandas中DataFrame和array相互转化（DataFrame数据直接水平合并）

pandas中DataFrame的stack()、unstack()和pivot()方法的对比

云栖社区>博客>正文 Spark中的RDD、DataFrame、Dataset对比

Pandas中DataFrame.drop()

访问 Pandas DataFrame 中的元素

pandas中DataFrame基本操作

pandas中dataframe的索引问题

Pandas中DataFrame用法总结

在pandas中遍历DataFrame行

pandas中的Series和DataFrame

压缩pandas中dataframe内存

pandas中的DataFrame 的values 方法

Pandas 中Dataframe的 insert函数

Pandas中DataFrame的基础操作

Spark中DataFrame的schema讲解

Spark DataFrame中的join类型

Spark中的RDD和DataFrame

Spark中 DataFrame,DataSet,RDD

10 spark中的DataFrame编程

在spark dataFrame 中使用 pandas dataframe

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)