Apache Spark™是用于大规模数据处理的统一分析引擎。
速度
运行工作负载的速度提高了100倍。
Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。
Hadoop和Spark中的逻辑回归
使用方便
使用Java,Scala,Python,R和SQL快速编写应用程序。
Spark提供了80多个高级操作员,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell 交互使用它。
df =火花。阅读。json (“ logs.json” ) df。其中(“年龄> 21” ) 。选择(“ name.first” )。显示()
Spark的Python DataFrame API
通过自动模式推断读取JSON文件
通过自动模式推断读取JSON文件
无处不在
Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行。它可以访问各种数据源。
您可以在EC2,Hadoop YARN,Mesos或Kubernetes上使用其独立集群模式运行Spark 。访问HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive以及数百种其他数据源中的数据。