Apache Spark 简介

Apache Spark™是用于大规模数据处理的统一分析引擎。

速度

运行工作负载的速度提高了100倍。

Apache Spark使用最先进的DAG调度程序，查询优化器和物理执行引擎，为批处理数据和流数据提供了高性能。

Hadoop和Spark中的逻辑回归

使用Java，Scala，Python，R和SQL快速编写应用程序。

Spark提供了80多个高级操作员，可轻松构建并行应用程序。您可以从Scala，Python，R和SQL Shell 交互使用它。

df =火花。阅读。json （“ logs.json” ） df。其中（“年龄> 21” ）。选择（“ name.first” ）。显示（）

Spark的Python DataFrame API
通过自动模式推断读取JSON文件

结合使用SQL，流和复杂的分析。

星火权力库，包括一叠 SQL和DataFrames，MLlib机器学习， GraphX和星火流。您可以在同一应用程序中无缝组合这些库。

Spark可在Hadoop，Apache Mesos，Kubernetes，独立或云中运行。它可以访问各种数据源。

您可以在EC2，Hadoop YARN，Mesos或Kubernetes上使用其独立集群模式运行Spark 。访问HDFS， Alluxio， Apache Cassandra， Apache HBase， Apache Hive以及数百种其他数据源中的数据。

Spark在各种组织中用于处理大型数据集。您可以在Powered By页面上找到许多示例用例。

有很多联系社区的方法：

Apache Spark由300多家公司的众多开发人员构建。自2009年以来，已有1200多名开发人员为Spark！做贡献

该项目的提交者来自25个以上的组织。

如果您想参加Spark或为它之上的图书馆做贡献，请学习如何贡献。

无论您是来自Java，Scala，Python，R还是SQL背景，学习Apache Spark都很容易：

发布了362 篇原创文章 · 获赞 121 · 访问量 61万+