Hadoop介绍以及后续的使用总结

Apache Hadoop作为目前最流行的软件框架,在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,可使用简单的高级编程模型实现大型数据集的分布式存储和处理

简而言之,Hadoop是Apache Software Foundation的一个开源项目,可以安装在服务器集群上,以便这些服务器可以通信并协同工作来存储和处理大型数据集。Hadoop近年来因其有效处理大数据的能力而变得非常成功。它允许公司将所有数据存储在一个系统中,并对这些数据进行分析,否则传统解决方案不可能或非常昂贵。

围绕Hadoop构建的许多配套工具提供了各种各样的处理技术。与辅助系统和实用程序的集成非常出色,使Hadoop的实际工作更轻松,更高效。这些工具共同构成了Hadoop生态系统。

简单来说,可将Hadoop视为大数据操作系统,从而可以在所有庞大的数据集上运行不同类型的工作负载,处理数据集可达到PB级的量级,其范围从离线批处理到机器学习再到实时流处理。

猜你喜欢

转载自blog.csdn.net/annderlee/article/details/89454335