Pig用于处理大规模数据的高级查询语言
- 由两部分组成:用于描述数据流的语言Pig Latin和执行Pig Latin程序的执行环境,使用Pig Latin可以对数据进行加载、排序、过滤、求和、分组、关联、存储操作等。
- 应用场景:以数据流水线的方式考虑问题,并需要对作业运行方式更细粒度的控制。
- Pig运行模式:
1、本地模式:grunt shell 方式、脚本文件方式、嵌入式程序方式
2、MapReduce模式:Grunt Shell 方式、脚本文件方式、嵌入式程序方式
- 常用Pig Latin操作
1、数据加载命令:LOAD
2、数据存储命令:STORE
3、数据转换:分组命令GROUP、过滤命令FILTER、筛选命令LIMIT、去重命令DISTINCT、排序命令ORDER BY,遍历命令FOREACH 、连接命令JOIN等等。。。
Pig Latin是一种面向数据流的编程语言,数据流的特征主要体现在数据处理过程中,以关系为单位将数据进行有序的转换。每一次转换产生一个新的关系,每一个关系保留了此时的数据状态。