Pig安装配置学习笔记

SpringsFeng

浏览: 544228 次
性别:
来自: 西安

最近访客更多访客>>

douyouguo

sikewang

qishinihenhao

wpf5788

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop/YARN

转载请标明出处SpringsSpace: http://springsfeng.iteye.com

1. Pig简介
Pig是Yahoo捐献给apache的一个项目，它是SQL-like语言，是在MapReduce上构建的一种高级

查询语言，

把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。这是

   Yahoo开发的又一个克隆Google的项目:Sawzall。
2. Pig 安装
   (1) 确保JDK6已经安装，并且已经export JAVA_HOME;
   (2) 下载最新版pig:0.11.0;
   (3) 解压至/usr/custom/pig-0.11.0;
   (4) 配置环境变量：
   export PIG_HOME=/usr/custom/pig-0.11.0
   export PATH=$PIG_HOME/bin:$PATH
3. 启动
   Pig有两种模式：
   (1) Local Mode, 即本地模式，这种模式下Pig运行在一个JVM里，访问的是本地的文件系统，

只适合于小规模数据集，一般是用来体验Pig。而且，它并没有用到Hadoop的Local runner,

   Pig把查询转换为物理的Plan，然后自己去执行。在终端下输入:
   pig -x local
   就可以进入Local模式了。
   (2) Hadoop模式，这种模式下，Pig才真正的把查询转换为相应的MapReduce Jobs，并提交

到Hadoop集群去运行，集群可以是真实的分布式也可以是伪分布式。要想Pig能认识Hadoop，

你要告诉它Hadoop的版本以及一些关键daemon的信息（也就是Namenoder的Address和

Port）。比如，下面这个可以允许Pig连接到任何Hadoop0.20.*上：
export PIG_HADOOP_VERSION=20

针对HADOOP2.0.2是：

export PIG_HADOOP_VERSION=23

   接下来，还要指明集群的Namenode的所在。有两种方法，
   一种就是把你Hadoop的conf目录添加到Pig的Classpath上：
   export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
   还有一种就是在Pig目录的conf文件夹（可能需要自己创建）里创建一个pig.properties文件，

   然后在里面添加集群的Namenode和Jobtracker的信息：
   fs.defaultFS=hdfs://localhost:9000
   mapred.job.tracker=localhost:900

建议采用这种方式。

说明：经测试, 在pig-0.11.0版本基于Hadoop-2.0.2-aplha版本时，不需要做上述设置，直

接执行：

pig -x mapreduce

   即进入伪分布式下。

   启动：在终端中执行命令：pig
   执行该命令时默认采用Hadoop模式，也可执行：pig -x mapreduce，该命令明确指明进入

   分布式模式下。
4. 使用示例
   (1) 上传文件
   [kevin@linux-fdc bin]$ hadoop fs -mkdir /log

[kevin@linux-fdc bin]$ hadoop fs -copyFromLocal /usr/custom/pig-0.11.0/tutorial/data

   /excite-small.log /log/excite-small.log
   查看结果：

   (2) 装载统计
   grunt> log = LOAD '/log/excite-small.log' AS (user:chararray, time:long, query:chararray);
   grunt> lmt = LIMIT log 4;
   grunt> DUMP lmt;
   grunt> grpd = GROUP log BY user;
   grunt> cntd = FOREACH grpd GENERATE group, COUNT(log);
   grunt> STORE cntd INTO '/log-output';

   查看详细执行步骤：
   grunt> illustrate cntd;