首頁 >php教程 >php手册 >php通过thrift开发hive

php通过thrift开发hive

WBOY
WBOY原創
2016-06-06 19:52:381462瀏覽

概述: 由于hadoop和hive都是用java写的,要使用像php这样的脚本语言(实际上thrift支持的语言还有很多,大部分主流语言都包括)对hive进行开发就需要一个跨语言的连接桥梁,到目前为止,我所知道的有两种方法可以实现: 1.后面将具体说明的Thrift Thrift是F

概述:

由于hadoop和hive都是用java写的,要使用像php这样的脚本语言(实际上thrift支持的语言还有很多,大部分主流语言都包括)对hive进行开发就需要一个跨语言的连接桥梁,到目前为止,我所知道的有两种方法可以实现:

1.后面将具体说明的Thrift

Thrift是Facebook的一个开源项目,同时也是hadoop和hive官网上提到一种中间件,本次开发就是使用Thrift

2.php java bridge(这个没有用过,不太了解)

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面主要总结一些thrift相关的东西

安装:

在安装好hadoop,hive并且以mysql作为hive的元数据库配置完成的前提下

1.下载thrift(apache thrift官网)

2.解压:tar -zxvf 压缩包名

3.安装依赖库:libevent和libevent-devel

4.在thrift路径下执行:./configure【具体见./configure --help】;然后make & make install

具体说明可以查看官网信息:http://thrift.apache.org/


使用:

thrift目录下有packages、protocol、server、transport几个文件夹,并且提供了以下几个操作hive的函数:

interface ThriftHiveIf extends ThriftHiveMetastoreIf {
  public function execute($query);//执行$query
  public function fetchOne();//获取一条结果
  public function fetchN($numRows);//获取$numRows条结果
  public function fetchAll();//获取所有结果
  public function getSchema();//获取元数据
  public function getThriftSchema();//没试过
  public function getClusterStatus();//获取集群状态
  public function getQueryPlan();//获取执行计划
}

调用的时候在php文件加上以下内容:

 $GLOBALS['THRIFT_ROOT'] = 'Thrift/'; //thrift根目录 
    // load the required files for connecting to Hive  
    require_once $GLOBALS['THRIFT_ROOT'] . 'packages/hive_service/ThriftHive.php';  
    require_once $GLOBALS['THRIFT_ROOT'] . 'transport/TSocket.php';  
    require_once $GLOBALS['THRIFT_ROOT'] . 'protocol/TBinaryProtocol.php';  
    // Set up the transport/protocol/client  
    $transport = new TSocket(host_ip, 10000); 
    $protocol = new TBinaryProtocol($transport);  
    $client = new ThriftHiveClient($protocol); 
    $transport->open();
之后就是通过$client来执行hql语句,举几个例子:

1.获取数据库:

$client->execute("show databases");
$result = $client->fetchAll();//$result接收执行结果
说明:也就是将要执行的hql作为execute()函数的参数,并用fetchAll()函数获取结果;

2.获取元数据:

要获取hive的元数据是通过getSchema()函数,它是要配合某一个查询的执行进行获取,例子如下:

$client->execute("select id from hivetest");//hivetest表中只有id、name两个字段分别为int和string类型
$schema = $client->getSchema();
$result = $client->fetchAll();

打印的$schema的值为:

metastore_Schema Object (
    [fieldSchemas] => Array (
        [0] => metastore_FieldSchema Object (
            [name] => id
            [type] => int
            [comment] => )
                 )
    [properties] =>
             )

要获取其中的数据可以通过下面这个函数对$schema 进行转化:

function objtoarr($obj){
    $ret = array();
    foreach($obj as $key =>$value){
        if(gettype($value) == 'array' || gettype($value) == 'object'){
            $ret[$key] = objtoarr($value);
        }
        else{
            $ret[$key] = $value;
        }
    }
    return $ret;
}
主要用到execute()、fetchaAll()、getSchema()这三个函数,另外几个可以再试用一下。
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn