Hive Hadoop の用語とリソース

Hive Hadoop と IBM® Campaign の統合について理解するために、ここに挙げる用語の定義やオンライン・リソースのリンクを参照してください。

用語

Apache Hadoop® は、コモディティー・ハードウェアを基盤としたコンピューター・クラスターで非常に大規模なデータ・セットの分散保管と分散処理を実行するための、Java™ で記述されたオープン・ソース・ソフトウェア・フレームワークです。

Apache Hive™ は、分散ストレージに格納されている大規模なデータ・セットの照会と管理の作業を簡略化するための、Hadoop を基盤としたデータウェアハウス・インフラストラクチャーです。Hive には、そのデータに構造を適用したり、HiveQL という SQL スタイルの言語でデータを照会したりするためのメカニズムが用意されています。

Apache HBase™ は、Java で記述されたオープン・ソースの非リレーショナル分散データベースです。HDFS を基盤として稼働し、BigTable のような機能を Hadoop で実現できます。

Hadoop Distributed File System (HDFS™) は、コモディティー・ハードウェアで稼働する分散ファイル・システムです。これは、巨大なファイルを大規模なクラスター内の複数のマシンに安全に格納できるように設計されています。

Hue は、Apache Hadoop でデータを分析するため Web インターフェースです。

HiveQL (または HQL) は、Hive の照会言語です。

MapReduce は、クラスターで並列分散アルゴリズムによって大規模なデータ・セットを処理したり生成したりするためのプログラミング・モデルであり、さらにそのモデルに関連した実装環境でもあります。MapReduce は Hadoop® の心臓部です。Hadoop クラスターに含まれている数百数千台のサーバー間で高度なスケーラビリティーを実現できるのは、このプログラミング・パラダイムによります。

Apache Hadoop のビッグデータ・ディストリビューション: さまざまなベンダーが独自の Hadoop ディストリビューションを開発しています。例えば、Cloudera、Hortonworks、IBM BigInsights®、MapR などがあります。

ユーザー・テーブルは、IBM Campaign の用語であり、IBM Campaign のフローチャートでアクセスするマーケティング・データの入ったデータ・ソースを指します。通常、ユーザー・テーブルには、顧客、見込み客、および製品についてのデータが含まれています。例えば、ユーザー・テーブルから取り込んだ顧客アカウント・データをフローチャートで使用して、特定のアカウントのタイプや残高に応じてターゲットの顧客を絞り込む、といった操作が可能になります。

オンライン・リソース

この資料の発行時点で有効なリンクを以下にまとめます (ただし、変更される可能性があります)。

Cloudera ODBC ドライバー:https://www.progress.com/products/data-sources/apache-hadoop-hive
Hive ODBC ドライバー:https://www.progress.com/products/data-sources/apache-hadoop-hive
Hive:https://cwiki.apache.org/confluence/display/Hive/Home
HiveQL:https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Hive HBase 統合:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
Hue および Hadoop:http://gethue.com
IBM キャンペーン:http://www.ibm.com/support/knowledgecenter/SSCVKV/product_welcome_kc_campaign.dita