Hadoopファーストガイド

概 要

「ビッグデータ(=従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ)なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかも知れないビッグデータの活用に可能性を見出せるかも知れません。

著者 佐々木達也
価格 本体2400円(税別)
ISBN 978-4-7980-3494-2
発売日 2012/9/20
判型 B5変
色数 1色
ページ数 248
CD/DVD
対象読者 初級
シリーズ
表紙イメージ
購入 アマゾンで購入する
楽天で購入する

※リンク先によっては、販売ページが用意されていないことがあります。あらかじめご了承ください。

新しいウィンドウで開く 書籍購入のご案内

サポート

サポート情報は以下からご参照下さい。

サポート情報へのリンク

目次

Chapter 1 Hadoopとは?

1-1 Hadoopの登場

1-1-1 ビッグデータについて

1-1-2 大規模データ処理の問題

1-1-3 分散処理は難しい

1-1-4 グーグルはどうやって大規模データを処理しているか

1-1-5 Hadoopの登場

1-1-6 これまでの分散処理技術との違い

1-1-7 Hadoopの利用事例

1-2 Hadoopの構成要素

1-2-1 グーグルの基盤技術と対応するオープンソース実装

1-2-2 HDFSの設計思想

1-2-3 HDFSの仕組み

1-2-4 Hadoop MapReduceの処理の流れ

1-2-5 Hadoop MapReduceの仕組み

1-2-6 HBase

1-2-7 Hadoopはフレームワーク

Chapter 2 リレーショナルデータベースとHadoop

2-1 なぜリレーショナルデータベースでは駄目なのか

2-1-1 適材適所で利用する

2-1-2 リアルタイムな処理

2-1-3 バッチ処理

2-2 Hadoopの特徴

2-2-1 Hadoopのメリット

2-2-2 Hadoopのデメリット

2-3 Hadoopの処理の流れ

2-3-1 Mapフェーズ

2-3-2 Shuffleフェーズ

2-3-3 Reduceフェーズ

Chapter 3 Hadoopを利用する

3-1 素のHadoopをそのまま利用する

3-1-1 Sun JDKのインストール

3-1-2 Apache Hadoopのインストール

3-1-3 スタンドアロンモード

3-1-4 疑似分散モード

3-1-5 完全分散モード

3-1-6 もっと手軽にHadoopを扱いたい

3-2 EMRという選択肢

3-2-1 クックパッドでEMRを導入した理由

3-2-2 CDHとEMRの比較

3-3 AWSで提供されるインフラ構成

3-3-1 リージョン

3-3-2 EC2インスタンス

3-3-3 セキュリティグループ

3-3-4 スポットインスタンス

3-3-5 リザーブドインスタンス

3-4 EMRを構成するアーキテクチャ

3-4-1 サポートしているファイルシステム

3-4-2 ジョブフローとステップ

3-4-3 ステータス遷移

3-4-4 インスタンスグループ

3-4-5 EMRクラスタのノード数のリサイズ

3-4-6 ブートストラップアクション

3-5 EMRを利用するメリット

3-5-1 環境構築が必要ない

3-5-2 運用が必要ない

3-5-3 修正の取り込み、バージョンアップが必要ない

3-6 EMRを利用するデメリット

3-6-1 コストが掛かる

3-6-2 チューニングがしにくい

3-7 AWSのサービスを利用する

3-7-1 AWSのアカウントの取得

3-7-2 EMRの利用申請

3-7-3 S3を利用する

3-7-4 EC2を利用する

3-8 EMRを利用する

3-8-1 AWSコンソールを利用する

3-8-2 コマンドラインツールを利用する

3-9 アクセス証明書

Chapter 4 Hadoopで処理を実装してみよう

4-1 ブートストラップアクション

4-1-1 Hadoopの設定を上書きする

4-1-2 利用したいライブラリのインストールやエイリアスの設定

4-1-3 タイムゾーンの設定など

4-1-4 Gangliaをインストールして利用する

4-2 MapperやReducerから特定のファイルを参照する

4-2-1 --cacheオプション

4-2-2 --cache-archiveオプション

4-3 Hadoop Streamingで処理を実装する

4-3-1 検索キーワードランキング

4-3-2 ユニークユーザ数の算出

4-4 ブラウザから進捗を確認する

4-5 EMRクラスタのノード数のリサイズ

4-5-1 タスクインスタンスグループ

4-5-2 コアインスタンスグループ

4-6 Tips

4-6-1 入力データのサイズに注意

4-6-2 Hadoopジョブをキャンセルする

4-6-3 デバッグモードを活用する

Chapter 5 SQLライクにMapReduce処理できるHive

5-1 Hiveとは?

5-2 Hiveのインストール

5-3 Hiveの基本動作

5-3-1 関数を調べる

5-3-2 データベース操作

5-3-3 テーブル操作

5-3-4 内部テーブルを扱う

5-3-5 外部テーブルから読み込み

5-3-6 外部テーブルへの書き込み

5-4 メタストア

5-4-1 外部メタストアのメリット

5-4-2 外部メタストアの導入

5-5 パーティション

5-5-1 パーティション付きのテーブルの作成

5-5-2 パーティションの作成

5-5-3 パーティションを使って処理する

5-6 外部ファイルから実行する

5-7 非SQLな処理を行う

5-8 ログの出力場所について

Chapter 6 DSLでHadoop処理が実行できるPig

6-1 Pigとは?

6-2 Pigのインストール

6-3 Pigの基本動作

6-3-1 データの読み込み

6-3-2 フィルタリング

6-3-3 グルーピング

6-3-4 集約関数

6-3-5 データの書き込み

6-4 外部ファイルから実行する

6-5 複雑な処理を実行する

6-6 ログの出力場所について

PR

秀和システム