Hadoopの真価とは何なのか、
日本企業がHadoopを用いることができるのかを知る手がかりとなる、
Hadoopプロジェクトの全貌を解説した実践HadoopセミナーDVDをご紹介いたします。
2010年6月18日、株式会社リッテルは
Hadoopセミナーを開催いたしました。
日経BP社の「クラウドマガジン」、技術評論社の「ソフトウェアデザイン」にて Hadoop特集の記事を弊社スタッフが寄稿した経緯もあり、このセミナーに多くのお問い合わせ、お申し込みをいただき、増席したにもかかわらずおかげさまで満員御礼となりました。
今回、こちらのHadoopセミナーを録画した
DVDのご案内になります。
Hadoopは、その処理能力の高さと
コストパフォーマンスにおける潜在能力の高さから、
2008年頃からコアな技術者の間で話題になっておりました。
ようやく雑誌でも取り上げられる機会が増えてきました。
ですが、最先端技術であるだけに国内では参考となる資料・データが不足しています。
ましてや実装・稼働させている事例となると、残念ながらさらに情報が不十分です。
アメリカ発の最先端技術であるHadoopですが
システムに対する信頼性に求められる基準は、アメリカと日本では根本的に異なります。
これは、株式会社リッテルでは、日本企業が導入するにあたって、
Hadoopの問題点、補足するべき内容を日本語で解説したセミナーの内容です。
DVD商品の実際の映像の一部をご紹介致します。
DVDは三枚セットになります。
DVD1では、Hadoopの全体像および、
エンタープライズでHadoopを利用する際の概論を解説いたします。
DVD1には、Keynote1とKeynote2が収録されています。
▼Keynote 1: Hadoopの全体像
このKeynoteでは、清田からHadoopの全体像をご説明します。
具体的な内容の一部をご紹介すると・・・
・「そもそもHadoopがなんなのかつかめない・・・」
この不安を払拭する、意外な視点とは?
(「Hadoop」や「情報処理技術」というキーワードからは全く予想できない、
ある日常生活に深く関係したたとえ話によって、
10分以内にHadoopを直感的に把握する視点を理解できます。)
・Hadoopはオープンソースソフトウェアとしては
ユニークなある二つのシステムをもっているのですが、その内容とは?
・Hadoopで用いられている、コストパフォーマンスの良いシステムを作るための戦略とは?
・Hadoopのマスターサーバがボトルネックにならない理由とは?
・Hadoopには解決可能な、RDBMSの二つの問題点とは?
・RDBMSとHadoopの違いを具体的に理解でき、
どのケースでどちらをつかえばよいか3分以内に判断できるようになる、ある重要な定理とは?
・DBがスケールアウトするために必要な要素とは?
・DB選択の上で重要となる、Active data と Inactive dataとは?
また、それぞれのdataの処理をする際に必要となる、DBの特性とは?
・Hadoopが威力を発揮するデータ処理の2つの特徴とは?
▼Keynote 2: エンタープライズにおけるHadoopの利用
このKeynoteでは、中塚から実際のHadoopの活用における問題点をご説明します。
具体的な内容の一部をご紹介すると・・・
・エンタープライズシステム設計の一般的な10個のチェックポイントと、
Hadoopを活用できるポイントとは?
・エンタープライズでHadoopが利用できるポイントを即座に把握できる、極めてシンプルな視点とは?
・データ処理をするプロセスである"操作"が行われる場合、
Hadoopでの処理が向いているのですが・・・その"操作"とは?
・Hadoopの特性を理解すると、ウェブアプリのある"論理階層"には置くべきでないのですが、
その論理階層とは?
・HDFSにはファイルシステムとして根本的に欠けている機能があるのですが、その機能とは?
(この、致命的とも言える欠陥を前提としてシステム設計をしないと、
大変な事になってしまいます・・・)
・HDFSがネイティブファイルシステムよりアクセス速度が速くなる
ということが理論上ありえないと言い切れる理由とは?
・Hadoopは統計データの処理においては大きな威力を発揮しますが、その理由とは?
・HDFSは"あるもの"抜きに語ってしまうことが大きな勘違いのもとなのですが、
その"あるもの"とは?
(この話を理解しないがために、HDFSを根幹から勘違いしている方が多すぎるんです・・・)
・ある決定的な勘違いをしていたために、Hadoopを導入することが
大きなハイコストにつながってしまうケースがあるのですが・・・その勘違いとは?
・Hadoopにはネームノードとデータノードがありますが、ネームノードだけが管理している、
重要な2つの情報とは?(1台しかないネームノードを管理するにあたっては重要な話になります。)
・ネームノードの脆弱性を補うためにしておくべきこととは?
------------------------
このあと、質疑の時間を設けております。お客様から以下のようなご質問をいただきました。
いずれも、中塚から明確に回答させていただいています。
Q. データノードを仮想化の上に乗せるとデメリットはあるのでしょうか?
Q. バックエンドのネットワークがいっぱいで増やせなくなることはあるのでしょうか?
・ Hadoopが不得意な処理は?
・ マシンのスペックはどれくらい必要か?
・ 課金の計算などにHadoopを用いることはできるのか?
などなど。
( 合計1時間45分43秒 )
DVD2からは、いよいよHadoopそのものの解説になります。
セッションは全部で4つありますが、
DVD2には、Session1およびSession2が収録されています。
▼Session 1 Hadoopの仕組み:HDFSとMapReduce
このセッションでは、清田からHadoopの仕組みをご説明させていただきます。
その内容を一部だけご紹介すると・・・
・Hadoopの二つの目的とは?
・ファイルシステムとしてのHDFSの大きな特徴とは?
・(HDFSのファイル書き込みの仕組みにいたるまで、詳細に解説されています。)
・MapReduceのうち、プログラマが定義できる2つのフェーズと、定義できない1つのフェーズとは?
▼Session 2 Hadoopクラスタの構築
このセッションでは、リッテルの技術者である吉次が、
Hadoopクラスタの構築方法を仮想マシンの利用方法から詳細に説明しています。
1時間にわたるセッションになりますが、構成は以下のようになっております。
・ 仮想マシンの利用方法について
・ Cent OSのセットアップ
・ JDKのインストール
・ Hadoop Coreのインストール
・ Hadoopの動作モード
・ 擬似分散クラスタ、完全分散クラスタ設定のポイント
その具体的な内容を一部分だけご紹介すると・・・
・仮想マシンを利用する4つのメリットとは?
・CentOSをセットアップする上での5つのポイントとは?
・OSインストール後、Hadoopを使うための3つのステップとは?
・JDKのインストールの際、Hadoopを正常に動作させるために注意しておくべきこととは?
・Hadoop Common(Hadoop Core)をインストールするための3つのステップとは?
・Hadoop Commonをインストールする上で、最もはまってしまいやすいポイントとは?
・Hadoopの動作モードにはStandaloneモード、
・Pseudo-Distributeモード、Fully-Distributeモードの3つがありますが、
・それぞれについての動作概念を解説しますので、
・どの状況でどのモードを用いるべきかが分かります。
・Hadoopの設定に必要な5つの設定ファイルと、その設定方法は?
また、その際見落としがちではあるが非常に重要なポイントとは?
(合計1時間28分43秒)
続いて、DVD3のご説明をさせていただきます。
DVD3は、セッション3と4からなります。順にご説明します。
▼Session 3 Hadoopの管理ノウハウ
このセッションでは、WebUIでHadoopを見る方法、Secondarynamenodeについての解説、
Namenodeの冗長化方法、障害時対応とメンテナンスについて解説していきます。
その具体的内容を一部分だけご紹介すると・・・
・HDFSのWebUIでできる5つの事とは?
・MapReduceのWebUIでできる2つの事とは?
・Secondarynamenodeに関するありがちな勘違いと、Seconarynamenodeの本質的な役割とは?
・Namenodeの復旧手順はどのようにするべきか?
・Namenodeの障害対策として、予め行っておくべきこととは?
・Namenodeの置き換えを自動化する方法とは?
・Datanodeをリプレースする際、やってはいけないこととは?
・正しいDatanodeの離脱方法とは?
▼Session 4-1 Hadoopプロジェクトの全貌
このセッションでは、清田からHadoopプロジェクトの全貌を解説させていただきます。
その内容を一部分だけご紹介すると・・・
・Hadoopの開発の経緯とは?
・Hadoopプロジェクトの構成はどのようになっているのか?
・Hadoop Coreはどのようなライブラリなのか?また、Hadoop Coreがもつ4つの強みとは?
・将来はHadoopもAvroベースに移行予定なのですが、Avroとはどのようなシステムなのか?
・米Yahoo!の社内での解析ジョブの7割はPig Latinで記述されていますが、
Pig Latin の実行環境であるPigの特徴とは?
▼Session 4-2 Hadoopとメタ言語
このセッションでは中塚からHiveの解説と、Hiveの実演
(コンソール起動、テーブル作成、データ搭載、抽出クエリ、集計クエリ)
をさせていただきます。
このあとは、質疑の時間となります。
お客様から以下のようなご質問をいただきました。
Q. Hadoopを使ったデータマイニングにはどういった事例があるのか?
Q. Hadoopでの解析ではどういった事例があって、どのようなMapReduceの解析を行っているのか?
Q. データの複製は近くのDatanodeに行われると脆弱になると思われると、どのように行われているのか?
などなど。いずれも、清田または中塚による明確な回答がなされています。
(合計1時間46分11秒。)
また本セミナーの内容を収録したDVDを購入された方から寄せられたご意見、ご感想をご紹介致します。
■Hadoop環境の構築についてわかる人間が社内にはなかなかおらず、直接きける相手がいないものか困っていました。 Hadoop関連の本を読んでもなかなか思うように導入を進められないでいました。そんなときにこのDVDの存在を知り、無 事Hadoop環境を構築することが出来て非常に満足しています。(大手システム会社SE Y.O様)
■Hadoopに関する資料や情報は日本においてはあまり出回っていない中、これだけの情報が盛り込まれた情報源はなかなかないと思います。(大手広告代理店システム担当者 K.Y 様)
■DVDに付属していたVMイメージメディアを会社の人間同士で共有することでシステム部門の社員全員がHadoop環境を構築する際に問題なく、環境構築ができるようになりました。(大手広告代理店インフラ担当者 S.A様)
■大勢の社内の人間がHadoop環境を即日手に入れることができるようになることを考えるとこのDVDの金額は非常に安いと思います。(大手Webサイト制作会社 I.A様)
■情報系の研究室内において、教授の薦めもあり、このDVDを購入しました。自分が思っていた以上のボリュームがあり、なかなか消化するのが大変でした。(某大学研究室所属学生 F.O様)
■DVDの内容
(青のパッケージ)
HadoopセミナーDVD本編:3枚セット(合計収録時間:5時間)
(緑のパッケージ)
無料特典1
簡単にHadoop分散環境を構築することができる
VMイメージメディアを収録したDVD×2枚
無料特典2
当日使用したパワーポイント形式のデータを収録した
CD-ROM×1枚
※パッケージや盤面のデザインは変更される場合があります。
■お申し込みの手続き■
Hadoop DVDに関するお問い合わせは
リッテル研究所トップページ
のお問い合わせフォームからお願い申し上げます。
お問い合わせ内容を確認の後、弊社担当よりご連絡申し上げます。
| 商品DVD3枚組×2巻 | ¥98,000(税込) |
| 送 料 | ¥600(税込) |
| 合 計 | ¥98,600 |