トレーニングコース

Data Engineering on Google Cloud Platform

  • 4日間
  • 有料

*このコースは現在準備中です。開催が決定次第ご案内させていただきます。

トレーニング概要

本コースは 4 日間のクラスルーム トレーニングであり、ハンズオンを通して Google Cloud Platform でのデータ処理システムの設計と構築を学習します。 講義、デモ、ハンズオンラボを通して、データ処理システムの設計、エンドツーエンドのデータ パイプラインの構築、データの分析、機械学習の実施方法を学びます。このコースでは、構造化、非構造化、ストリーミングの各種データを扱います。

対象者

このクラスは、デベロッパーとしての経験があり、次のようなビッグデータ変換の管理を担当する方を対象としています。

  • データの抽出、読み込み、変換、クリーニング、検証を行う
  • データ処理用のパイプラインとアーキテクチャを設計する
  • 機械学習モデルと統計モデルを作成して保守する
  • データセットに対してクエリを実行し、クエリ結果を視覚化して、レポートを作成する

前提条件

このコースを最大限に活用するには、次の条件を満たしている必要があります。

  • Google Cloud Platform Fundamentals: Big Data & Machine Learning」を修了しているか、同等の経験がある
  • SQL などの一般的なクエリ言語の基本的なスキルがある
  • データ モデリング、抽出、変換、読み込みのアクティビティの経験がある
  • 一般的なプログラミング言語(Python など)を使用してアプリケーションを開発している
  • 機械学習と統計の一方または両方の基本知識がある

目標

このコースでは、次のスキルについて学習します。

  • Google Cloud Platform 上のデータ処理システムを設計し構築する
  • バッチおよびストリーミングのデータを処理するために自動スケーリング データ パイプラインを Cloud Dataflow 上で実装する
  • 巨大なデータセットからのビジネス分析情報を Google BigQuery を使用して引き出す
  • 機械学習モデルを使用したトレーニング、評価、推論を TensorFlow と Cloud ML を使用して行う
  • 非構造化データを Cloud Dataproc 上で Spark と ML の API を使用して利用する
  • ストリーミング データからの迅速な分析を実現する

当日必要なもの

  • 最新版の Chrome がインストールされた PC

コースの概要

このコースには、講義、デモ、ハンズオンラボが含まれています。

Leveraging Unstructured Data with Cloud Dataproc on Google Cloud Platform

  • モジュール 1: Google Cloud Dataproc の概要
    • クラスタの作成と管理
    • カスタム マシンタイプとプリエンプティブ ワーカー ノードを利用する
    • クラスタのスケーリングと削除
    • ラボ: Hadoop クラスタを Google Cloud Dataproc で作成する
  • モジュール 2: Dataproc ジョブの実行
    • Pig と Hive のジョブを実行する
    • ストレージとコンピューティングの分離
    • ラボ: Hadoop と Spark のジョブを Dataproc で実行する
    • ラボ: ジョブの送信と監視
  • モジュール 3: Dataproc の Google Cloud Platform への統合
    • 初期化アクションによるクラスタのカスタマイズ
    • BigQuery のサポート
    • ラボ: Google Cloud Platform サービスの活用
  • モジュール 4: Google の機械学習 API を使った非構造化データの理解
    • Google の機械学習 API
    • 機械学習の一般的な使用例
    • ML API の呼び出し
    • ラボ: 機械学習機能をビッグデータ分析に追加する

Serverless Data Analysis with Google BigQuery and Cloud Dataflow

  • モジュール 5: BigQuery を使ったサーバーレス データの分析
    • BigQuery とは
    • クエリと関数
    • ラボ: BigQuery でクエリを記述する
    • BigQuery へのデータの読み込み
    • BigQuery からのデータのエクスポート
    • ラボ: データの読み込みとエクスポート
    • ネストされたフィールドと繰り返しのフィールド
    • 複数のテーブルのクエリ
    • ラボ: 複雑なクエリ
    • パフォーマンスと料金
  • モジュール 6: Dataflow を使ったサーバーレスの自動スケーリング データのパイプライン
    • Beam プログラミング モデル
    • Beam Python のデータ パイプライン
    • Beam Java のデータ パイプライン
    • ラボ: Dataflow パイプラインの記述
    • Beam を使用したスケーラブルなビッグデータの処理
    • ラボ: Dataflow での MapReduce
    • 追加データの組み込み
    • ラボ: 副入力
    • ストリーム データの処理
    • GCP リファレンス アーキテクチャ

Serverless Machine Learning with TensorFlow on Google Cloud Platform

  • モジュール 7: 機械学習の概要
    • 機械学習(ML)とは
    • 効果的な ML: 概念、種類
    • ML のデータセット: 一般化
    • ラボ: ML のデータセットを調べて作成する
  • モジュール 8: Tensorflow を使った ML モデルの構築
    • TensorFlow の概要
    • ラボ: tf.learn の使用
    • TensorFlow のグラフとループ + ラボ
    • ラボ: 下位レベルの TensorFlow の使用 + 早期停止
    • ML のトレーニングのモニタリング
    • ラボ: TensorFlow のトレーニングのチャートとグラフ
  • モジュール 9: CloudML を使った ML モデルのスケーリング
    • Cloud ML を選ぶ理由
    • TensorFlow モデルのパッケージ化
    • エンドツーエンドのトレーニング
    • ラボ: ML モデルをローカルおよびクラウドで実行する
  • モジュール 10: 機能エンジニアリング
    • 優れた機能の作成
    • 入力の変換
    • 合成機能
    • Cloud ML での前処理
    • ラボ: 機能エンジニアリング

Building Resilient Streaming Systems on Google Cloud Platform

  • モジュール 11: ストリーミング分析パイプラインのアーキテクチャ
    • ストリーム データの処理: 課題
    • 可変データ ボリュームの処理
    • 順序不定データ / 遅延データの処理
    • ラボ: ストリーミング パイプラインの設計
  • モジュール 12: 変数ボリュームの取り込み
    • Cloud Pub/Sub とは
    • 仕組み: トピックとサブスクリプション
    • ラボ: シミュレータ
  • モジュール 13: ストリーミング パイプラインの実装
    • ストリーム処理における課題
    • 遅延データの処理: 透かし、トリガー、累積
    • ラボ: ライブ トラフィック データのためのストリーム データの処理パイプライン
  • モジュール 14: ストリーミング分析とダッシュボード
    • ストリーミング分析: データから意思決定まで
    • BigQuery でのストリーミング データのクエリ
    • Google Data Studio とは
    • ラボ: 処理済みデータを視覚化するリアルタイム ダッシュボードの構築
  • モジュール 15: Bigtable を使った高スループットと低レイテンシ
    • Cloud Spanner とは
    • Bigtable スキーマの設計
    • Bigtable への取り込み
    • ラボ: Bigtable へのストリーミング

受講料

¥400,000(税抜)

開講スケジュール

現在調整中です。

TEL. 03-5840-8815 03-5840-8815 平日 10:00~19:00

オンライン講座をご希望の方はZ会のサービス
ご検討ください
Cousera × Z-kai