Reintroduction to DWH: Technology Behind Data Analytics Infrastructure

Поделиться
HTML-код
  • Опубликовано: 9 окт 2024

Комментарии • 5

  • @nakajima337
    @nakajima337 3 года назад +1

    Redshiftはカラムナーなので3Tierアーキテクチャで構築するとデータ加工のパフォーマンス問題が発生しませんか?

    • @classmethod-yt
      @classmethod-yt  3 года назад +4

      DWHはイミュータブルなデータを追記する形で保存することが一般的であるため、Redshiftが3Tierアーキテクチャを採用してもカラムナーの特性を失わずに保存することで、パフォーマンスの低下を回避していると考えられます。
      RedshiftのRA3インスタンスでは、3Tierアーキテクチャを採用しています。RA3インスタンスはデータをローカルのストレージ(キャッシュ)とManaged S3に保存しています。対象となるデータがローカルのストレージ(キャッシュ)の場合、従来のストレージよりも高速なため、より高いパフォーマンスが得られます。一方、対象となるデータがManaged S3の場合は、S3からデータを取得するオーバヘッドが生じてパフォーマンスが低下する可能性があります。しかし、RA3インスタンスは最新のNitroシステムを採用した新インスタンスを用いることでそのオーバーヘッドを相殺しています。今後AQUAの進化に伴い、さらなるパフォーマンスの改善が期待できます。

  • @ph4746
    @ph4746 2 года назад +1

    ETLとELTの違いってなんですか?👀

    • @classmethod-yt
      @classmethod-yt  2 года назад +7

      例えば、分析対象のデータが基幹のデータベースに存在する場合、基幹のデータベースからデータを抽出(Extract)して、ファイルという形式で連携されることが多くあります。最終的には連携されたデータを分析しやすいデータに変換してDWHに保存します。ETLやELTという用語は、分析対象のデータをどのタイミングで分析しやすいデータに変換(Transform)するか、データをロード(Load)するかを表した用語になります。
      ETLとELTの違いについて解説します。ETL(Extract, Transform and Load)は、分析対象のデータファイルをプログラムやツールなどを用いて変換(Transform)したデータファイルを作成した後、DWHにロード(Load)する方式です。
      一方、ELT(Extract, Load and Transform)は、分析対象のデータファイルをDWHにロード(Load)した後、DWHのSQLを用いて変換(Transform)する方式です。
      ETLは、分析対象のデータ毎に変換するためのプログラムやツール、それらを実行するのに十分な処理性能を持つサーバーなどが必要になります。一方、ELTは、変換するための処理を標準的なSQLで作成できる手軽さや、変換処理に伸縮自在なクラウド型DWHが利用できる柔軟性などの理由から、ELTを採用する機会が増えています。
      ETLとELTの違いがよくわからなくなる背景には、恐らく、一般的なETL製品の機能にELTができるものが多くあったり、ETLという用語の中にELTの意味を含む形で紹介されることが多くあるためではないかと考えられます。

  • @CharleyGavin-i1e
    @CharleyGavin-i1e 22 дня назад

    Kling Springs