DATA SOURCE AND DATA LAKE

Поделиться
HTML-код
  • Опубликовано: 15 окт 2024
  • DATA SOURCE DAN DATA LAKE
    Jadi, sebagai Data Engineer, kita nih sering banget berurusan sama data source dan data lake. Gampangnya gini, data source itu kayak asal-usulnya data. Bisa dari mana aja, dari database, API, file CSV, IoT device, atau aplikasi lain yang ngehasilin data. Misalnya, kamu punya aplikasi e-commerce, ya data sumbernya itu kayak transaksi pembelian, data user, produk yang ada di database MySQL, atau bahkan aktivitas pengguna di website kamu. Intinya, data source itu kayak "pintu masuk" dari semua data yang kita olah nanti.
    .
    Nah, data source itu bisa macem-macem formatnya, ada yang structured (terstruktur) kayak di tabel database, ada yang semi-structured kayak JSON, XML, atau unstructured kayak file gambar, video, atau teks dokumen. Tugas kita sebagai Data Engineer adalah ngambil data dari sumber ini dan ngepastiin data tersebut bisa dipake buat keperluan analisis atau aplikasi lebih lanjut. Di sinilah pentingnya proses ETL (Extract, Transform, Load), di mana kita ekstrak data, transformasi biar rapi, terus load ke tujuan akhir.
    .
    Sekarang ngomongin data lake. Kalau data source itu asal-usul, data lake itu kayak "danau besar" tempat nyimpen semua data yang masuk, mau itu data mentah (raw) atau data yang udah diolah. Data lake ini beda sama data warehouse, karena di sini kita bisa nyimpen semua jenis data, baik yang structured, semi-structured, atau unstructured, semuanya bisa masuk tanpa harus langsung diproses atau dirapihin.
    .
    Bayangin aja data lake kayak gudang data besar yang ngumpulin semua data tanpa pandang bulu. Jadi, data mentah dari berbagai sumber, langsung "dicemplungin" dulu ke data lake, buat nanti diproses lebih lanjut kalau dibutuhin. Kelebihan dari data lake adalah fleksibilitasnya, karena bisa nampung data dalam jumlah besar dengan format yang bervariasi. Tapi, di balik itu semua, ada tantangan juga, kayak gimana kita ngatur governance-nya, biar tetap aman, terstruktur, dan gampang diakses.
    .
    Intinya, sebagai Data Engineer, kita mainin peran penting di kedua hal ini. Kita yang urusin gimana caranya data dari berbagai sumber bisa dikumpulin dengan rapi ke data lake, siap buat diproses lebih lanjut oleh tim analyst, data scientist, atau dipake buat keperluan machine learning.
    .
    Mas Ghaly, seorang Data Engineer dengan pengalaman kerja di perusahaan Super, SuperApp (YC W18), bakal berbagi insight berharga dari pengalaman nya di kursus dan lapangan.
    ~~~
    Like & repost buat nunjukkin dukungan kalian, dan follow untuk update rutin dari tim engineering kita yang keren. Yuk, gabung di perjalanan inspiratif ini menuju peningkatan terus-menerus! Dapetin insight & ilmu yang bisa bantu kamu berkembang di karier!
    / @super-engineering
    .
    #JadiSuper #SuperApp #SuperEngineering #SuperAppEngineering #dataengineering #dataengineer #DataSource #Datalake #NgobrolSantai

Комментарии •