Instalación de Hadoop en Ambiente Distribuido con Proxmox y Ubuntu Server - Guía Completa

Поделиться
HTML-код
  • Опубликовано: 22 янв 2025

Комментарии • 6

  • @FaustoCevallos
    @FaustoCevallos  4 месяца назад +1

    COMANDOS
    Instalación y Configuración nodo principal
    sudo apt update && sudo apt upgrade
    Requisitos
    sudo apt-get install ssh pdsh openjdk-8-jdk
    wget dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
    tar -xvzf hadoop-3.3.6.tar.gz
    mv hadoop-3.3.6 hadoop
    Verificación
    java -version
    dirname $(dirname $(readlink -f $(which java)))
    Agregar JAVA
    nano hadoop/etc/hadoop/hadoop-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    Variables de entorno
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export HADOOP_HOME=/home/hadoop/hadoop
    export PATH=$PATH:$JAVA_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
    export PDSH_RCMD_TYPE=ssh
    Archivos de configuración
    nano ~/hadoop/etc/hadoop/core-site.xml
    fs.defaultFS
    hdfs://nodo-1.hadoop:9000

    io.file.buffer.size
    131072

    .http.staticuser.user
    hadoop
    true
    nano ~/hadoop/etc/hadoop/hdfs-site.xml
    dfs.replication
    2

    dfs.namenode.name.dir
    /home/hadoop/datos/namenode

    dfs.datanode.data.dir
    /home/hadoop/datos/datanode

    dfs.permissions
    false
    nano ~/hadoop/etc/hadoop/mapred-site.xml
    mapreduce.framework.name
    yarn
    nano ~/hadoop/etc/hadoop/yarn-site.xml
    yarn.resourcemanager.hostname
    nodo-1.hadoop

    yarn.nodemanager.aux-services
    mapreduce_shuffle

    yarn.nodemanager.aux-services.mapreduce_shuffle.class
    org.apache.hadoop.mapred.ShuffleHandler

    yarn.application.classpath
    /home/hadoop/hadoop/hadoop/etc/hadoop,
    /home/hadoop/hadoop/share/hadoop/common/*,
    /home/hadoop/hadoop/share/hadoop/common/lib/*,
    /home/hadoop/hadoop/share/hadoop/hdfs/*,
    /home/hadoop/hadoop/share/hadoop/hdfs/lib/*,
    /home/hadoop/hadoop/share/hadoop/mapreduce/*,
    /home/hadoop/hadoop/share/hadoop/mapreduce/lib/*,
    /home/hadoop/hadoop/share/hadoop/yarn/*,
    /home/hadoop/hadoop/share/hadoop/yarn/lib/*

    nano ~/hadoop/etc/hadoop/workers
    #localhost
    nodo-2.hadoop
    nodo-3.hadoop
    creación de directorios
    mkdir ~/datos
    mkdir ~/datos/namenode
    mkdir ~/datos/datanode
    chown -R hadoop:hadoop ~/datos
    acceso ssh de nodo maestro a esclavos
    cd ~/.ssh
    ssh-keygen
    cp id_rsa.pub authorized_keys
    cat authorized_keys
    sudo nano /etc/hosts
    172.16.30.15 nodo-1.hadoop
    sudo nano /etc/hostname
    nodo-1.hadoop
    inicializar servicios
    start-dfs.sh
    start-yarn.sh
    mapred --daemon start historyserver
    jps
    stop-yarn.sh
    stop-dfs.sh
    mapred --daemon stop historyserver
    Instalación y configuración de nodos secundarios
    Clonar las máquinas virtuales a partir del nodo master
    Cambiar el nombre y las direcciones IP en:
    /etc/hosts
    /etc/hostname
    eliminar las llaves privadas de los nodos, dejar solo authorized-keys
    rm -rf .ssh/id_rsa*
    verificar ssh desde nodo master a slaves
    eliminar datos en los nodos
    cd /home/hadoop/datos/
    rm -rf namenode/
    cd datanode/
    rm -rf current/
    En el nodo principal
    cd ~/datos/
    rm -rf datanode/
    hdfs namenode -format
    cd ~/datos/namenode
    ls -al
    verificar en todos los nodos el archivo workers
    Recomendaciones
    en los archivos /etc/hosts y /etc/hostname usando dns

  • @jfrayre
    @jfrayre 4 месяца назад

    Esta genial, lo voy a replicar, duda, para no teclear todo tendrás el file para hacer copy & paste y que características tiene tu proxmox, el mio es un ThinkCentre M70q, lo tope a 64 en RAM y un disco mecánico de 2 teras y funciona bien, pero funciona mucho mejor con ESXi 8, pero default uso Proxmox Virtual Environment 8.2.7

    • @FaustoCevallos
      @FaustoCevallos  4 месяца назад

      Hola @jfrayre he fijado un comentario en el video con toda la comandería y configuración para que sea más fácil replicarlo, gracias por el recordatorio, olvidé pasar los comandos.
      Sobre mi servidor es básico, i7 de 12va, 32 de ram, 500Gb de disco, lo uso para pruebas e investigación nada más!

    • @jfrayre
      @jfrayre 4 месяца назад +1

      @@FaustoCevallos gracias por pasar la configuración iba en este paso vi ~/hadoop/etc/hadoop/yarn-site.xml pero si es teclear mucho y el mio también es de laboratorio local genial todo, ya me suscribí saludos y una vez mas gracias.

  • @jfrayre
    @jfrayre 3 месяца назад +1

    ya lo hice 2 veces y en la primera si vi los clusters en yanr, en la segunda no los veo desplegados en el dashboard, pero si les doy por ip si los veo, voy a verificar bien que fue lo que paso y otro comentario creo falta hagas que systemv lo reconozca de inicio y que sea de manera permanente ya que cuando reinicias el nodo 1, se pierde toda la comunicación entre ellos y debes volver a correr el start-dfs.sh y posterior el start-yarn.sh y por ultimo el mapred --daemon start historyserver si no, no se levanta el nodo principal, saludos.

    • @FaustoCevallos
      @FaustoCevallos  3 месяца назад

      Hola @jfrayre sí tienes razón, el ejemplificar todo con manejo de systemd para los servicios de hadoop habrían dejado mucho mejor el video, gracias por la sugerencia!!!