Instalación de Hadoop en Ambiente Distribuido con Proxmox y Ubuntu Server - Guía Completa

Fausto Cevallos

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 22 янв 2025

Комментарии • 6

@FaustoCevallos 4 месяца назад ⁺¹
COMANDOS
Instalación y Configuración nodo principal
sudo apt update && sudo apt upgrade
Requisitos
sudo apt-get install ssh pdsh openjdk-8-jdk
wget dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xvzf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 hadoop
Verificación
java -version
dirname $(dirname $(readlink -f $(which java)))
Agregar JAVA
nano hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Variables de entorno
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$JAVA_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export PDSH_RCMD_TYPE=ssh
Archivos de configuración
nano ~/hadoop/etc/hadoop/core-site.xml
fs.defaultFS
hdfs://nodo-1.hadoop:9000

io.file.buffer.size
131072

.http.staticuser.user
hadoop
true
nano ~/hadoop/etc/hadoop/hdfs-site.xml
dfs.replication
2

dfs.namenode.name.dir
/home/hadoop/datos/namenode

dfs.datanode.data.dir
/home/hadoop/datos/datanode

dfs.permissions
false
nano ~/hadoop/etc/hadoop/mapred-site.xml
mapreduce.framework.name
yarn
nano ~/hadoop/etc/hadoop/yarn-site.xml
yarn.resourcemanager.hostname
nodo-1.hadoop

yarn.nodemanager.aux-services
mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce_shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

yarn.application.classpath
/home/hadoop/hadoop/hadoop/etc/hadoop,
/home/hadoop/hadoop/share/hadoop/common/*,
/home/hadoop/hadoop/share/hadoop/common/lib/*,
/home/hadoop/hadoop/share/hadoop/hdfs/*,
/home/hadoop/hadoop/share/hadoop/hdfs/lib/*,
/home/hadoop/hadoop/share/hadoop/mapreduce/*,
/home/hadoop/hadoop/share/hadoop/mapreduce/lib/*,
/home/hadoop/hadoop/share/hadoop/yarn/*,
/home/hadoop/hadoop/share/hadoop/yarn/lib/*

nano ~/hadoop/etc/hadoop/workers
#localhost
nodo-2.hadoop
nodo-3.hadoop
creación de directorios
mkdir ~/datos
mkdir ~/datos/namenode
mkdir ~/datos/datanode
chown -R hadoop:hadoop ~/datos
acceso ssh de nodo maestro a esclavos
cd ~/.ssh
ssh-keygen
cp id_rsa.pub authorized_keys
cat authorized_keys
sudo nano /etc/hosts
172.16.30.15 nodo-1.hadoop
sudo nano /etc/hostname
nodo-1.hadoop
inicializar servicios
start-dfs.sh
start-yarn.sh
mapred --daemon start historyserver
jps
stop-yarn.sh
stop-dfs.sh
mapred --daemon stop historyserver
Instalación y configuración de nodos secundarios
Clonar las máquinas virtuales a partir del nodo master
Cambiar el nombre y las direcciones IP en:
/etc/hosts
/etc/hostname
eliminar las llaves privadas de los nodos, dejar solo authorized-keys
rm -rf .ssh/id_rsa*
verificar ssh desde nodo master a slaves
eliminar datos en los nodos
cd /home/hadoop/datos/
rm -rf namenode/
cd datanode/
rm -rf current/
En el nodo principal
cd ~/datos/
rm -rf datanode/
hdfs namenode -format
cd ~/datos/namenode
ls -al
verificar en todos los nodos el archivo workers
Recomendaciones
en los archivos /etc/hosts y /etc/hostname usando dns
@jfrayre 4 месяца назад
Esta genial, lo voy a replicar, duda, para no teclear todo tendrás el file para hacer copy & paste y que características tiene tu proxmox, el mio es un ThinkCentre M70q, lo tope a 64 en RAM y un disco mecánico de 2 teras y funciona bien, pero funciona mucho mejor con ESXi 8, pero default uso Proxmox Virtual Environment 8.2.7
@FaustoCevallos 4 месяца назад
Hola @jfrayre he fijado un comentario en el video con toda la comandería y configuración para que sea más fácil replicarlo, gracias por el recordatorio, olvidé pasar los comandos.
Sobre mi servidor es básico, i7 de 12va, 32 de ram, 500Gb de disco, lo uso para pruebas e investigación nada más!
@jfrayre 4 месяца назад ⁺¹
@@FaustoCevallos gracias por pasar la configuración iba en este paso vi ~/hadoop/etc/hadoop/yarn-site.xml pero si es teclear mucho y el mio también es de laboratorio local genial todo, ya me suscribí saludos y una vez mas gracias.
@jfrayre 3 месяца назад ⁺¹
ya lo hice 2 veces y en la primera si vi los clusters en yanr, en la segunda no los veo desplegados en el dashboard, pero si les doy por ip si los veo, voy a verificar bien que fue lo que paso y otro comentario creo falta hagas que systemv lo reconozca de inicio y que sea de manera permanente ya que cuando reinicias el nodo 1, se pierde toda la comunicación entre ellos y debes volver a correr el start-dfs.sh y posterior el start-yarn.sh y por ultimo el mapred --daemon start historyserver si no, no se levanta el nodo principal, saludos.
@FaustoCevallos 3 месяца назад
Hola @jfrayre sí tienes razón, el ejemplificar todo con manejo de systemd para los servicios de hadoop habrían dejado mucho mejor el video, gracias por la sugerencia!!!

Следующие

Автовоспроизведение

Laboratorio - ¿Alta Disponibilidad con Proxmox? Descubre si es lo que tu infraestructura necesita 🚀