nano ~/hadoop/etc/hadoop/workers #localhost nodo-2.hadoop nodo-3.hadoop creación de directorios mkdir ~/datos mkdir ~/datos/namenode mkdir ~/datos/datanode chown -R hadoop:hadoop ~/datos acceso ssh de nodo maestro a esclavos cd ~/.ssh ssh-keygen cp id_rsa.pub authorized_keys cat authorized_keys sudo nano /etc/hosts 172.16.30.15 nodo-1.hadoop sudo nano /etc/hostname nodo-1.hadoop inicializar servicios start-dfs.sh start-yarn.sh mapred --daemon start historyserver jps stop-yarn.sh stop-dfs.sh mapred --daemon stop historyserver Instalación y configuración de nodos secundarios Clonar las máquinas virtuales a partir del nodo master Cambiar el nombre y las direcciones IP en: /etc/hosts /etc/hostname eliminar las llaves privadas de los nodos, dejar solo authorized-keys rm -rf .ssh/id_rsa* verificar ssh desde nodo master a slaves eliminar datos en los nodos cd /home/hadoop/datos/ rm -rf namenode/ cd datanode/ rm -rf current/ En el nodo principal cd ~/datos/ rm -rf datanode/ hdfs namenode -format cd ~/datos/namenode ls -al verificar en todos los nodos el archivo workers Recomendaciones en los archivos /etc/hosts y /etc/hostname usando dns
Esta genial, lo voy a replicar, duda, para no teclear todo tendrás el file para hacer copy & paste y que características tiene tu proxmox, el mio es un ThinkCentre M70q, lo tope a 64 en RAM y un disco mecánico de 2 teras y funciona bien, pero funciona mucho mejor con ESXi 8, pero default uso Proxmox Virtual Environment 8.2.7
Hola @jfrayre he fijado un comentario en el video con toda la comandería y configuración para que sea más fácil replicarlo, gracias por el recordatorio, olvidé pasar los comandos. Sobre mi servidor es básico, i7 de 12va, 32 de ram, 500Gb de disco, lo uso para pruebas e investigación nada más!
@@FaustoCevallos gracias por pasar la configuración iba en este paso vi ~/hadoop/etc/hadoop/yarn-site.xml pero si es teclear mucho y el mio también es de laboratorio local genial todo, ya me suscribí saludos y una vez mas gracias.
ya lo hice 2 veces y en la primera si vi los clusters en yanr, en la segunda no los veo desplegados en el dashboard, pero si les doy por ip si los veo, voy a verificar bien que fue lo que paso y otro comentario creo falta hagas que systemv lo reconozca de inicio y que sea de manera permanente ya que cuando reinicias el nodo 1, se pierde toda la comunicación entre ellos y debes volver a correr el start-dfs.sh y posterior el start-yarn.sh y por ultimo el mapred --daemon start historyserver si no, no se levanta el nodo principal, saludos.
Hola @jfrayre sí tienes razón, el ejemplificar todo con manejo de systemd para los servicios de hadoop habrían dejado mucho mejor el video, gracias por la sugerencia!!!
COMANDOS
Instalación y Configuración nodo principal
sudo apt update && sudo apt upgrade
Requisitos
sudo apt-get install ssh pdsh openjdk-8-jdk
wget dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xvzf hadoop-3.3.6.tar.gz
mv hadoop-3.3.6 hadoop
Verificación
java -version
dirname $(dirname $(readlink -f $(which java)))
Agregar JAVA
nano hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Variables de entorno
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$JAVA_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export PDSH_RCMD_TYPE=ssh
Archivos de configuración
nano ~/hadoop/etc/hadoop/core-site.xml
fs.defaultFS
hdfs://nodo-1.hadoop:9000
io.file.buffer.size
131072
.http.staticuser.user
hadoop
true
nano ~/hadoop/etc/hadoop/hdfs-site.xml
dfs.replication
2
dfs.namenode.name.dir
/home/hadoop/datos/namenode
dfs.datanode.data.dir
/home/hadoop/datos/datanode
dfs.permissions
false
nano ~/hadoop/etc/hadoop/mapred-site.xml
mapreduce.framework.name
yarn
nano ~/hadoop/etc/hadoop/yarn-site.xml
yarn.resourcemanager.hostname
nodo-1.hadoop
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce_shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.application.classpath
/home/hadoop/hadoop/hadoop/etc/hadoop,
/home/hadoop/hadoop/share/hadoop/common/*,
/home/hadoop/hadoop/share/hadoop/common/lib/*,
/home/hadoop/hadoop/share/hadoop/hdfs/*,
/home/hadoop/hadoop/share/hadoop/hdfs/lib/*,
/home/hadoop/hadoop/share/hadoop/mapreduce/*,
/home/hadoop/hadoop/share/hadoop/mapreduce/lib/*,
/home/hadoop/hadoop/share/hadoop/yarn/*,
/home/hadoop/hadoop/share/hadoop/yarn/lib/*
nano ~/hadoop/etc/hadoop/workers
#localhost
nodo-2.hadoop
nodo-3.hadoop
creación de directorios
mkdir ~/datos
mkdir ~/datos/namenode
mkdir ~/datos/datanode
chown -R hadoop:hadoop ~/datos
acceso ssh de nodo maestro a esclavos
cd ~/.ssh
ssh-keygen
cp id_rsa.pub authorized_keys
cat authorized_keys
sudo nano /etc/hosts
172.16.30.15 nodo-1.hadoop
sudo nano /etc/hostname
nodo-1.hadoop
inicializar servicios
start-dfs.sh
start-yarn.sh
mapred --daemon start historyserver
jps
stop-yarn.sh
stop-dfs.sh
mapred --daemon stop historyserver
Instalación y configuración de nodos secundarios
Clonar las máquinas virtuales a partir del nodo master
Cambiar el nombre y las direcciones IP en:
/etc/hosts
/etc/hostname
eliminar las llaves privadas de los nodos, dejar solo authorized-keys
rm -rf .ssh/id_rsa*
verificar ssh desde nodo master a slaves
eliminar datos en los nodos
cd /home/hadoop/datos/
rm -rf namenode/
cd datanode/
rm -rf current/
En el nodo principal
cd ~/datos/
rm -rf datanode/
hdfs namenode -format
cd ~/datos/namenode
ls -al
verificar en todos los nodos el archivo workers
Recomendaciones
en los archivos /etc/hosts y /etc/hostname usando dns
Esta genial, lo voy a replicar, duda, para no teclear todo tendrás el file para hacer copy & paste y que características tiene tu proxmox, el mio es un ThinkCentre M70q, lo tope a 64 en RAM y un disco mecánico de 2 teras y funciona bien, pero funciona mucho mejor con ESXi 8, pero default uso Proxmox Virtual Environment 8.2.7
Hola @jfrayre he fijado un comentario en el video con toda la comandería y configuración para que sea más fácil replicarlo, gracias por el recordatorio, olvidé pasar los comandos.
Sobre mi servidor es básico, i7 de 12va, 32 de ram, 500Gb de disco, lo uso para pruebas e investigación nada más!
@@FaustoCevallos gracias por pasar la configuración iba en este paso vi ~/hadoop/etc/hadoop/yarn-site.xml pero si es teclear mucho y el mio también es de laboratorio local genial todo, ya me suscribí saludos y una vez mas gracias.
ya lo hice 2 veces y en la primera si vi los clusters en yanr, en la segunda no los veo desplegados en el dashboard, pero si les doy por ip si los veo, voy a verificar bien que fue lo que paso y otro comentario creo falta hagas que systemv lo reconozca de inicio y que sea de manera permanente ya que cuando reinicias el nodo 1, se pierde toda la comunicación entre ellos y debes volver a correr el start-dfs.sh y posterior el start-yarn.sh y por ultimo el mapred --daemon start historyserver si no, no se levanta el nodo principal, saludos.
Hola @jfrayre sí tienes razón, el ejemplificar todo con manejo de systemd para los servicios de hadoop habrían dejado mucho mejor el video, gracias por la sugerencia!!!