Apache Hadoop es un framework de software de código abierto utilizado para el almacenamiento distribuido y el procesamiento de conjuntos de datos grandes en clústeres de computadoras. Esta guía te mostrará cómo instalar Apache Hadoop en un sistema Ubuntu 22.04 para que puedas comenzar a utilizarlo en tus proyectos de análisis de datos.
Paso 1: Preparación del Sistema
Antes de instalar Apache Hadoop, asegúrate de que tu sistema Ubuntu 22.04 esté actualizado. Ejecuta los siguientes comandos en tu terminal:
sudo apt update
sudo apt upgrade
Paso 2: Instalación de Java
Apache Hadoop requiere Java para funcionar. Instala Java OpenJDK en tu servidor Ubuntu con el siguiente comando:
sudo apt install openjdk-11-jdk
Paso 3: Descarga e Instalación de Apache Hadoop
Descarga la última versión de Apache Hadoop desde el sitio web oficial y descomprímelo en el directorio de tu preferencia. Por ejemplo:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz
sudo mv hadoop-3.3.1 /usr/local/hadoop
Paso 4: Configuración de Variables de Entorno
Edita el archivo .bashrc
en tu directorio de inicio para agregar las variables de entorno necesarias para Apache Hadoop. Abre el archivo con tu editor de texto favorito:
nano ~/.bashrc
Agrega las siguientes líneas al final del archivo:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
Guarda y cierra el archivo. Luego, actualiza la sesión de tu terminal para aplicar los cambios:
source ~/.bashrc
Paso 5: Configuración de Apache Hadoop
Edita el archivo hadoop-env.sh
ubicado en la carpeta de configuración de Hadoop para establecer las variables de entorno de Java:
sudo nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Agrega la siguiente línea al archivo para establecer la ubicación de Java:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Guarda y cierra el archivo.
Paso 6: Iniciar Apache Hadoop
Ahora estás listo para iniciar Apache Hadoop. Ejecuta los siguientes comandos en tu terminal:
cd /usr/local/hadoop
sbin/start-dfs.sh
sbin/start-yarn.sh
Paso 7: Verificación de la Instalación
Puedes verificar que Apache Hadoop se haya instalado correctamente ejecutando el siguiente comando para ver el estado de los nodos:
jps
Considera utilizar los servicios de Cloud VPS de Shape.host para alojar tu clúster de Apache Hadoop en Ubuntu 22.04. Con Shape.host, obtendrás un entorno de alojamiento confiable y escalable para tus proyectos de análisis de datos.