Apache Spark¶

En este artículo

Características clave de Apache Spark

Funcionalidades de implementación

Primeros pasos después de implementar Apache Spark

Configuración de Apache Spark

Pedido de un servidor con Apache Spark mediante API

Información

Apache Spark es un motor potente y rápido para el procesamiento de big data que puede utilizarse para diversas tareas, como el procesamiento de flujos de datos en tiempo real, el aprendizaje automático y el análisis de bases de datos. Spark proporciona una API flexible en varios lenguajes de programación, incluidos Scala, Java, Python y R.

Características clave de Apache Spark¶

Alto rendimiento: Spark utiliza el procesamiento distribuido de datos y algoritmos optimizados, lo que le permite procesar grandes volúmenes de datos más rápido que las soluciones tradicionales.
Distribución: Spark puede operar en clústeres de múltiples nodos, lo que le permite escalar el procesamiento de datos según sea necesario.
APIs diversas: Spark ofrece APIs en varios lenguajes de programación, lo que lo hace adecuado para diferentes escenarios y equipos de desarrollo.
Soporte para varios tipos de datos: Spark puede manejar diferentes tipos de datos, incluidos datos estructurados (tablas), datos no estructurados (texto, imágenes) y datos semiestructurados (JSON).
Spark GraphX: Una API gráfica que permite realizar operaciones en grafos grandes.

Funcionalidades de implementación¶

ID	Nombre del Software	SO Compatible	VM	BM	VGPU	GPU	CPU Mín. (Núcleos)	RAM Mín. (GB)	HDD/SSD Mín. (GB)	Dominio Personalizado	Activo
204	Apache Spark	Ubuntu 22.04	+	+	+	+	6	8	160	No	PEDIR

Acceso al panel de control: https://spark{Server_ID_from_Invapi}.hostkey.in
El tiempo necesario para instalar el panel de control junto con el sistema operativo es de aproximadamente 15 minutos.

Nota

A menos que se especifique lo contrario, de forma predeterminada instalamos la última versión de lanzamiento del software desde el sitio web del desarrollador o los repositorios del sistema operativo.

Primeros pasos después de implementar Apache Spark¶

Después de pagar su pedido, recibirá una notificación por correo electrónico (a la dirección registrada durante el registro) cuando el servidor esté listo para usar. Esta notificación incluirá la dirección IP del VPS y las credenciales de inicio de sesión para la conexión. Los clientes de nuestra empresa gestionan su equipo a través del panel de control del servidor y la API - Invapi.

Puede encontrar los datos de autenticación, que se encuentran en la pestaña Configuration >> Tags del panel de control del servidor o en el correo electrónico enviado después de que el servidor esté listo para usar:

Enlace para acceder a la interfaz web de Apache Airflow: en la etiqueta webpanel;
Login y Password: proporcionados en el correo electrónico enviado a su dirección de correo electrónico registrada cuando el servidor esté listo para usar.

Configuración de Apache Spark¶

Spark puede ejecutarse en un ordenador local o en un entorno distribuido. Antes de hacer clic en el enlace de la etiqueta webpanel, debe:

Conectarse al servidor mediante SSH:

ssh root@<server_ip>

A continuación, inicie la aplicación requerida utilizando el comando de la tabla de la sección Lanzamiento de componentes.

De lo contrario, al hacer clic en el enlace se mostrará un error 502 (Bad Gateway).

Lanzamiento de componentes¶

Puede iniciar varios componentes de Spark, como Application, Standalone Master, Standalone Worker e History Server con interfaz web, utilizando los comandos de la tabla siguiente.

Nombre	Dirección y puerto local	Dirección externa	Comando de lanzamiento
Application	localhost:4040	`https://spark{Server_ID_from_Invapi}.hostkey.in`	`/root/spark-3.5.3-bin-hadoop3/bin/./spark-shell`
Standalone Master	localhost:8080	`https://spark{Server_ID_from_Invapi}.hostkey.in/master`	`/root/spark-3.5.3-bin-hadoop3/sbin/./start-master.sh`
Standalone Worker	localhost:8081	`https://spark{Server_ID_from_Invapi}.hostkey.in/worker`	`/root/spark-3.5.3-bin-hadoop3/sbin/./start-master.sh spark://hostname:port`
History Server	localhost:18080	`https://spark{Server_ID_from_Invapi}.hostkey.in/history`	`mkdir /tmp/spark-events` `/root/spark-3.5.3-bin-hadoop3/sbin/./start-history-server.sh`

Tenga en cuenta que los comandos para lanzar componentes de Spark pueden variar según la versión utilizada. Los ejemplos anteriores utilizan la versión 3.5.3 de Spark. Al actualizar Spark, deberá ajustar las rutas en los comandos en consecuencia. Siempre se recomienda consultar la documentación más reciente de Spark para obtener la información más precisa sobre los comandos de lanzamiento de componentes. Para comprobar la versión, conéctese al servidor mediante SSH e introduzca el comando:

ls /root

La salida de este comando enumerará el contenido del directorio /root, incluido el directorio spark con la versión instalada:

Después de lanzar los componentes de Spark, puede acceder a sus interfaces web a través de las direcciones externas especificadas. Considere un ejemplo de la interfaz de Spark Application:

Este ejemplo muestra la interfaz de Spark Application accesible en https://spark{Server_ID_from_Invapi}.hostkey.in. Esta interfaz muestra información sobre las tareas en ejecución, las etapas de procesamiento, el uso de memoria y otras métricas clave.

Es importante tener en cuenta que los enlaces a otros componentes de Spark (por ejemplo, Standalone Master o Worker) en esta interfaz no funcionarán al conectarse desde otra máquina. Esto se debe a la configuración de seguridad: los componentes están configurados para operar localmente, y solo la interfaz web accesible a través del nombre de dominio está expuesta externamente.

Para modificar esta configuración y habilitar el acceso externo a todos los componentes, debe realizar los siguientes pasos:

Detenga y elimine el contenedor Docker actual ejecutando el comando docker compose up down en el directorio /root/nginx.
Elimine la línea SPARK_LOCAL_IP="127.0.0.1" del archivo /etc/environment.

Después de estos cambios, la interfaz web de Spark será accesible a través de la dirección IP blanca sin certificado SSL. Esta modificación también puede resolver problemas de conectividad entre componentes si surgen durante la operación.

Nota

Es importante recordar que esta configuración reduce el nivel de seguridad del clúster de Spark. Solo debe utilizarse cuando sea necesario y en un entorno de red seguro. Si utiliza esta configuración, considere configurar conexiones SSL dentro del propio Spark o implementar otras medidas de seguridad para proteger el clúster.

Personalización de rutas¶

Detenga el contenedor Docker ejecutando el comando docker compose up down en el directorio /root/nginx.
Realice las ediciones necesarias en el archivo de configuración de Nginx: /data/nginx/user_conf.d/spark{Server_ID_from_Invapi}.hostkey.in.conf.
Reinicie el contenedor Docker desde el directorio /root/nginx utilizando el comando docker compose up -d.

Nota

Información detallada sobre la configuración básica de Apache Spark se puede encontrar en la documentación del desarrollador.

Pedido de un servidor con Apache Spark mediante API¶

Para instalar este software utilizando la API, siga estas instrucciones.