Saltar a contenido

Apache Spark

En este artículo

Información

Apache Spark es un motor potente y rápido para el procesamiento de big data que puede utilizarse para diversas tareas, como el procesamiento de flujos de datos en tiempo real, el aprendizaje automático y el análisis de bases de datos. Spark proporciona una API flexible en múltiples lenguajes de programación, incluidos Scala, Java, Python y R.

Características clave de Apache Spark

  • Alto rendimiento: Spark utiliza el procesamiento distribuido de datos y algoritmos optimizados, lo que le permite procesar grandes volúmenes de datos más rápido que las soluciones tradicionales.
  • Distribución: Spark puede operar en clústeres de múltiples nodos, lo que le permite escalar el procesamiento de datos según sea necesario.
  • APIs diversas: Spark ofrece APIs en varios lenguajes de programación, lo que lo hace adecuado para diferentes escenarios y equipos de desarrollo.
  • Soporte para diversos tipos de datos: Spark puede manejar diferentes tipos de datos, incluidos datos estructurados (tablas), datos no estructurados (texto, imágenes) y datos semiestructurados (JSON).
  • Spark GraphX: Una API gráfica que permite realizar operaciones en grafos grandes.

Funcionalidades de implementación

ID Nombre del software SO compatible VM BM VGPU GPU CPU mín. (núcleos) RAM mín. (GB) HDD/SSD mín. (GB) Dominio personalizado Activo
204 Apache Spark Ubuntu 22.04 + + + + 6 8 160 No ORDER
  • Acceso al panel de control: https://spark{Server_ID_from_Invapi}.hostkey.in
  • El tiempo necesario para instalar el panel de control junto con el sistema operativo es de aproximadamente 15 minutos.

Nota

A menos que se especifique lo contrario, de forma predeterminada instalamos la última versión de lanzamiento del software desde el sitio web del desarrollador o los repositorios del sistema operativo.

Primeros pasos después de implementar Apache Spark

Después de pagar su pedido, recibirá una notificación por correo electrónico (a la dirección registrada durante el registro) cuando el servidor esté listo para su uso. Esta notificación incluirá la dirección IP del VPS y las credenciales de inicio de sesión para la conexión. Los clientes de nuestra empresa gestionan su equipo a través del panel de control del servidor y la API - Invapi.

Puede encontrar los datos de autenticación, que se encuentran en la pestaña Configuration >> Tags del panel de control del servidor o en el correo electrónico enviado después de que el servidor esté listo para su uso:

  • Enlace para acceder a la interfaz web de Apache Airflow: en la etiqueta webpanel;
  • Login y Password: proporcionados en el correo electrónico enviado a su dirección de correo electrónico registrada cuando el servidor esté listo para su uso.

Configuración de Apache Spark

Spark puede ejecutarse en un ordenador local o en un entorno distribuido. Antes de hacer clic en el enlace de la etiqueta webpanel, debe:

Conectarse al servidor mediante SSH:

ssh root@<server_ip>

A continuación, inicie la aplicación requerida utilizando el comando de la tabla de la sección Lanzamiento de componentes.

De lo contrario, al hacer clic en el enlace se mostrará un error 502 (Bad Gateway).

Lanzamiento de componentes

Puede iniciar varios componentes de Spark, como Application, Standalone Master, Standalone Worker e History Server con interfaz web, utilizando los comandos de la tabla siguiente.

Nombre Dirección y puerto local Dirección externa Comando de lanzamiento
Application localhost:4040 https://spark{Server_ID_from_Invapi}.hostkey.in /root/spark-3.5.3-bin-hadoop3/bin/./spark-shell
Standalone Master localhost:8080 https://spark{Server_ID_from_Invapi}.hostkey.in/master /root/spark-3.5.3-bin-hadoop3/sbin/./start-master.sh
Standalone Worker localhost:8081 https://spark{Server_ID_from_Invapi}.hostkey.in/worker /root/spark-3.5.3-bin-hadoop3/sbin/./start-master.sh spark://hostname:port
History Server localhost:18080 https://spark{Server_ID_from_Invapi}.hostkey.in/history mkdir /tmp/spark-events
/root/spark-3.5.3-bin-hadoop3/sbin/./start-history-server.sh

Tenga en cuenta que los comandos para lanzar los componentes de Spark pueden variar según la versión utilizada. Los ejemplos anteriores utilizan la versión 3.5.3 de Spark. Al actualizar Spark, deberá ajustar las rutas en los comandos en consecuencia. Siempre se recomienda consultar la documentación más reciente de Spark para obtener la información más precisa sobre los comandos de lanzamiento de componentes. Para comprobar la versión, conéctese al servidor mediante SSH e introduzca el comando:

ls /root

La salida de este comando enumerará el contenido del directorio /root, incluido el directorio spark con la versión instalada:

Después de lanzar los componentes de Spark, puede acceder a sus interfaces web a través de las direcciones externas especificadas. Considere un ejemplo de la interfaz de Spark Application:

Este ejemplo demuestra la interfaz de Spark Application accesible en https://spark{Server_ID_from_Invapi}.hostkey.in. Esta interfaz muestra información sobre las tareas en ejecución, las etapas de procesamiento, el uso de memoria y otras métricas clave.

Es importante tener en cuenta que los enlaces a otros componentes de Spark (por ejemplo, Standalone Master o Worker) en esta interfaz no funcionarán al conectarse desde otra máquina. Esto se debe a la configuración de seguridad: los componentes están configurados para operar localmente, y solo la interfaz web accesible a través del nombre de dominio está expuesta externamente.

Para modificar esta configuración y habilitar el acceso externo a todos los componentes, debe realizar los siguientes pasos:

  1. Detenga y elimine el contenedor Docker actual ejecutando el comando docker compose up down en el directorio /root/nginx.
  2. Elimine la línea SPARK_LOCAL_IP="127.0.0.1" del archivo /etc/environment.

Después de estos cambios, la interfaz web de Spark será accesible a través de la dirección IP blanca sin certificado SSL. Esta modificación también puede resolver problemas de conectividad entre componentes si surgen durante la operación.

Nota

Es importante recordar que esta configuración reduce el nivel de seguridad del clúster de Spark. Solo debe utilizarse cuando sea necesario y en un entorno de red seguro. Si utiliza esta configuración, considere configurar conexiones SSL dentro del propio Spark o implementar otras medidas de seguridad para proteger el clúster.

Personalización de rutas

  1. Detenga el contenedor Docker ejecutando el comando docker compose up down en el directorio /root/nginx.
  2. Realice las ediciones necesarias en el archivo de configuración de Nginx: /data/nginx/user_conf.d/spark{Server_ID_from_Invapi}.hostkey.in.conf.
  3. Reinicie el contenedor Docker desde el directorio /root/nginx utilizando el comando docker compose up -d.

Nota

Puede encontrar información detallada sobre la configuración básica de Apache Spark en la documentación del desarrollador.

Pedido de un servidor con Apache Spark mediante API

Para instalar este software mediante la API, siga estas instrucciones


Parte del contenido de esta página fue creado o traducido utilizando IA.

question_mark
Is there anything I can help you with?
question_mark
AI Assistant ×