Flow Azkaban Parte 1


Start froom scratch

Hola a todos, hoy os quería enseñar una de las herramientas que me encontre por casaluidad y  que me ha solucionado muchos de los tipicos problemas que tenemos cuando vamos montando un sistema de ETL grande y con diversas fuentes independientes.

prisons-200412-azkaban-harry-potter-halloween-treat-reveals-secrets-of-umbridge-thestrals-ministers-and-azkaban-jpeg-165310Azkaban es un planificador de tareas de trabajo por lotes creado en LinkedIn para ejecutar trabajos .

Azkaban resuelve el pedido a través de las dependencias de trabajo y proporciona una interfaz  fácil de usar via  web para mantener y realizar un seguimiento de los flujos de trabajo.

  • Compatible con cualquier version de Hadoop
  • UI web de uso facil
  • Web Simple and Uploads
  • Project workspaces
  • Programar workflows
  • Modular y pluginable
  • Usuarios y Roles
  • Tracking de usuarios y acciones
  • Email de alerts o fallos y successes
  • SLA alerting y auto killing
  • Reintentos de trabajos fallidos

Vamos por partes Azkaban permite tener trabajos y hace flow s(flujos de trabajo) , que conseguimos con esto , poder  encadenar trabajos independientes de manera logica.

Yo tengo siempre el mismo problema, las empresas tiene procesos ajenos a las ETL pero que necesito poder controlar para que los datos de los procesos sean correctos ademas y es un problema que me he encontrado últimamente.

Este problema es que hay procesos que están controlados por el crontab y cuando alguno de los proceso tarda más de lo habitual el resto de los procesos se lanzan y salen datos erróneos, cosa que no es muy adecuado.

azkaban2overviewdesign
Arquitectura de Azkaban

 

Instalación

cd /tmp
curl -O https://s3.amazonaws.com/azkaban2/azkaban2/2.5.0/azkaban-solo-server-2.5.0.tar.gz
tar -zxvf azkaban-solo-server-2.5.0.tar.gz
mv azkaban-solo-server-2.5.0 /opt/
chmod +x /opt/azkaban-solo-server-2.5.0/*
mv azkaban-solo-server-2.5.0 azkaban-server
./bin/azkaban-solo-start

Una vez que tenemos esto instalado lo que hacemos es arrancar el servicio y ya podemos entrar via web.

En proximos post os ire comentado como hacer para añadir un trabajo/flujo o un SLA a un servicio , etc…. Pero es una herramienta muy buena  que nos ayuda en los típicos casos en los que tengamos un hadoop un hive etc…

 

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s