Hell kitchen II

Hell kitchen II

Buenos dias,

Os traigo  mi primera versión estable del lanzador de pentaho pdi (para linux)  con nuevas caracteristicas como la posibilidad de crear varios entornos (dev,preproducciòn o producción).¿Que nos da esta posibilidad?, pues varias cosas :

  1. Independencia de entornos
  2. Alto grado de Configuraciòn
    1. Version de PDI
    2. Configuracion de base de datos
  3. Manejo de errores y configuracion  humanreadable

Entre otras cosas ademas estar preparado para usar Azkaban.

Configuraciòn

Para ellos lo que tenemos crear el sistema de entornos , ¿que vamos a tener en esos entornos?, pues el kettle.properties, conexiones de base de datos y configuraciones especificas como por ejemplo memoria de java, por cada entorno:

Creamos los entornos

Lo primero es crear la carpeta enviroments donde meteremos las carpetas con cada uno de los entornos

 mkdir environments
 mkdir environments/live
 cd environments/live

Una vez que hemos creado la carpeta generamos el fichero de configuracion
de hellkitchen, es decir, donde queremos que este pdi (por si queremos usar distintas versiones) y donde guardar los logs.

touch hellkitchen.properties
kettle_path=/opt/data-integration/
kettle_log=/home/..../logs/

ahora vamos a generar el contenido de kettle (es el mismo que te hace la primera vez) , el kettle.properties y el jdbc.properties

mkdir .kettle
cd .kettle
touch kettle.properties
cd ..
ln -s kettle.properties .kettle/kettle.properties
touch jdbc.properties

Como ya hemos dicho  podemos generar tantos entornos como queremos .

hells_kitchen.sh --job=/.......kjb --log-name=log_test --environment=/environment/docker
hells_kitchen.sh --job=/.......kjb --log-name=log_test --environment=/environment/live
Ejecuciòn de distintos entornos

Ahora podemos ejecutar el mismo trabajo cargando distintas propiedades en distintos entornos, con esto podemos hacer cambios muy facilmente entre distintos entronos sin muchas complicaciones y con un alto grado de independencia.
Con el nuevo lanzador tenemos las siguientes opciones :
-t  o –time = time (Optional)
-j  o –job = job file (ktr or kjb)
-l  o –log = bug level in pdi:

  • Error: Only show errors
  • Nothing: Don’t show any output
  • Minimal: Only use minimal logging
  • Basic: This is the default basic logging level (Default)
  • Detailed: Give detailed logging output
  • Debug: For debugging purposes, very detailed output.
  • Rowlevel: Logging at a row level, this can generate a lot of data.
  • Stream: No log show the content (for Azkaban)

-e  o –enviroment = dynamic envairoment (Optional)
-p  o –pdi = path of pdi (Optinal)
-ln o — log = path of log folder (Optinal)-p  o –pdi = path of pdi (Optinal)
-v o –version = Version of PDI and HK
-lo o –lock = prevent running multiple instances of a kettle-job

Como siempre bug, errores o cualquier feedback es bien venido

Anuncios

By Pass Security Version Parte II

By Pass Security Version Parte II

Hoy os traigo la segunda versión de mi byPass

¿Que he cambiado?, pues básicamente que se pueda acceder a los cuadros de mando vía nombre o TAG y no posición como hasta ahora , esto evita que si elimino algún cuadro de mando o alguna URL no afecte a nada de nuestro sistema.

Ha raíz de mi anterior post tengo que decir que hay muchas soluciones para esto aquí os dejo algunas que siempre son de utilidad:

Además he dado una vuelta mas de tuerca a la hora de mejorar el rendimiento de la búsqueda  de los tokens  ahora se guardan  en una tabla hash donde la clave es el token y el value es el DAO con toda la información, eso hace que la búsqueda sea lineal O(l)  y con un rendimiento mucho mejor, como puedes ver en el diagrama de workflow.

blank-flowchart-new-page
workflow

Os adjunto el diagrama UML basico (que esto ya no se lleva) de como se comunica todo y para que podáis ver por que he usado el patron Singelton a la hora desarrollar . Su intención consiste en garantizar que una clase sólo tenga una instancia y proporcionar un punto de acceso global a ella.

UML DAo and Singelton
UML DAo and Singelton

La instalación es igual que la anterior , como bien dice Juanjo en su blog si aun quieres tener mas seguridad puedes añadir un proxy ya sea a nivel del servidor web (ngix) o si tu arquitectura es mas complicada yo te recomiendo que pases a un sistema de DMZ y tengas un proxy-cache (Configuración de Filtros de Contenido) donde delegues esa información y trabajo. Con esto lo que conseguimos es que una vez el usuario ha hecho session no pueda acceder a mas cosas que las que ya el servidor proxy tenga configurado, además es muy buena idea que el usuario que le demos en pentaho sea lo mas restrictivo posible.

flow

Backup y Restore en #Pentaho de forma facil

Backup y Restore en #Pentaho de forma facil

Siempre he tenido el mismo problema cuando tengo un proyecto en producción como coño hago un backup de todo. Y como hago la restauraciòn del mismo.

  • Usuario
  • Datasource
  • Cuadros de Mando
  • etc..

Muy poca gente sabe que pentaho te da una pequeña ayuda, lo que he hecho es crear un envoltorio al script para que nos sea mas facil usarlo.

-- sample the native call
./import-export.sh --restore --url=http://localhost:8080/pentaho --username=admin --password=password --file-path=/home/Downloads/backup.zip --overwrite=true --logfile=/temp/logfile.log
./import-export.sh --backup --url=http://localhost:8080/pentaho --username=admin - -password=password --file-path=/home/Downloads/backup.zip --logfile=/temp/logfile.log

Con este shell podemos crear facilmente backups de todo e incluso mandarlo por rsync a otros host. Tambien tendremos la posibilidad de restaurar todo el sistema. Este shell no es valido o no esta pensado para un pentaho en cluster.

Como siempre comentarios son muy apreciado

Vertica Materiales

Hola a todos,

Como ya sabréis el proximo  Martes es el primer taller de Vertica en Madrid. Como quiero que todo el mundo tenga instalado un maquina virtual con linux y a ser posible con la base de datos ya funcionando os he creado una maquina virtual de VirtualBox y un Docker para ello.

Por otro lado os comento que podeis  instalaros  el VSQL (cliente por linea de comandos) os lo adjunto.

 

Nos vemos Mañana.

HellKichen

Hola a todos,

Os presento uno de los proyectos en los que estoy trabajando  y es un wrapper a kichen, pan y espero que en poco tiempo a carter.

¿Pero para que sirve?

600x380_hells_kitchen_logo-bigNormalmente lanzo mucho procesos diferentes algunos son job otras son transformaciones y es un poco coñazo el tema de configurar la ruta donde esta pdi además del nivel del login así como la  ruta donde queremos guardar ese log,etc.. .

Por eso he creado este programa simple y facil [link] like a water.

Al arrancar este programa crea un fichero junto a .kettle.properties  que se llama hellkichen.properties donde ponemos la ruta a pdi y la ruta donde se van a guardar los logs asi de simple.

Además los log se van a ir rotando  con el formato  nombre_de_transformacion_%d%m%Y_%H%M%S.log.

Toda ayuda es bien recibida dentro de poco habra una version en python.