Herramienta de Reporting y Bi en General

MySQL

Buenos días,

Adjunto a este post esta una charla sobre optimización de MySQL tanto la presentación como el vídeo.

Tambien adjunto una presentacion que se comente en la primera sobre particiones de MySQL  que siempre se nos pasan.

Camino de ida y vuelta

Buenas a todos,

hace ya mucho que no hago un post, no es por falta de ganas ni por falta de temas, sino por tiempo.Pero ahi va.

Desde hace tiempo en Pentaho hay una bicefalia , es decir, entre la CE y la EE, empieza haber cambios grandes , ¿por que?, pues la respuesta es facil Pentaho no le interesa la CE. La semana pasada hable con un par de partners de Pentaho uno Español y otro de UK  y me confirmaron las sospechas , el nuevo CEO tiene la inatencion de cerrar Pentaho y pasar a un modelo mas cerrado por eso los avances van siempre a la EE. Lo unico que falta segun me conetaron es convencer a Julian que ha sido el mas reticente a este cambio pero a la larga Pentaho sera cerrado.

Como nos va a afectar a los que usamos y desarrollamos para la CE pues la verdad no estoy muy seguro pero nos va a perjudicar, eso seguro. El abandono por parte de Pentaho de la version CE tiene su maxima expresion en PEntaho4. El cambio a mejor , todo hay que decirlo tiene cosas que son muy inetresantes y que se reclamava hace mucho tiempo como:

  1. Parametrizar vistas de manera fácil
  2. Rankis  en las vistas
  3. Roles de Mondrian
  4. etc…

pero el cambio mas fuerte no han sido esos sino el enfoque sobre el agil BI y hadoop que solo se puede ver en la version de pago.

A todo esto la verdad el CEO Quentin Gallivan , no se si va a luchar por el modelo cerrado pero el que se quede al mando de la version CE tiene que empezar a pensar en el futuro de esta linea quizá un cambio en el modelo de negocio seria lo suyo y centrase en el mundo del Bi hacia las NOSql y la nube.

Solo el tiempo lo sabre pero esto es un camino de ida y vuelta pero¿ Pentaho es Bi open Source?

Opiniones.

Desde hace un tiempo vengo intentado en cada proyecto que voy introducir RoR en los cuadros de mando y cosas similar , mi gran problema es el desconocimiento de la tecnología y sobre todo Java.

He pedido a un amigo que además es una estrella sobre el tema  una mini entrevista con algunas preguntas sobre RoR , no es para iniciarse pero si para que les pique el gusanillo y se indague mas .

Como no soy  un experto  he pedido ayuda a gente que si lo son así que si ven alguna cosa que no cuadre o no les guste ya sabes comentario.

¿Que es RoR [1]?

Ruby on Rails, también conocido como RoR o Rails es un framework de aplicaciones web de código abierto escrito en el lenguaje de programación Ruby, siguiendo el paradigma de la arquitectura Modelo Vista Controlador (MVC). Trata de combinar la simplicidad con la posibilidad de desarrollar aplicaciones del mundo real escribiendo menos código que con otros frameworks y con un mínimo de configuración. El lenguaje de programación Ruby permite la metaprogramación, de la cual Rails hace uso, lo que resulta en una sintaxis que muchos de sus usuarios encuentran muy legible. Rails se distribuye a través de RubyGems, que es el formato oficial de paquete y canal de distribución de bibliotecas y aplicaciones Ruby.

Ahoa que tenemos mas o menos una ida muy muy muy …. muy basica de lo que es  vamos con la entrevista:

  • ¿Como esta el RoR en San Francisco (SF)?

Pues la verdad es que en plena forma. En SF hay muchísimas start-ups y muchas de ellas basan su tecnología en la web. Rails encaja muy bien con la filosofía de una start-up: permite prototipar muy rápido sin que el código deje de ser mantenible, ir refinando el prototipo mediante iteraciones cortas, incorporar gente al equipo es fácil porque todo el mundo sigue las mismas convenciones… Aquí se han dado cuenta de todas estas ventajas y, pese a que hay una cantidad tremenda de empresas… siguen haciendo falta programadores!

  • ¿Como te has adaptado a SF?

SF es una ciudad muy acogedora, siempre encuentras alguien dispuesto a orientarte o echarte un cable. Tengo la sensación de que muchos de sus habitantes también proceden de otros sitios y hay cierto ambiente de solidaridad.

Eso sí, es una ciudad muy cara, especialmente el tema del alojamiento está por las nubes. En nuestro caso hemos optado por vivir en las afueras, en Berkeley: en 20 minutos de BART (parecido al metro) estamos en la ciudad y es un sitio más pequeño que encaja muy bien con nuestro estilo de vida (venimos de vivir en un pueblecito de la Costa Brava). Nos gusta tener la ciudad cerca para hacer alguna escapada de vez en cuando, pero para el día a día preferimos un sitio más tranquilo… será que nos hacemos mayores :D

El idioma es sin duda mi punto débil, pero es parte de lo que quiero mejorar durante el tiempo que esté aquí. Por suerte mis compañeros de trabajo son encantadores y tienen una paciencia tremenda conmigo.

Lo que no podemos evitar es echar de menos a la familia: por suerte podemos hablamos por videoconferencia muy a menudo y les mantenemos informados por facebook para compartir con ellos un poco de nuestro día a día. Tener la familia y los amigos lejos es sin duda lo que más nos cuesta de estar aquí.

  • ¿Como ves Ruby y RoR desde un punto de vista tan privilegiado como heroku?

Heroku aloja miles de aplicaciones basadas en Rails y en ese sentido  sí es un punto de vista privilegiado porque puedes ver cómo aumenta el número de empresas que apuestan por Rails. Nuestro equipo de ventas nos informa cuando detecta alguna empresa conocida adopta nuestra plataforma y por suerte ocurre bastante a menudo. Por otra parte, Heroku utiliza internamente muchísimos proyectos open source desarrollados en Ruby. En todos ellos ves que la evolución no para y que tienen un ritmo de actividad impresionante, igual que impresiona el número de grupos locales y de conferencias dedicadas a practicar y difundir las bondades de Ruby y Ruby on Rails por todo el mundo. Por todo esto creo que tanto a nivel de popularidad entre las empresas
como de actividad por parte de la comunidad Ruby y Ruby on Rails están en un momento dulce.

  • Que crees que le falta a RoR para difundirse mas?

Tiempo. Creo que en las tecnologías, como en muchas áreas de conocimiento,cada persona tiene distintos grados de interés y de
permeabilidad hacia las novedades. Diría que tanto Ruby en el campo de la programación como Rails en el del desarrollo web han hecho suficiente “ruido” como para que la gente que tiene interés en estar al día haya oído hablar de ellos.
También creo que esa entre esa gente se ha creado suficiente masa crítica de usuarios como para darle entrada en el mundo empresarial, y que las empresas que tienen interés y se lo pueden permitir han empezado a probar Ruby y Rails con pequeños proyectos. Creo que es importante hacer esta puntualización sobre “las empresas que se lo pueden permitir” porque hay empresas que, o bien porque se dedican a temas en los que Ruby y Rails no encajan, o tienen una estructura demasiado rígida que les impide evaluar nuevas tecnologías (lo cual me parece peligroso a largo plazo si la tecnología juega un papel importante en su negocio).
El siguiente nivel de “permeabilidad” serían las personas y empresas que sólo prueban y aprender nuevas tecnologías cuando no les queda más remedio, porque el mercado se lo exige. Ese paso es con diferencia el  más lento y sólo el tiempo dirá si Ruby y Rails llegan a penetrar a ese nivel, pero eso depende en gran medida de otros factores diferentes a la difusión.

  • ¿Que crees que le falta a ruby o RoR o en que podía mejorar?

Antes de nada me gustaría resaltar que Ruby no es el lenguaje perfecto ni Ruby on Rails el framework ideal para desarrollo web porque “there are no silver bullets”.
Vamos con Ruby:
- a nivel de sintaxis es un lenguaje muy conciso pero me gustaría que lo fuera un poco más (por ejemplo soy fan de la tabulación de python vs el “end”).
- del desarrollo del lenguaje en sí apenas conozco nada así que poco puedo aportar. Si acaso comentaría que en alguna de las listas
oficiales (ruby-dev) aún se utiliza japonés y yo unificaría en todas el uso del inglés.
- en cuanto a las librerías creo que rubyems, pese a ser un proyecto indispensable para cualquier programador Ruby, aún está a mucha distancia por ejemplo del CPAN de Perl.
- para terminar, siempre le pediremos a ruby más rendimiento y menos consumo de recursos: por suerte hay gente muy buena trabajando en las diferentes implementaciones de Ruby así que veremos mejoras.

En cuanto a Rails:
- la versión 3 ha traído una fuerte reestructuración interna: ahora Rails es mucho más hackeable pero creo que el rendimiento (al menos en modo desarrollo) se ha resentido mucho, así que me gustará ver si mejora en ese aspecto.
- la documentación, tanto a nivel de API como de tutoriales y guías de buenas prácticas, es fundamental para facilitar la adopción y uso de un framework. Por suerte gente como Xavier Noria han dado un paso al frente y con un trabajo diario han conseguido generar una documentación magnífica además de facilitar la participación de cualquier interesado en corregirla o completarla, espero que más gente se anime a colaborar en este apartado.
- como twitteaba hace poco @mgnoriega, es bueno ver que tras una etapa de consolidación Rails está de nuevo innovando: me gustará ver en funcionamiento la gestión automática de assets y su integración con coffeescript en su siguiente versión. Era algo que hasta ahora se gestionaba con plugins: espero que siendo los nuevos defaults su adopción crezca entre los desarrolladores, muchos usuarios se verán beneficiados al visitar webs con contenidos comprimidos y optimizados para su descarga y cacheo.

  • ¿Quizá uno de los aportes de RoR sea la metaprogramacion aplicada?

Sí y no. Yo creo que la metaprogramación es buena cuando sirve para evitar repetir código, pero creo que en algunas versiones anteriores de Rails se llegó a abusar demasiado de ella: algunos fragmentos eran demasiado “exóticos” y eso dificultaba corregir errores o simplemente comprender cómo funcionaban. Creo que hay que buscar un compromiso entre la elegancia y la legibilidad del código y creo que en ese sentido Rails ha madurado bastante.

  • ¿Que ventajas ves a ROR frente a PHP y al todo poderoso JAVA?

La primera ventaja que yo veo es la sintaxis: creo que Ruby es un lenguaje muchísimo más conciso y elegante que PHP y Java. Hay gente que no le da importancia a estas cosas, pero a mí me parece fundamental que el código sea siempre fácil y rápido de leer, mantener y modificar. En ese sentido creo que Ruby es mejor que PHP (cuya sintaxis para trabajar con orientación a objetos siempre me ha parecido un apaño) y que Java (que en mi opinión tiene una sintaxis que conduce a diseños demasiado recargados).

Para mí, hasta hace poco tiempo PHP era una alternativa válida frente a Rails cuando necesitabas desarrollar una web muy sencilla. Con la aparición de rack y Sinatra no encuentro un ejemplo en el que optar por PHP. Otra ventaja que tenía PHP era su ubicuidad y su facilidad de despliegue: con Heroku tardas menos de un minuto en crear y pasar a producción una aplicación Ruby… Así que yo ya no le veo ninguna ventaja a PHP.

Java tiene un mercado empresarial grandísimo en varias plataformas diferentes y por tanto hay mucho dinero invertido, no se dejará de utilizar de la noche a la mañana y seguro que mantiene una posición privilegiada en mercados concretos. Eso sí, creo la desaparición de Sun supone un revés muy importante, y no sé si Oracle tiene muy claro qué hacer con lo que ha comprado… Diría que Java es como los abuelos cascarrabias de las películas: le queda mucho tiempo entre nosotros pero cada vez menos gente quiere hacerse cargo de él.  Como anécdota, Jonathan Schwartz (ex CEO de Sun) utiliza Rails en la empresa que fundó tras vender Sun, y no creo que le falten contactos ni recursos para contratar profesionales Java de primer nivel :D .

  • Cómo evitar que ROR crezca hasta hacerse inmantenible como JAVA?  ¿Está RoR hecho para el mundo Enterprise?
    Las aplicaciones de mi empresa tienen muchos usuarios… ¿Rails escala?  ¿Crees que hay mundo después de java?

(Agrupo estas tres preguntas para darles una respuesta común).
Creo que con la tecnología que tenemos hoy en día, los culpables de que un proyecto sea difícil de mantener somos las personas y no los lenguajes o frameworks que utilicemos. Los plazos de entrega irreales y la desgana a la hora de programar pueden darse tanto en proyectos Rails como en proyectos Java. Sí creo, como te decía antes, que creo que Ruby ayuda a tener un código más mantenible que Java… pero durante mi tiempo de freelance he visto aplicaciones Rails cuyo mantenimiento debe ser un infierno, así que usar ruby no asegura nada.
En el 2008, yellowpages.com explicaba en conferencias cómo había migrado de Java a Ruby on Rails. El código pasó de 125.000 a 20.000 líneas, se alegraron de comprobar que había mejorado muchísimo su mantenibilidad y seguían sirviendo más de mil millones de páginas al mes. Como ejemplo extremo de escalabilidad tenemos empresas como twitter o facebook que han probado distintas tecnologías y han terminado ajustándolas a medida para que se adapten a lo que necesitan. El límite de Rails parece que está entre ambos ejemplos pero lo desconozco porque no he trabajado en proyectos de esa escala.

  • Ya tenemos muchos programadores formados… ¿Compensaría fórmalos en RoR?

Yo lo haría si fuera mi empresa y pudiera permitírmelo. Como mínimo, aunque no quieras cambiar de tecnología, seguro que sacarían algunos patrones interesantes que poder aplicar con la tecnología que utilizan actualmente.

  • ¿Serían nuestros programadores más felices trabajando con RoR?

No lo sé, puedo decirte que yo sí lo soy (he trabajado previamente con PHP y Java).

[1] wikipedia.

Últimamente está muy en boca de todos los que seguimos en cierta medida el mundo BI el cambio/lavado de cara de el visor OLAP de Pentaho que era muy rivaival de los 70.

El visor OLAP que usa Pentaho es JPIVOT tanto en la CC como en la EE y aunque era muy estable, ya que lleva casi 10 años sin apenas cambiar, solo algunos parches para los bug, se hacía necesario un nuevo visor, se han hecho muchos intentos pero no ha había cuajado ninguno, de hecho hice una lista de algunos hace ya algún tiempo en una serie de post que  se llamaba ¿Cuál..?.

Ahora aparece Saiku que para mí es una pasada muy rudimentario pero bueno y lo espero como lluvia de mayo que saquen la GA , cosa que tardara y no se si llegara ,aunque ya he empezado a usarlo en mi particular I+D tiene grandes deficiencias pero para la gente que lo realiza y el precio es una cosa maravillosa.

Pero mi pregunta es Pentaho donde ha estado en este tiempo, pues comprado un visor muy chulo e intuitivo pero solo para la EE  aunque se suponía que seria para todos.link pero al final la política se ha impuesto a ‘SU’ modelo de negocio, que para mi, a futuro se ira poco a poco a la quiebra y se lo ha llevado a la EE. Lo que quiero decir es que el tiempo y el dinero se podía haber invertido en crear un visor con la ayuda de OLP4J y de Julian Hyde y que fuera Open Source respetando su movimiento original.

Como ya comente hace tiempo, Pentaho esta dando mas alas a la versión EE y quitando posibilidades a la versión CE, cosa que no se por que lo hace,si Pentaho esta donde esta es por ser open source y por que tiene ciertas garantias, pero parece que Pentaho ahora necesita mas cosas entre ellas que la version EE se consolide. Con lo que al final todo será Saiku vs Pentaho Analysis. Y tu ¿Qué crees?

1.- Desavilitar la busqueda por DNS

Después de buscar la razón por que la sconsultas me iban muy lentas , vi que el servidor mysql estaba haciendo un montón de consultas haciendo la resolución  por el nombre. ¿Para qué? ¿Por qué esa máquina a una resolución de nombres que sólo las máquinas de la red local se conectan a él.

Para ello vamos a el fichero de configuración /etc/mysql/my.cnf ,Para aplicar la opción – skip-name-resolve interruptor cuando arranca mysqld, sólo tiene que añadir:

[mysqld]
…..
……
skip-name-resolve

2.- Activar Query Cache.

Después de resolver ese problema, empezamos a ver la carga del servidor  que  cada vez era  mayor, el tiempo de respuesta fue bueno después del cambio anterior, pero ahora, tuvimos que aligerar un poco la carga del servidor.

  1. mysql> SHOW STATUS LIKE ‘Qcache%’; Una vez que tenemos cuanta es la memoria cache que necesitamos
  2. mysql> SHOW VARIABLES LIKE ‘%query_cache%’;

Se necesita ta tener el  caché de consultas en el primer lugar habilitado (have_query_cache | yes) y asegúrese de que query_cache_type está ajustado en ON. Esto suele estar  activado por defecto en la mayoría de distribuciones de Linux.

  1. mysql> SET GLOBAL query_cache_size = 52428800; Le damos la cantidad de cache que queramos.

Y solo faltaría restart el servidor

[1]Link del articulo original

Hi all, this is my first post in English :D . i try to write  well , but i don’t know if I’ll get this :D .

Well, this is a problem, when do you use the google chart in the Dashboard ,generation with the CDF , normal if the valor is too low , don’t show , and the legend put ‘Other’ in color gray.

if you like ,you can  show them  all values, if  you add  this parameter ,  sliceVisibilityThreshold:0

chart.draw(data, {legend:'right', legendFontSize:9, width:550, height: 275, is3D: true,sliceVisibilityThreshold:0, title:'titules'});

Documentar una ETL

Una de las cosas mas importantes que hay en un proceso de BI son las ETL que en proporción de un proyecto BI cuestan alrededor de un 60% del tiempo no solo el hecho de conocer el negocio sino comprobar que no hay bucles,o silos de información , etc….

Una de las cosas que mas me enfada es cuando tienes la ETL terminada y las ejecutar y el cliente no ve la dificulta de todo el proceso pero claro es normal, la otra es cuando me dicen ¿Donde esta documentación? y claro tu te quedas un poco  O_o pues ahora ya tenemos la solución a ese problema.

kettle-cookbook

Esta ETL recorre nuestra ETL generando una documentación  sobre los trabajos en formato HTML para que así podamos navegar por ella de manera mas comoda,

Realmente útil y fácil de usar invocas el scritp y le pasas el directorio donde está tu ETL y el directorio donde quieres que te deje la documentación ahi dejo las cosas creo que se podrai hacer un script mas complejo y pasar le ese  script  o incluso un paso para asi poder  hacerlo todo de manera mas automatica

 

kitchen.bat -file:kettle-cookbook/pdi/document-all.kjb -param:”INPUT_DIR”=${ruta a la ETL} -param:”OUTPUT_DIR”=${ruta a la documentación  de la ETL}

 

 


Virtualizar Servidores

Bueno como la otra entrada anterior, voy a exponer últimamente , todo el mundo anda virtualizando  como el intento de ahorro/coste , es decir, si tenemos menos maquinas  y las virtualizamos podemos  tener mas maquinas un similares características, en el mercado hay  muchas :

  • Xen
  • Kvm
  • Vbox
  • Wmware

Como yo me enfoco mas en el software libre   pues he tirado mas por Vbox pero para ponerlo en producción no es una buena idea, ahora y gracias  a un buen amigo luiX_ (http://begnu.wordpress.com/) he empezado a pensar en usar Xen por que  se supone que es la mas estable y permite varias cosas interesantes como pasar maquinas en caliente, pero antes de nada que es Xen googleando un poco he encontrado un post muy interesante [1].

 

Xen es un hipervisor que soporta x86, x86_64, Itanium, arquitecturas ARM y puede correr GNU/Linux, Windows, Solaris y algunos BSDs como guests (huéspedes). Está apoyada por varias compañías, principalmente por Citrix, pero también utilizada por Oracle para la Oracle VM y otras. Xen puede otorgar una virtualización completa en sistemas que permitan extensiones de virtualización, pero también puede funcionar como hipervisor en máquinas que carezcan de ellos.

Al igual que Xen, KVM es el hipervisor del kernel de Linux, por lo tanto el host tiene que ser Linux, pero puede tener de guests a Linux, Windows, Solaris y BSD. Corre en sistemas con hardware x86 y x86_64 que cuente con extensiones de virtualización. Esto significa por tanto, que KVM no es la opción para viejas CPUs que fueron construidas antes de que las extensiones fueran desarrolladas, ni tampoco es útil para las nuevas (como las CPUs Intel Atom) que no cuentan con dichas extensiones. En general , no es un problema para los data centers que tienden a reemplazar el hardware cada pocos años — pero significa que KVM no es una opción para algunos nichos como el SM10000 que están intentando utilizar CPUs Atom.

Si quieres corres un host Xen, necesitas contar con un kernel soportado. Linux, no viene con soporte para correr un host Xen out-of-the-box, aunque algunas distribuciones se han estado lanzando con soporte para correr nativamente como guest desde la versión 2.6.23 (Arch, por ejemplo, cuenta con ellos en el AUR) y algo similar ocurre con Ubuntu (y deduzco también que con Debian y las demás distribuciones). Esto significa que no utilizas una distro común de Linux para correr guests Xen. En cambio, necesitas una distro que venga con soporte para Xen o compilar tu propio kernel. Lo otro, es utilizar alguna solución comercial basada en Xen como Citrix XenServer, esto por supuesto presenta el problema que muchas de estas soluciones no son completamente libres.

Recomiendo el uso de esta maquina , es un poco mas compleja que wmware que es la reina del mercado pero una vez que pasas el escalón es de una calidad asombrosa.

Buscando un poco por ahí he encontrado  una utilidad para las maquinas virtuales su nombre es Opennebula [2] , Este es un gestor de maquinas virtuales y solo soporta Xen y KVM y esta planificado para su próxima versión que soporte tambien VMware.

Características

  • Arquitectura abierta y interfaces que permiten su integración con otras herramientas de virtualizacion.
  • Framework genérico para definir nuevas policitas de emplazamiento de VMs.
  • La politica de planificamiento por defecto determina el mejor host para instalar una VM dependiendo de los requerimientos.
  • Poderoso API que permite controlar y monitorear las distintas VMs y recursos físicos.
  • Soporte de imagenes para transferir y clonar VMs , usando un componente modular que puede ser facilmente extendido y integrado con desarrollos de terceros.
  • Soporte de red habilitando la difinicion de redes virtuales.

Bueno espero que esto ayude dentro de poco iontentare colocar mis esperiencias sonre la instalacion de Pentaho,SugarCRM y Alfreso con un cherokee al frente

Actualizacion de luiX_ via twitter http://bit.ly/cBvl0L o http://bit.ly/bbZvHE

[1]http://www.glatelier.org/2010/07/kvm-o-xen-escogiendo-una-plataforma-de-virtualizacion-parte-1-2/

[2]http://dclavijo.blogspot.com/2008/12/opennebula-gestor-de-maquinas-virtuales.html

Teiid con Pentaho

Teiid es un sistema de virtualización de datos que permite a las aplicaciones utilizar los datos de múltiples y heterogéneas bases de datos.

Teiid se compone de herramientas, componentes y servicios para crear y ejecutar servicios . A través de la abstracción y la federación, y acceder a los datos integrados en tiempo real a través de fuentes de datos distribuidas sin copiar o mover datos de su sistema de registro.

 

A dia de  hoy mucha gente quiere virtualizar  servidores , bases de datos , etc.. pues con esta tecnología es posible ahi va el link con el manual http://wiki.pentaho.com//display/COM/Query+Federation+using+Teiid

 

MySql optimizar

Siempre se tienen problemas con las bases de datos siempre se ponen con el hecho de optimizar y conseguir mas rendimientos
Yo últimamente me decanto mas por bases de datos de NoSql estoy cambiando las de Oracle Oracle por Hadopp o Casandara y mysql por Neo

pero siempre quedan sitio para las tradicionales como MySql y siempre estoy con lo mismo ademas como en los sitios donde trabajo ya sea por desconocimiento o por reducción de bastos el perfil de DBA no lo cubren así que siempre ando con el tema de las bases de datos ahora pongo algunas cosas que suelo usar.

Read the rest of this entry »

Seguir

Get every new post delivered to your Inbox.