Entrevista Jose Carlos Cortizo

 

Después de una entrevista con un crack ahi va otra de otro crack jose carlos cortizos , es forma parte de la gente Brainsins y su famoso sistema de recomendación, le hemos preguntado sobre sistemas de recomendaciòn,Opensource, BI y como siempre nos ha dado respuestas interesantes espero que os guste. Espero opiniones para la siguiente entrevista opiniones..

  • ¿Cómo explicarías que es data mining en 140 caracteres?

El análisis (utilizando técnicas de IA, estadística, etc.) de grandes cantidades de datos para extraer conocimiento útil para alguna empresa, actividad o persona.

  • ¿Dónde esta el límite de los sistemas de recomendación (es/será “posible” un recomendador que se ajuste en un índice aceptable a mis gustos)?

Muchos sistemas de recomendación ya se ajustan muy bien a los gustos de los usuarios, aunque hay cuando se diseña un sistema de recomendación hay que tener mil variables en mente. Es decir, un sistema de recomendación no es mejor porque todo lo que me recomiende esté 100% alineado con mis gustos, ya que en ese caso no me estaría sorprendiendo ni aportando valor. Por ejemplo, si Netflix me recomienda solo películas que, debido a que todas me interesan mucho, ya las conozco, entonces las recomendaciones no me aportan valor ninguno.

Una buena recomendación tiene que tener en cuenta varios aspectos fundamentales:

* El interés para el usuario (personalización)
* Los aspectos temporales (en algunos dominios las novedades aportan más valor, en otros dominios hay que potenciar la larga cola de productos aunque tengan más tiempo en el mercado)
* La diversidad que está relacionada con la serendipia. El sistema de recomendación ha de sorprendernos (gratamente), para poder ofrecer recomendaciones de calidad. Si me he leído “Canción de Hielo y Fuego”, que me recomiendes “El Señor de los Anillos” seguramente no me aporte valor, porque ya conoceré ese libro, pero si me recomiendas “Jonathan Strange & Mr. Norrell”, un libro también fantástico pero menos conocido, me estarás aportando el gran valor de descubrir un libro que no conocía pero me puede fascinar. Hay que tener en cuenta que las recomendaciones han de servir para descubrir información relevante, y descubrir siempre supone asumir riesgos.
* El contexto en el que estoy buscando información también es muy importante. Hay que tener en cuenta que los sistemas de recomendación ofrecen recomendaciones en función de mi comportamiento en un sitio, y ese comportamiento no siempre es el mismo, ni tiene que ver con mis intereses. Por ejemplo, si estoy buscando un regalo para un amigo, toda la información que busque no tiene que ver con mis intereses, si no con los de otra persona.

En definitiva, se pueden hacer mil cosas y mejorar de mil maneras los sistemas de recomendación, pero lo que es importante es darse cuenta que la evaluación de un sistema de recomendación no ha de estar únicamente ligada a los gustos de los usuarios.

¿Qué áreas recomiendas a tus alumnos para que profundicen de cara a un futuro profesional en la ingeniería informática (y porqué)?

Para mi todo pasa por la web, ya bien sea móvil, social, o desde cualquier perspectiva. Quien no esté cerca de la web, en unos años, lo tendrá muy jodido desde la perspectiva profesional. Desde otra perspectiva, creo que a los alumnos de informática, en general, les hace falta un “baño en emprendizaje”. Es una de las salidas profesionales donde resulta más fácil montar tu propio proyecto, y donde más oportunidades de negocio existen, y curiosamente los informáticos parece que somos los que menos nos damos cuenta.

Yo ya no entiendo la informática desligada de las oportunidades de negocio, y no entiendo como en las Universidades que imparten informática, no se trata el tema de los negocios, startups, etc.

  • ¿La segunda burbuja .com para cuando?

No creo que vuelva a haber una burbuja como la que hubo en el 2000. En el último año, casi cualquier noticia relevante relacionada con alguna .com, como el IPO de Groupon, el futuro IPO de Facebook, o la compra de Instagram, hacen que todo el mundo saque el tema de la burbuja y se pregunte cuando será la siguiente. Pero ya no estamos en el 2000 y las cosas han cambiado profundamente. En el 2000 todavía no había nadie en todo el sector que siquiera hubiera demostrado tener un modelo de negocio viable y los usuarios, con suerte, se contaban por millones. Ahora estamos hablando de cientos de millones de usuarios, o en el peor de los casos, varias decenas de millones, y ya tenemos referentes de gran éxito (como Google) que han demostrado modelos de negocio más que viables.

Está claro que muchas de las empresas de las que hablamos hoy, no existirán en unos meses/años, ya que sigue siendo un sector con mucho riesgo y variabilidad, pero también hay que ver que en subsectores como el ecommerce, ya se está hablando de miles de millones de facturación al año (solo en EEUU), y que “recién llegados”, como Facebook, ya han facturado casi 4.000 millones de dólares en 2011, con casi 1.000 millones de beneficio. No creo que estos números nos digan que estamos delante de una burbuja.

  • ¿Cuanto tiempo dedicas en tu día a día a las diferentes actividades (programar, universidad, empresa, etc)?

Esta es la pregunta del millón, ya que no lo tengo realmente controlado. Pero por hacer un desglose aproximado:

* A lo que más le dedico es a temas de gestión de la empresa (organización de tareas técnicas, hablar con mis socios para reorganizar prioridades, clientes, etc.). A esto le dedico aprox unas 30 horas a la semana.
* A desarrollar le dedico menos de lo que quisiera, en torno a 15/20 horas a la semana. Y dentro de esto, desarrollos “chulos” (que no sean arreglar cosas, o hacer pequeñas adaptaciones para clientes), aproximadamente algo menos de la mitad.
* Al tema docente le dedico aproximadamente 6 horas a la semana, lo justo para las clases y organizar alguna cosa, pero como ya solo soy profesor asociado, trato de hacerlo lo mejor posible con el mínimo esfuerzo, que si no no llego.
* Y luego dedico otras 6 horas a la semana a estudiar un MBA en la EOI (es online).
* Y a “procrastinar” (donde incluyo generar contenidos en los blogs, twitter, etc.) le dedico más de lo que debiera, unas 10 horas semana, pero como soy un friki y lo disfruto, casi ni me entero.

Si fuera capaz de organizarme mejor, y tuviera menos “cambios de tercio”, seguro que optimizaría mucho los tiempos, pero bueno, poco a poco 😛

  • Las 5 gemas de tu día a día: ¿que 5 tecnologías son un requerimiento para el área de data mining/recomendación? (englobando desde software hasta lenguajes)

Complicado, ya que hay que mirar mil cosas. Pero cualquier sistema de este tipo tiene que estar sustentando en una serie de principios, y podemos asociar a algunos de estos principios algunas tecnologías:

1.- Analizar adecuadamente los datos: estadística, algoritmos de aprendizaje, filtrado colaborativo, etc.
2.- Estar adaptado a las necesidades de los clientes: aquí es muy importante ofrecer datos de analítica de los resultados, así que controlar temas de analítica web es imprescindible
3.- Todas las características de un software B2B (seguridad, fiabilidad, escalabilidad, etc.): esto está relacionado con mil cosas, pero tener buenos conocimientos de administración de sistemas y configuración de los servidores que utilizas (apache, glassfish, mysql, etc.) es algo crítico

Nosotros a nivel de tecnología utilizamos: Java como lenguaje en el backend, Glassfish como servidor de aplicaciones, MySQL (sobre RDS) como Base de Datos, y para el front básicamente Zend (PHP), bastante JQuery, HighCharts para las gráficas, etc.

  • ¿Como conseguís hacer una recomendación cuando no tenéis información del usuario por que entra por primera vez?

Pues básicamente “generalizando”, y en función de qué tipo de página esté visitando, la generalización es una u otra. Por ejemplo, si llega a la home de la tienda, le podemos mostrar productos más vendidos, los últimos productos, etc. Si es en página de producto, productos similares o complementarios a los que está viendo el usuario. Desde nuestro panel de control permitimos a nuestros clientes que configuren el comportamiento de los recomendadores, ya que en cada dominio, el tipo de recomendaciones a ofrecer varía sustancialmente.

Ahora bien, en lo que hay que trabajar es en tener siempre información sobre los usuarios 😉

  • ¿Futuro de los sistemas de recomendación?

La personalización, en general, es ya una parte importante de la Web tal y como la conocemos. De hecho Facebook, Twitter, etc. han triunfado porque el elemento social les permite ofrecer una experiencia de uso personalizada para cada usuario. En sitios menos “sociales”, como las tiendas online, la personalización pasa por las recomendaciones, y otra serie de elementos, así que las tiendas que quieran cautivar a sus usuarios, necesitan instalar un sistema de este tipo.

¿Por que emprender y sabiendo que la idea es la punta de la flecha que se necesita como esqueleto además de la idea para emprender?
Yo creo que uno ha de emprender porque quiere emprender. Es decir, porque tiene ganas de sacar un proyecto adelante, de hacer crecer una idea y convertirla en algo útil para la sociedad (y si es rentable, mejor que mejor). Emprender significa riesgo, significa seguir un camino algo más complejo, y enfrentarte a mil situaciones distintas cada día, así que o estás convenido o estás jodido.

En cuanto a lo que necesitas además de la idea, yo empezaría diciendo que la idea a veces casi es lo de menos. Y espero que no se me entienda mal, las buenas ideas son muy importantes, pero si no hay un buen equipo detrás, que le eche narices al asunto, se comprometa, y desarrolle un producto que realmente sea útil a sus clientes, entonces la idea no vale nada. Además ideas buenas tenemos todos, lo realmente complicado es ejecutar las ideas. Por resumir puntos básicos:

* Un buen equipo (a ser posible perfiles complementarios, que ayuda muchísimo a tener una visión más global)
* Orientación a ventas (o resultado), ya que los técnicos solemos centrarnos en el producto, y aunque un buen producto es un requisito, todavía más es venderlo
* Pasión y ganas (para pegarse contra todo lo que vendrá en nuestra contra)

  • Tú eres profesor , como ves el panorama para tu alumnos ¿emigrar,emprender,sufrir?

Pues la cosa no es que esté muy bien, pero también ha habido momentos mucho peores. Por ejemplo, en informática ahora sigue habiendo trabajo (y mucho), mientras que después de la burbuja, no había trabajo para casi nadie en el sector, y a pesar de eso todo el mundo salió adelante. Lo que hay que hacer es ser resolutivos con la vida de uno mismo, y buscar de forma proactiva maneras de encontrar un hueco donde uno esté haciendo lo que quiere, y le permita vivir de ello. Eso se puede conseguir buscando trabajo, o montando una empresa o emigrando, dependerá de la visión de cada uno y de lo que le apetezca hacer en la vida.

Pero vamos, dentro de que las cosas no están bien, creo que tenemos la suerte de trabajar en un sector donde ahora mismo la crisis se mide en unos términos muy distintos a la de otros sectores.

  • Este es un Blog de Bi siendo tu quien me introdujo en este mundo (cosa que te doy las gracias), dinos como ves esta tecnología?

Pues como casi todas las tecnologías, el tema BI, tuvo su momento y ahora se habla bastante menos del tema. Y no es porque haya perdido importancia, si no porque los “buzzwords” se reconvierten. Ahora el tema de moda es Big Data, y hasta los que trabajan en BI prefieren hablar de Big Data. Y esto, en el fondo, es bueno, ya que el concepto sigue estando ahí y por otra parte, el que haya perdido cierto poder mediático significa que los conceptos de fondo se están integrando de forma mucho mas transversal.

Las empresas ya hablan de dashboards operativos, cuadros de mando, etc. lo que quiere decir que la necesidad la tienen, y por tanto el tema BI sigue siendo muy relevante (y lo será cada día más, según las empresas almacenen más y más información sobre su operativa).

  • OpenSource tu opinión hacia donde tiende según la vista de un profesor/emprendedor

Para empezar, mi visión global sobre el Open Source es que ha cambiado radicalmente el panorama TI C, aunque por otro lado ya se ha normalizado dentro del sector. Es decir, si hace 10 años esto parecía una batalla entre libre y propietario, ahora ves soluciones de todo tipo y no tanta polémica.

Como profesor, creo que el software libre es una herramienta perfecta para que los alumnos de carreras como informática puedan aprender de una forma práctica, contribuyendo a proyectos libres, o liberando los desarrollos que hacen. Por desgracia, todavía no tenemos esta mentalidad en España y en casi ninguna Universidad se motiva a los alumnos a que contribuyan a proyectos Open Source como una forma de aprendizaje.

Como emprendedor, creo que el Open Source ha permitido que estemos en un punto donde montar una empresa tecnológica es realmente viable. Si no fuera por los Apache, MySQL, RoR, etc. montar una startup de Internet supondría un desembolso inicial en licencias que harían inviable la mayoría de los proyectos.

No nos damos cuenta, pero a nivel económico y global, el Open Source ha contribuido de forma radical a una transformación económica a gran escala.

Anuncios

Analisis Predictivos

Que es el analisis predictivo , es la otra manera de decir Mineria de Datos , muchos dicen que es que es proximo paso para el analisis de datos. Pero hay muchos problemas por que dentro de la mineria de datos,es que nadie sabe que es y para que sirve y por eso no lo piden o cuando lo piden lo que piden es un imposible.

Muchas de las herramientas open source lo que pretenden es crear un modelo y luego en el flujo de infromacion pasar los datos por ese modelo y genrar otro modelo paralelo.

Kettle o PDI lo no biene de serie con el plugin de mineria de datos que en el caso de son:

  1. Sacar ficheros en formato arff
  2. WekaScoring : Con este plugin sacamos un modelo con weka y luego lo que hacemos , es pasar el flujo de informacion por ese modelo.

Dentro de poco hare un video de como actualizar el kettle para poder poner kettle en este caso el mas importante es el numero 2.

Lo principal dentro del analisis predictivo son los siguientes

Análisis de Cesta de Mercado
Descubra qué objetos tienden a ser comprados juntos para crear recomendaciones en la marcha y para determinar cómo el posicionamiento del producto puede contribuir directamente a su línea inferior.
Análisis Churn
Anticipe a los clientes que puedan estar considerando cancelar su servicio e identificar los beneficios que podrían retenerlos.
Análisis de mercado
Defina los segmentos de mercado agrupando clientes similares automáticamente. Utilice este análisis para buscar clientes rentables.
Proyecciones (Forecasting)
Pronostique ventas y montos de inventario y aprenda cómo están relacionados entre sí. para prever cuellos de botella y mejorar el rendimiento.
Exploración de Información
Analice la rentabilidad a través de los clientes o compare clientes que prefieren diferentes marcas del mismo producto, para descubrir nuevas oportunidades.

Análisis de Cesta de Mercado

Descubra qué objetos tienden a ser comprados juntos para crear recomendaciones en la marcha y para determinar cómo el posicionamiento del producto puede contribuir directamente a su línea inferior.

Análisis Churn

Anticipe a los clientes que puedan estar considerando cancelar su servicio e identificar los beneficios que podrían retenerlos.

Análisis de mercado

Defina los segmentos de mercado agrupando clientes similares automáticamente. Utilice este análisis para buscar clientes rentables.

Proyecciones (Forecasting)

Pronostique ventas y montos de inventario y aprenda cómo están relacionados entre sí. para prever cuellos de botella y mejorar el rendimiento.

Exploración de Información

Analice la rentabilidad a través de los clientes o compare clientes que prefieren diferentes marcas del mismo producto, para descubrir nuevas oportunidades.Pero, ¿qué pasa cuando el número de variables por analizar es por docenas o incluso cientos? Se vuelve más difícil el encontrar una buena hipótesis, analizar la base de datos con OLAP, verificarla o desaprobarla.

La minería de datos es diferente de OLAP porque en lugar de verificar patrones hipotéticos, usa los mismos datos para descubrir tales patrones. Es en esencia un proceso inductivo.Minería de datos exitosa.

Hay dos llaves para tener éxito con la minería de datos. La primera es llegar a un modelo preciso del problema que se está tratando de resolver. Posteriormente analizaremos conceptos como Clustering y Análisis de Relaciones. La segunda es interpretar y usar los datos. Conoceremos varios algoritmos como las Redes Neuronales, Árboles De Decisión, Inducción De Reglas, K-Vecino Cercano, Regresión Logística, Análisis de Discriminantes y Algoritmos Genético.

aqui dejo un video de Mineria de Datos

URL

Articulo interesante [Business Computing]

Este es un articulo de New york Times que habla de una de las herramientas que tengo en mente y creo que es interesarte.
Si alguien se anima , seria muy muy Bueno, ya he hablado de R en algún otro post .Asi que he arrogado el guante.

Data Analysts Captivated by R’s Power

Related

The R Project for Statistical Computing

Seguir leyendo “Articulo interesante [Business Computing]”

Dataminig III

try {
_uacct = “UA-4775371-3”;
urchinTracker();
} catch(err) {}

¿Qué  es la minería de datos?

Proceso  para  detectar  patrones  no evidentes  en datos.Además  permite  generar  información  para  apoyar  la toma  de decisiones.

Patrón

Para nuestro caso un patrón es como una conducta,comportamiento.
La minería de datos puede utilizarse para…

  • Descripción
  • Predicción

¿Qué se puede obtener con la minería de datos?

  • Relación entre productos
  • Predicción de ganancias
  • Predicción del abandono de clientes
  • Relación entre enfermedades
  • Detección de fraudes
  • Conocer y crear relaciones de confianza con los clientes
  • Detectar anomalías en series de tiempo

¿Qué se puede obtener con la minería de datos?

  • Relación entre productos
  • Predicción de ganancias
  • Predicción del abandono de clientes
  • Relación entre enfermedades
  • Detección de fraudes
  • Conocer y crear relaciones de confianza con los clientes
  • Detectar anomalías en series de tiempo

Bien dentro  del Mundo Open Source hay dos programas para la mineria de datos que son WEKA y R

  • En R

Ambiente de software para estadística computacional y gráficos.
Tratamiento de datos, Análisis de regresión.

  • En Weka

Colección de algoritmos de máquinas de aprendizaje para minería de datos
Tratamiento de datos, Reglas de asociación, Redes Neuronales.

La ventaja que tiene R con Weka es que Weka esta mas integrado con Java que R , pero en realidad , mi intencion es poder hacer mi aplicacion tan modular y escalable que alguien interesado pueda hacer  un plugin para R.

De momento solo hay  en mente el de weka , si algien quiere que me ponga un post y le hablamos

Clustering I

try {
_uacct = “UA-4775371-3”;
urchinTracker();
} catch(err) {}

Hola este es el primero post que escribo después del paron .Se trata sobre Clustering.

Bien primero que es el Clustering

Clustering:Se le llama clustering a la clasificación de una familia de objetos en clases, de acuerdo a alguna característica de estos objetos. Por ejemplo estos objetos pueden ser las regiones resultantes de la segmentación de una imagen, y la característica de acuerdo a la cual se desean clasificar podría ser la forma de la frontera de cada región. El clustering de objetos tiene varias aplicaciones, generalmente ligadas a la organización de bases de datos de objetos. Agrupando los objetos en clusters (clases de objetos generadas por el clustering), es más fácil encontrar un elemento en la base de datos, buscando primero el cluster al cual este objeto debería pertenecer, para luego buscar el objeto en el cluster.

Que tipos de algoritmos hay :

Clustering Jerárquico

Basado en particiones: K-Medias

EM (Expectation Maximization)

Por que pienso que es bueno para este proyecto, supongamos que yo he hecho mi estrella y tengo toda la información y tengo clientes de telefonía, empresas de marketing , etc.. y me preguntan me gustaría poder verlos en grupos (esto en mi trabajo ya me ha pasado y la respuesta es no se puede , y me he llevado la consiguiente mirada fulminante) , pues meto el plugin de weka y miro que algoritmo me viene mejor y aplico sobre los datos ese algoritmo una vez hecho esto saco el diagrama de weka o el previsto en amchats.
Tipo 1yTipo 2
Así consigo poder ver como se distribuyen en grupos mis clientes bajo unos parámetros.Esto da un potencial muy alto ya que aunque no se puede sacar todo el partido a weka , ya que se ha de capar mucho , sabiendo que el usuario no es experto ni en weka , ni en minería de datos , pero podrá aplicar sobre el parte de la potencia de weka.

bueno , espero poder hacer un post para cada uno de estos y si alguno , cree que falta pues que me ponga un post diciéndome cual.También  intentare poner algún manual de weka fácil de seguir para que podemos probar.

DataMinig

try {
_uacct = “UA-4775371-3”;
urchinTracker();
} catch(err) {}

Bueno, esta es la segunda parte, viendo que uno de mis amigos/profesor , me ha comentado que hay otras posibilidades mejores y en nuestro idioma , pues , hago este post para recomendar estos libros.

Bueno el libro que se me comento es Introducción a la Minería de Datos

Bueno , pues este es la portada
Introducción a la mineria de datos

Resumen
“Introducción a la minería de datos” es un libro de minería de datos que describe, de una manera metodológica y pragmática, el proceso de extracción de conocimiento a partir de datos. Se explica el proceso en su conjunto, sus motivaciones y beneficios, estableciendo conexiones con las disciplinas relacionadas y los sistemas con los que debe integrarse. El libro contrasta y despliega, mediante numerosos ejemplos realizados en paquetes de minería de datos, las técnicas que se requieren en cada fase del proceso: técnicas de preparación y almacenes de datos, técnicas propias de extracción de modelos (clasificación, agrupamiento, regresión, asociación, etc.) y técnicas de evaluación y difusión del conocimiento extraído.

El otro libro recomendado es este:

Cuya portada es la siguiente:Aprendizaje Automático Conceptos Básicos Y Avanzados. Aspectos Práctic

Resumen
El objetivo del aprendizaje automático es conseguir que una máquina (habitualmente una computadora) sea capaz de utilizar datos o experiencias pasadas para resolver un problema que se le plantee. El ordenador puede realizar, de una forma adecuada y automática, un aprendizaje que le lleva a ser capaz de solucionar, por sí sólo, problemas que requieren ciertas habilidades más allá de la mera capacidad de cálculo. Para ello debemos ser capaces de indicarle de dónde debe aprender, cuál es el objetivo a cumplir, y qué tipo de resultados esperamos que nos ofrezca.

Hoy en día existen numerosas aplicaciones reales del aprendizaje automático funcionando satisfactoriamente, incluyendo métodos de optimización del comportamiento de un robot en el desarrollo de las tareas que debe realizar, sistemas que analizan datos de ventas pasadas para predecir las compras en un determinado cliente, aplicaciones de reconocimiento de caras, reconocimiento de la voz para identificación de las personas, extracción de información de datos bioinformáticos para detectar los genes que más influyen en determinadas enfermedades, etc…

Este libro tiene como objetivo presentar de forma comprensiva los métodos que se utilizan para abordar este tipo de problemas, cubriendo la mayoría de los paradigmas o métodos que se utilizan. Todos los métodos son explicados desde un punto de vista didáctico, tratando de que alguien no familiarizado con ellos sea capaz de entenderlos. Existen, por otro lado, una serie de capítulos dedicados a profundizar sobre aspectos avanzados de algunos métodos y se presentan también algunas aplicaciones reales.

Puntos clave:
El libro viene acompañado de un CD-Rom con uno de los paquetes de software más utilizados, el sistema WEKA (Waikato Environment for Knowledge Análisis), de amplia utilización en el mundo del Machine Learning.