Archivo de la categoría: inteligencia de negocio

ETL, CDC, ELT y DELT(TM)

Una de las cosas más fascinante que he encontrado dentro de IRION es sin duda el enfoque Declarativo. Es algo tan sencillo y tan potente. En años de Data Management siempre me he topado con problemáticas de gestión de datos. De procesos de extracción, de manos en la masa de datos, proyectos interminables, lentos, procesos de cargas sin fin, etc. 

 

Este artículo es fruto de mi afán de entender las cosas bien. Quería aclararme bien mi storytelling para la introducción de Irion en el mercado Español. Lo más bonito de mi trabajo es el aprendizaje que cada día los diferentes clientes y proyectos me aportan. Pero vamos con orden ¿que es un enfoque declarativo? Volviendo a mis antiguos apuntes de programación “Los programas se pueden clasificar por el paradigma del lenguaje que se use para producirlos. Los principales paradigmas son: imperativos, declarativos y orientación a objetos.” Sin ir mucho más lejos, SQL es declarativo, lanzar una query quiere decir quiero obtener un resultado concreto no me interesa saber de qué forma lo haces a nivel interno ya que los programas que usan un lenguaje declarativo especifican las propiedades que la salida debe conocer y no especifican cualquier detalle de implementación. El ejemplo más típico es el de la Paella, si voy a comer una a un restaurante simplemente pido “una paella”, no comunicó al camarero que quiero que se vayan sofriendo pollo y conejo con algo de ajo, aceite y romero, para luego poner las verduras, para luego poner el tomate el pimienton, todo ello con el caldo para luego verter el arroz… No somos expertos de cualquier cosa (aunque mi paella debido a los años de vida en Valencia no está nada mal por ser italiano) y cuando no llegamos a algo o no sabemos hacer algo delegamos en trabajo en alguien que sepa hacerlo mejor, más rápido y más bueno (sobre todo si de paella se trata).

 

Pero nosotros nos ocupamos de datos, muchos datos, estructurados, no estructurados en una gran cantidad de fuentes externas, de proveniencia histórica o reciente. Datos que tenemos que Gobernar y tener bien aseados a nivel de calidad. Datos que tenemos que rectificar, reconciliar, mantener historicizados. Datos que tenemos que “documentar” porque es el regulador que nos lo impone y de ellos tenemos que tener una trazabilidad total y el proceso tiene que ser repetible. Hasta ayer, hoy todo esto se nos hacía muy complejo, estos datos tenían que limpiarse, adaptarse, extraerse, copiarse, y por ello existen diferentes enfoques el más histórico y utilizado ha sido el ETL.

 

ETL Extract Transform Load

 

Ya hemos hablado largo y tendido de todas las problemáticas de los procesos ETL en otro artículo. Justo para introducir el tema, ETL son las siglas de Extract-Transform-Load. El término ETL describe el proceso de mover datos y hacer manipulaciones con ellos. Las herramientas ETL suelen tener funciones de conexión a múltiples plataformas de datos y aplican transformaciones a los datos en la memoria. Después, presumiblemente, el resultado se registra en algún lugar. Los algoritmos ETL también pueden escribirse en la mayoría de los lenguajes de programación modernos, pero muchas organizaciones consideran que esta opción es menos preferible debido a la sobrecarga que supone escribir el código desde cero y a la complejidad desconocida del soporte posterior. 

 

Llegó un momento en que nos dimos cuenta de era inutil repetir estos procesos de cargas, y las nuevas tecnologías y los nuevos enfoques nos han brindando el CDC (Change Data Capture)

 

CDC Change Data Capture

 

CDC es uno de los patrones ETL para copiar datos. Se utiliza para auditar cada cambio en un registro: ya sea que cambie alguno de los valores o que se elimine un registro. Antiguamente, este patrón se implementa con herramientas ETL comparando la última copia de los datos con el origen o comprobando la marca de tiempo de actualización del registro de origen. El rendimiento era pésimo y había una enorme posibilidad de perder algunas de las actualizaciones. Las herramientas de CDC han cambiado las cosas drásticamente, utilizan registros de transacciones para rastrear los cambios, por lo que ningún cambio pasa desapercibido, y ni siquiera afecta al rendimiento de la base de datos de origen. Hay dos métodos diferentes para detectar y recoger los cambios: el data el versionado, que evalúa las columnas que identifican las filas que han cambiado (por ejemplo, las columnas last-update- columnas de fecha y hora, columnas de número de versión, columnas de indicador de estado), o mediante lectura de registros que documentan los cambios y permiten replicarlos en sistemas secundarios. El CDC nos brindó muchas mejoras sobre todo en términos prestacionales, herramienta como Qlik ha hecho de CDC un mantra sobre todo cuando su producto ha querido salir del mundo OLAP. Pero… Llegó la nube y lo cambió todo, almacenamiento y cómputo de alta disponibilidad han creado un nuevo escenario. 

 

ELT Cargamos primero…

 

El enfoque ETL fue una vez necesario debido a los altos costos de la computación y el almacenamiento en las instalaciones. Con el rápido crecimiento de los almacenes de datos basados en la nube y la caída en picado de los costos de la computación y el almacenamiento basados en la nube, hay pocas razones para seguir haciendo la transformación antes de la carga en el destino final. De hecho, dar la vuelta a los dos permite a los analistas hacer un mejor trabajo de forma autónoma.

En pocas palabras ahora los analistas pueden cargar los datos antes de transformarlos, no tienen que determinar de antemano exactamente qué conocimientos quieren generar antes de decidir el esquema exacto que necesitan obtener y esta es una gran ventaja.

En su lugar, los datos de la fuente subyacente se replican directamente en un almacén de datos, que comprende una «única fuente de verdad». Los analistas pueden entonces realizar transformaciones en los datos según sea necesario. Los analistas siempre podrán volver a los datos originales y no sufrirán transformaciones que puedan haber comprometido la integridad de los datos. Esto hace que el proceso de inteligencia de negocio sea incomparablemente más flexible y seguro.

 

DELT(™)

 

Delt es una de las tecnologías propietarias de IRION. El motor orquesta y sincroniza el plan de procesamiento y control de datos con algoritmos inteligentes, lo que permite a los profesionales de la gestión de datos -que utilizan la plataforma Irion EDM®- trabajar en un entorno autoadaptativo y basado en metadatos.

Las ventajas principales son:

  • El enfoque declarativo permite al motor DELT™ alcanzar altos niveles de rendimiento al maximizar el paralelismo de las fases de procesamiento.
  • la arquitectura DELT™ está diseñada para trabajar eficazmente con grandes volúmenes de datos mediante motores orientados a conjuntos.
  • El ingeniero de datos se encarga de los aspectos semánticos de las soluciones delegando en la plataforma la gestión automática de las estructuras de datos.
  • la integración de motores con tecnologías heterogéneas, como Query, Script, Rule, R, Python, Masking, Profiling, permite utilizar la herramienta más adecuada para cada situación.

 

Un enfoque declarativo permite concentrarse en lo que se quiere obtener. Esto es lo que importa. 

 

 

 

Vivo en el futuro y esto es lo que hacemos con los datos. Horizonte 2030

Como acto central del Data Management Spain Summit 2018 en la UPV de Gandia he tenido el honor de participar en una mesa redonda con diferentes expertos del sector.

Aquí he querido resumir mi intervención. El moderador Esteban Rodrigo nos ha pedido una proyección y un esfuerzo en pensar de qué forma los datos van a influir en nuestras vidas en el futuro. Aquí he querido anotar algunos puntos de mi intervención ya que el moderador nos ha pedido tres argumentos.

Reconocimiento Semántico, Chatbots y Domótica

Quizás porque vivo solo, o quizá porque soy un fan de las nuevas tecnología desde algunos meses soy un feliz usuarios de “Google Home” este aparatito que te escucha y te contesta. De momento tiene muchas limitaciones pero el potencial de todo esto es brutal. Ya ni siquiera necesitamos teclear algo “Ok Google”, “Siri dime que”, “Alexa dónde está..” El potencial de estos instrumentos me hace entender que en el 2030 estaremos rodeados de aparatos que, como el genio de la lámpara, van a poder asistirnos en todo. Sobre todo la personas mayores van a poder aprovecharse de esta tecnología, la domótica puede por fin despegar, tu vivienda, tu coche, tu despacho pasa a ser algo activo. La velocidad de procesamiento y la facilidad de encontrar informaciones de forma muy rápida van a dibujar un futuro lleno de datos, de controles, de chatbots. Quizá podamos vivir más plenamente nuestro tiempo libre o quizá no tengamos más tiempo libre. Hablaba de todo ello la semana pasada con Andres “Chatbot” Pulgarin (https://www.linkedin.com/in/andrespulgarin/) verdadero experto en Chatbot que me comentaba que están en un proceso con un importante fabricante de aviones para que todo el mantenimiento de los aaparatos se haga con controles vocales en vez de manuales escritos. Será suficiente llamar y pedir “estoy en el avión modelo x del año ¿donde puedo encontrar el sistema de refrigeración?” y en décimas de segundo el chatbot indicará cuántos pasos se tienen que hacer para dirigirse en la zona, cuales paneles desmontar etc. y dejando al final de todo el proceso un log con lo que se ha pedido por parte de quien y en qué avión”. En el 2030 con el reconocimiento vocal semántico,  la potencia de procesamiento y la gran cantidad de informaciones disponibles las máquinas van a darnos respuestas incluso filosóficas basándose en Aristotele o Heidegger. Vamos a ser testigos de una nueva ontología del lenguaje cibernético. Las acciones siguen las palabras pero esta vez las palabras no serán de seres humanos.

2 – Virtualización de Datos Total

Aunque se ha intentado reglamentar en estos años el uso de los datos con regulaciones restrictivas, el Big Data permite analizar metadatos y comportamientos sin que esto afecte a la privacidad de las personas. La suma de grandes cantidades de datos nos va a permitir estudiar patrones. Las empresas en el futuro se intercambiarán datos “no sensibles” para poder crear valor añadido a esta información. Para todo ello la tecnología de punta va a ser la Virtualización de datos que va a permitir tratar los datos sin moverlos de sus fuentes. En el 2030 compras y alianzas de empresas se van a desarrollar en función de los datos que tienen en su posesión. Las relaciones y las informaciones van a ser más importantes de las transacciones. La análisis predictiva se alimenta de grandes cantidades de datos, ya hoy en día algunos sitios web entienden el embarazo de una mujer antes que ella misma lo sepa simplemente analizando sus compras.

3 – Inteligencia Artificial las máquinas nos escuchan

Chatbots, Sensores, IoT van a generar un montón de aparatos inteligentes, no serán sólo los ordenadores y los móviles, cualquier máquina va a poder interactuar con nosotros. Neveras, Microondas, las luces del comedor, el aire acondicionado, la calefacción, la regadera automáticas serán máquinas que escuchan a nosotros y al entorno y que actuarán de consecuencia. Usaremos lenguaje natural. Ya hoy mi reloj me ha dicho dos veces que tengo que moverme de aquí. Y aun no estamos en el 2030 cuando directamente la silla me levantará para obligarme a hacer mis entrenos de Triatlón aunque no tenga gana.

Tampoco voy a poder excusarme diciendo que llueve porque mi reloj sabe que no es cierto.

Nuevo Webinar de Synergo el 26 de Junio sobre Big Data en entorno #Dynamics #NAV #AX #BI #SQL

Hay un OCÉANO DE DATOS ahí fuera, una enorme marea que aumenta todos los días y es un RECURSO que ninguna empresa u organización puede permitirse el lujo de ignorar. Cuando las consultas se mueven en Base de Datos con millones de registros hay que recurrir a los Cubos OLAP o a otras herramientas similares. Con Microsoft Dynamics tenéis ya toda la infraestructura necesaria para actuar desde hoy.  En algunos de nuestros clientes las dimensiones de los datawarehouse han aumentado del 20% en cada año, lo que antes no era un problema empieza a serlo hoy. Hoy ya es BIG DATA.

Muchas veces en vuestros Datawarehouse SQL hay datos fundamentales para vuestro negocio y hay informaciones vitales para los departamentos de vuestra empresas. ¿Como abordar la continua demanda de estos departamentos? ¿Un director de sistemas tiene que pasar su tiempo en preparar informes? Los datos del negocio tienen que manejarse desde Gerencia.

Synergo! os introduce Targit DECISION SUITE la herramienta perfecta para Microsoft Dynamics. Sácale partido a tus Cubos OLAP con una herramienta donde no hay que pegar ninguna linea de código, una herramienta donde cualquiera puede hacer análisis, datamining y reporting de forma sencilla y rápida.

También veremos las distintas posibilidades que ofrece la Business Intelligence distribuida, echando un vistazo a las nuevas APP de iOS, ANDROID, WINDOWS PHONE, SHAREPOINT.

Espero encontraros online. Para más información e inscripciones, puede utilizar el link que encontrarás más abajo.

 

 Únete a nosotros para un Webinar el 26 de Junio
Inscríbete y reserva una plaza:
https://www4.gotomeeting.com/register/416911815