Archivo de la etiqueta: dama

Data Fabric: Soluciones convergentes para evitar un mosaico de herramientas complejas

Según Gartner, el Data Fabric es una arquitectura y un conjunto de servicios de datos que proporciona una funcionalidad consistente en una variedad de entornos, desde los locales hasta la nube. Data fabric simplifica e integra la gestión de datos en las instalaciones y en la nube, acelerando la transformación digital. ¿Cómo vamos a convencer a las empresas de que los datos son absolutamente transversales? ¿Cómo podemos realizar una valoración sólida de los datos? ¿Puede el data fabric ayudarnos en esto? ¿Podemos someter los silos de datos?

Gartner define el data fabric como un concepto de diseño que sirve como capa integrada (tejido) de datos y procesos de conexión. Una estructura de datos utiliza el análisis continuo de los activos de metadatos existentes para apoyar el diseño, el despliegue y el uso de datos integrados y reutilizables en todos los entornos, y es una necesidad para las organizaciones impulsadas por los datos: «El enfoque de la estructura de datos puede mejorar los patrones tradicionales de gestión de datos y sustituirlos por un enfoque más receptivo. Ofrece a los gestores de D&A la posibilidad de reducir la variedad de plataformas de gestión de datos integradas y ofrecer flujos de datos interempresariales y oportunidades de integración«.

Por eso es necesario un enfoque «todo en uno», es decir, una plataforma que pueda operar en toda la cadena de datos, desde la ingesta de datos hasta su explotación y visualización.

Un enfoque totalmente virtual (un sistema LDW basado en consultas) tiene la limitación de no poder materializar todos los procesos y, sobre todo, no permite una auditoría completa a lo largo del tiempo y en entornos muy regulados, como la banca y los seguros. El almacén de datos lógicos es un enfoque que puede resolver algún requisito específico, pero no tiene cabida en los procesos estructurados. El regulador no sólo puede preguntarnos cómo se realiza un determinado proceso de extracción y su linaje, también puede querer ver la réplica de un determinado proceso en una fecha concreta para ver todas las transformaciones y todos los procesos que han intervenido.

En contra de las herramientas Patchwork

Normalmente, cuando nos acercamos a una empresa para cualquier tipo de proyecto de datos, nos encontramos con un escenario típicamente fragmentado. Las empresas suelen incorporar herramientas según una lógica más bien comercial del momento histórico de la empresa. Así que es normal encontrar un mosaico de muchas herramientas diferentes: Tendremos fuentes de datos, diferentes almacenes de datos de distintos proveedores, motores analíticos, motores de reporting, cubos OLAP, etc. En el mejor de los casos, pueden proceder del mismo proveedor, pero aún así hay que resolver algunos problemas. ¿Cómo hacemos la automatización del flujo de trabajo? ¿Cómo gestionamos los metadatos? ¿Cómo documentamos los procesos? ¿Qué pasa con la responsabilidad? ¿Cómo respondemos al regulador? Es entonces cuando nos preguntamos a nivel de arquitectura que quizá deberíamos haber hecho de otra manera.

Un enfoque de gestión de datos empresariales (EDM), en el que todos los activos de datos se concentran en una única plataforma, sería la solución óptima. Además, según DAMA, la eliminación de los silos y la plena responsabilidad deberían estar en el centro de cualquier proyecto de datos. ¿Puede el concepto de Data Fabric ser una solución? Según Gartner, los data fabrics reducen el tiempo de diseño de la integración en un 30%, el despliegue en un 30% y el mantenimiento en un 70%, ya que los diseños tecnológicos se basan en la capacidad de utilizar/reutilizar y combinar diferentes estilos de integración de datos. Además, los data fabrics pueden aprovechar las habilidades y tecnologías existentes de los data hubs, data lakes y data warehouses, al tiempo que introducen nuevos enfoques y herramientas para el futuro. En este sentido, aunque un buen enfoque es disponer de una plataforma «todo en uno» con plenas capacidades de interoperabilidad, la implantación de un data fabric no requiere ninguna de las inversiones tecnológicas del cliente.

Articulo completo: https://www.linkedin.com/pulse/data-fabric-soluciones-convergentes-para-evitar-un-mosaico-iurillo/

Articulo original en ingles en DataVersity: https://www.dataversity.net/data-fabric-convergent-solutions-to-avoid-complex-tools-patchwork/

La arquitectura de Datos según DAMA

Según DAMA, el objetivo de la Arquitectura de Datos es ser un puente entre la estrategia comercial y la ejecución de la tecnología, porque la  Arquitectura de Datos es más valiosa cuando apoya completamente las necesidades de toda la empresa.

La arquitectura se refiere a una disposición organizada de elementos componentes destinados a optimizar la función, el rendimiento, la viabilidad, el coste y la estética de una estructura o sistema global. Dentro del mundo de los datos mas específicamente, hablamos de arquitectura, cuando, tenemos que lidiar, gestionar, mitigar toda la complejidad de la información.

El término arquitectura se ha adoptado para describir varias facetas del diseño de los sistemas de información. ISO/IEC 42010:2007 Ingeniería de Sistemas y Software – Descripción de la Arquitectura (2011) define la arquitectura como «la organización fundamental de un sistemaencarnado en sus componentes, sus relaciones entre sí y con el medio ambiente, y los principios que rigen su diseño y evolución«.

Multidominio de la Arquitectura

La práctica de la arquitectura se lleva a cabo en diferentes niveles dentro de una organización (empresa, dominio, proyecto, etc.) y con diferentes áreas de enfoque (infraestructura, aplicación y datos).

La disciplina de la Arquitectura Empresarial abarca arquitecturas de dominio, incluyendo negocios, datos, aplicaciones y tecnología. Las prácticas de arquitectura empresarial bien gestionadas ayudan a las organizaciones a comprender el estado actual de sus sistemas, promover el cambio deseable hacia el estado futuro, permitir el cumplimiento de la normativa y mejorar la eficacia. DAMA y el DmBok2 entiende la arquitectura de la información desde las siguentes perspectivas:

Los “Outcomes” de la Arquitectura de Datos, tales como los modelos, definiciones y flujos de datos en varios niveles, usualmente referidos como artefactos de la Arquitectura de Datos

Actividades de la Arquitectura de Datos, para formar, desplegar y cumplir las intenciones de la Arquitectura de Datos

La ontologia de la Arquitectura de Datos y su impacto en la organización, como colaboraciones, mentalidades y habilidades entre los diversos roles que afectan a la Arquitectura de Datos de la empresa

Debido a que la mayoría de las organizaciones tienen más datos de los que las personas individuales pueden comprender, es necesario representar los datos de la organización en diferentes niveles de abstracción para que puedan ser comprendidos y la administración pueda tomar decisiones al respecto

Los artefactos de la arquitectura de datos

Los artefactos de la Arquitectura de Datos incluyen especificaciones utilizadas para describir el estado existente, definir los requisitos de datos, guiar la integración de los datos y controlar los activos de datos tal como se presentan en la estrategia de datos (que se supone alguien ya ha diseñado). La Arquitectura de Datos de una organización se describe mediante las normas que rigen la forma en que se recogen, almacenan, organizan, utilizan y eliminan los datos.

Si el primer punto de cualquier estrategia de datos es entender cuales son los activos actuales de la organización desde la perspectiva del negocio, el segundo punto será entender como nos organizamos, el tercer punto sin duda es el conocimiento de  arquitectura técnica (ya no desde la perspectiva de negocio) en su diseño y a partir de una gestión pro-activa de los metadatos.

DAMA recomienda redactar un documento de diseño de la Arquitectura de Datos. Es un modelo formal de datos de la empresa, que contiene nombres de datos, definiciones completas de datos y metadatos, entidades y relaciones conceptuales y lógicas, y reglas de negocio. Se incluyen modelos de datos físicos, pero como producto del modelado y diseño de datos, en lugar de la Arquitectura de Datos.

Los artefactos que crean los arquitectos constituyen valiosos metadatos.  Lo ideal sería que los artefactos arquitectónicos se almacenaran y gestionaran en un repositorio de artefactos de arquitectura empresarial.

Las organizaciones con visión de futuro deberían incluir a profesionales de la gestión de datos (por ejemplo, los arquitectos de datos empresariales o los administradores de datos estratégicos) cuando diseñen nuevas ofertas de mercado, porque hoy en día éstas suelen incluir hardware, software y servicios que capturan datos, dependen del acceso a los datos, o ambos.

Desde mi perspectiva,  un proceso de gestion de producto siempre necesita el enfoque multiple que solo un equipo multidisciplinario puede facilitar. Una especie de “Comunidad del Anillo” acostumbrada a trabajar en equipo sin dispersion, sin recelos y sin silos de información estancos que son el freno del conocimiento empresarial.

Según el DMBok2, el objetivo de la Arquitectura de Datos es ser un puente entre la estrategia comercial y la ejecución de la tecnología. Como parte de la Arquitectura Empresarial, los Arquitectos de Datos:

  • Preparar estratégicamente a las organizaciones para hacer evolucionar rápidamente sus productos, servicios y datos a fin de aprovechar las oportunidades comerciales inherentes a las tecnologías emergentes
  • Traducir las necesidades comerciales en requisitos de datos y sistemas para que los procesos tienen sistemáticamente los datos que requieren
  • Gestionar la entrega de datos e información compleja en toda la empresa Facilitar la alineación entre el negocio y la TI
  • Actuar como agentes de cambio, transformación y agilidad

Estos impulsores de negocios deberían influir en las medidas del valor de la Arquitectura de Datos.

Los arquitectos de datos crean y mantienen el conocimiento organizacional sobre los datos y los sistemas a través de los cuales se mueven. Este conocimiento permite a una organización gestionar sus datos como un activo y aumentar el valor que obtiene de sus datos mediante la identificación de oportunidades para el uso de los datos, la reducción de costos y la mitigación de riesgos.

El articulo completo aquí.

Las mesas redondas del #DMS2021

A estas alturas del año es el momento de empezar a pensar en el http://datamanagementsummit.org de este año. Uno de los momentos mas interesante es sin duda cuando los expertos se sientan alrededor de «un argumento» estas son las mesas redonda que he pensado para la edición española que se hará el 20-21 de Octubre y la Italiana que se realizará el 23-24 de Noviembre.

 

Gobierno de datos, gestión del cambio y mentalidad ágil para alcanzar los objetivos de Quick Wins

Si seguimos el enfoque DAMA-I y su marco de referencia DmBok2, el Gobierno de Datos es el núcleo de la Gestión de Datos. La implementación de un proceso de Gobierno de Datos requiere una importante gestión del cambio. ¿Cuántas herramientas pueden ser útiles para crear una mentalidad ágil en las empresas? Si es cierto que la elección de la herramienta para el gobierno de datos es el último paso, ¿cómo motivar a los equipos y fomentar los QuickWins que pueden ayudar a la implementación?

 

Data Intelligence y Green Data: la nueva moda en la gestión de datos

La inteligencia de datos es la combinación de: Analítica avanzada, reconocimiento de imágenes, realidad aumentada, inteligencia artificial, aprendizaje automático, aprendizaje profundo, VMI y PIM. Green data es el diseño y gestión de la fase de crecimiento de los datos como si se tratara de un vegetal, desde la siembra y la plantación hasta la recogida de sus frutos.

 

Data Fabric una forma fácil de llegar a la Valuación de Datos

Según Gartner, Data Fabric es una arquitectura y un conjunto de servicios de datos que proporciona una funcionalidad coherente en diversos entornos, desde los locales hasta la nube. Data Fabric simplifica e integra la gestión de datos en las instalaciones y en la nube acelerando la transformación digital. ¿Cómo vamos a convencer a las empresas de que los datos son absolutamente transversales? ¿Cómo podemos realizar una sólida valoración de los datos? ¿Puede Data Fabric ayudarnos en esto?

 

Analítica avanzada: No más ETL, no más almacenes de datos para el nuevo esfuerzo de conocimiento en tiempo real

La analítica ha cambiado, las empresas no la utilizan mirando al pasado, sino mirando al futuro. La cultura del análisis ha matado definitivamente al reporting. La toma de decisiones necesita los datos de hoy y de mañana. ETL, ELT, ET(L), Virtualización de Datos y sobre todo DataLake y la Nube han cambiado la arquitectura de las empresas.

 

ETL, CDC, ELT y DELT(TM)

Una de las cosas más fascinante que he encontrado dentro de IRION es sin duda el enfoque Declarativo. Es algo tan sencillo y tan potente. En años de Data Management siempre me he topado con problemáticas de gestión de datos. De procesos de extracción, de manos en la masa de datos, proyectos interminables, lentos, procesos de cargas sin fin, etc. 

 

Este artículo es fruto de mi afán de entender las cosas bien. Quería aclararme bien mi storytelling para la introducción de Irion en el mercado Español. Lo más bonito de mi trabajo es el aprendizaje que cada día los diferentes clientes y proyectos me aportan. Pero vamos con orden ¿que es un enfoque declarativo? Volviendo a mis antiguos apuntes de programación “Los programas se pueden clasificar por el paradigma del lenguaje que se use para producirlos. Los principales paradigmas son: imperativos, declarativos y orientación a objetos.” Sin ir mucho más lejos, SQL es declarativo, lanzar una query quiere decir quiero obtener un resultado concreto no me interesa saber de qué forma lo haces a nivel interno ya que los programas que usan un lenguaje declarativo especifican las propiedades que la salida debe conocer y no especifican cualquier detalle de implementación. El ejemplo más típico es el de la Paella, si voy a comer una a un restaurante simplemente pido “una paella”, no comunicó al camarero que quiero que se vayan sofriendo pollo y conejo con algo de ajo, aceite y romero, para luego poner las verduras, para luego poner el tomate el pimienton, todo ello con el caldo para luego verter el arroz… No somos expertos de cualquier cosa (aunque mi paella debido a los años de vida en Valencia no está nada mal por ser italiano) y cuando no llegamos a algo o no sabemos hacer algo delegamos en trabajo en alguien que sepa hacerlo mejor, más rápido y más bueno (sobre todo si de paella se trata).

 

Pero nosotros nos ocupamos de datos, muchos datos, estructurados, no estructurados en una gran cantidad de fuentes externas, de proveniencia histórica o reciente. Datos que tenemos que Gobernar y tener bien aseados a nivel de calidad. Datos que tenemos que rectificar, reconciliar, mantener historicizados. Datos que tenemos que “documentar” porque es el regulador que nos lo impone y de ellos tenemos que tener una trazabilidad total y el proceso tiene que ser repetible. Hasta ayer, hoy todo esto se nos hacía muy complejo, estos datos tenían que limpiarse, adaptarse, extraerse, copiarse, y por ello existen diferentes enfoques el más histórico y utilizado ha sido el ETL.

 

ETL Extract Transform Load

 

Ya hemos hablado largo y tendido de todas las problemáticas de los procesos ETL en otro artículo. Justo para introducir el tema, ETL son las siglas de Extract-Transform-Load. El término ETL describe el proceso de mover datos y hacer manipulaciones con ellos. Las herramientas ETL suelen tener funciones de conexión a múltiples plataformas de datos y aplican transformaciones a los datos en la memoria. Después, presumiblemente, el resultado se registra en algún lugar. Los algoritmos ETL también pueden escribirse en la mayoría de los lenguajes de programación modernos, pero muchas organizaciones consideran que esta opción es menos preferible debido a la sobrecarga que supone escribir el código desde cero y a la complejidad desconocida del soporte posterior. 

 

Llegó un momento en que nos dimos cuenta de era inutil repetir estos procesos de cargas, y las nuevas tecnologías y los nuevos enfoques nos han brindando el CDC (Change Data Capture)

 

CDC Change Data Capture

 

CDC es uno de los patrones ETL para copiar datos. Se utiliza para auditar cada cambio en un registro: ya sea que cambie alguno de los valores o que se elimine un registro. Antiguamente, este patrón se implementa con herramientas ETL comparando la última copia de los datos con el origen o comprobando la marca de tiempo de actualización del registro de origen. El rendimiento era pésimo y había una enorme posibilidad de perder algunas de las actualizaciones. Las herramientas de CDC han cambiado las cosas drásticamente, utilizan registros de transacciones para rastrear los cambios, por lo que ningún cambio pasa desapercibido, y ni siquiera afecta al rendimiento de la base de datos de origen. Hay dos métodos diferentes para detectar y recoger los cambios: el data el versionado, que evalúa las columnas que identifican las filas que han cambiado (por ejemplo, las columnas last-update- columnas de fecha y hora, columnas de número de versión, columnas de indicador de estado), o mediante lectura de registros que documentan los cambios y permiten replicarlos en sistemas secundarios. El CDC nos brindó muchas mejoras sobre todo en términos prestacionales, herramienta como Qlik ha hecho de CDC un mantra sobre todo cuando su producto ha querido salir del mundo OLAP. Pero… Llegó la nube y lo cambió todo, almacenamiento y cómputo de alta disponibilidad han creado un nuevo escenario. 

 

ELT Cargamos primero…

 

El enfoque ETL fue una vez necesario debido a los altos costos de la computación y el almacenamiento en las instalaciones. Con el rápido crecimiento de los almacenes de datos basados en la nube y la caída en picado de los costos de la computación y el almacenamiento basados en la nube, hay pocas razones para seguir haciendo la transformación antes de la carga en el destino final. De hecho, dar la vuelta a los dos permite a los analistas hacer un mejor trabajo de forma autónoma.

En pocas palabras ahora los analistas pueden cargar los datos antes de transformarlos, no tienen que determinar de antemano exactamente qué conocimientos quieren generar antes de decidir el esquema exacto que necesitan obtener y esta es una gran ventaja.

En su lugar, los datos de la fuente subyacente se replican directamente en un almacén de datos, que comprende una «única fuente de verdad». Los analistas pueden entonces realizar transformaciones en los datos según sea necesario. Los analistas siempre podrán volver a los datos originales y no sufrirán transformaciones que puedan haber comprometido la integridad de los datos. Esto hace que el proceso de inteligencia de negocio sea incomparablemente más flexible y seguro.

 

DELT(™)

 

Delt es una de las tecnologías propietarias de IRION. El motor orquesta y sincroniza el plan de procesamiento y control de datos con algoritmos inteligentes, lo que permite a los profesionales de la gestión de datos -que utilizan la plataforma Irion EDM®- trabajar en un entorno autoadaptativo y basado en metadatos.

Las ventajas principales son:

  • El enfoque declarativo permite al motor DELT™ alcanzar altos niveles de rendimiento al maximizar el paralelismo de las fases de procesamiento.
  • la arquitectura DELT™ está diseñada para trabajar eficazmente con grandes volúmenes de datos mediante motores orientados a conjuntos.
  • El ingeniero de datos se encarga de los aspectos semánticos de las soluciones delegando en la plataforma la gestión automática de las estructuras de datos.
  • la integración de motores con tecnologías heterogéneas, como Query, Script, Rule, R, Python, Masking, Profiling, permite utilizar la herramienta más adecuada para cada situación.

 

Un enfoque declarativo permite concentrarse en lo que se quiere obtener. Esto es lo que importa.