Archivo de la categoría: Data Governance

Libro: 20 cosas que tienes que saber sobre Data Management

Si es verdad que el 75% de los activos de las empresas Standard & Poor ‘s no son físicos: ¿De qué estamos hablando? ¡De Datos! Qué sería de empresas como Booking, AirBNB, Facebook sin sus datos (y los nuestros) esto es motivo más que suficiente para entender la importancia del Data Management.

Hubo un tiempo en que dijimos a las empresas que tenían que mirar sus datos: nació el business intelligence. Hubo un tiempo en el que quisimos democratizar el uso de los datos y nació el data-driven. Pasado un tiempo, comprendimos que gracias a la virtualización y la nube no es necesario mover los datos y nació Data Virtualization. Algunos me dicen que en el fondo nada ha cambiado. Tenemos una tecnología impresionante, el cloud y el cómputo en la nube disparan el potencial de todo, pero también disparan la entropía.

No estamos en la “transformación digital”, no se trata de algo que llega y al que hay que adaptarse, se trata de hablar de “hábito de evolución digital”. Porque se trata de un proceso continuo no de algo puntual. Un proceso que necesita la Data Governance de la misma forma que necesita otros aspectos relacionados con los datos (Data Quality, Data Analyzing, Data Virtualization, etc.)

Estamos en la era de los Metadatos. Si es verdad que la Inteligencia de Negocio ha cristalizado la estrategia (pasando de “qué” hacer a “como” hacerlo), la Data Virtualization ha permitido liberar los datos de vínculos físicos; la Data Governance va a focalizar sus esfuerzos en los metadatos. Ya no importa la cantidad de datos que podamos tratar ni como lo tratamos. Necesitamos saber que estos datos nos dicen y quien decide que digan algo. Sin Data Governance no existe el Data Management, es la visión de DAMA y la comparto completamente.

Desde hace unos cuantos años me dedico a la gestión de datos, aunque existe un framework referente super importante como el DmBok 2 de DAMA que utilizo a diario, me pareció interesante desarrollar algo muy didáctico para todos aquellos que se acercan al mundo del Data Management. Podríamos decir que este libro es una especie de diccionario alargado para comprender mejor este mundo tan fascinante de los datos.

¡Ahora más que nunca el dato no es una opción es el negocio!

Hablaremos de: Data Literacy, Metadatos, Data Governance, Business Glossary, Data Dictionary, Data Catalog, ETL, ELT , Master Data, Data Lake, Data Warehouse,OLAP, ROLAP, MOLAP, DOLAP y HOLAP, Data Fabric, Data Mesh, Enfoque Declarativo vs Enfoque Procedural, Data Vault, Data Monetization, CDC, Data Virtualization y DmBoK2

Para comprar el libro : https://www.amazon.es/cosas-tienes-saber-sobre-Management/dp/8409483882libr

El enfoque declarativo en el Data Management y la ventaja de Irion EDM

de Michele Iurillo* y ChatGPT

Este artículo se ha escrito a 4 manos.. (si se puede decir) de un lado he usado ChatGPT con preguntas muy concretas, del otro he añadido elementos para complementar la información. Imaginarlo como un experimento sobre el argumento del momento y una forma de concretar más el enfoque declarativo en Data Management que es uno de los puntos fuertes de la tecnología de Irion EDM.

El enfoque declarativo se refiere a una forma de expresar un problema o una solución en términos de lo que se desea lograr, en lugar de cómo se desea lograrlo. En lugar de especificar los pasos detallados para resolver un problema, se especifica el resultado deseado.

En programación, el enfoque declarativo se utiliza para escribir código que especifica qué se desea lograr, en lugar de cómo se desea lograrlo. Por ejemplo, en lugar de escribir código que especifica cómo recorrer una lista de elementos y realizar una determinada acción en cada uno de ellos, se escribe código que especifica que se desea realizar esa acción en cada elemento de la lista. El lenguaje de programación se encarga de resolver cómo realizar esa acción.

El enfoque declarativo se utiliza en varios campos, como en bases de datos, en donde los lenguajes declarativos son aquellos que se centran en describir los resultados deseados en una consulta, en lugar de describir cómo se obtienen esos resultados. SQL es un ejemplo de un lenguaje declarativo utilizado en las bases de datos relacionales.

En resumen, enfoque declarativo es una forma de abordar un problema o una solución enfatizando en lo que se quiere lograr en lugar de cómo se quiere lograrlo, permitiendo al sistema o lenguaje de programación encargarse de las tareas de implementación.

Algunos ejemplos de lenguajes de programación declarativos son:

  1. SQL (Structured Query Language): Es un lenguaje declarativo utilizado para acceder y manipular bases de datos relacionales. En lugar de especificar cómo recuperar los datos, se especifica qué datos se desean recuperar mediante consultas.
  2. Prolog: Es un lenguaje de programación lógico declarativo utilizado en inteligencia artificial y programación de sistemas expertos. Permite al programador especificar reglas y hechos, y luego utilizar un motor de inferencia para obtener conclusiones.
  3. Haskell: Es un lenguaje de programación funcional declarativo utilizado para construir sistemas concurrentes y distribuidos. En lugar de especificar cómo se deben realizar las operaciones, se especifican las operaciones que se desean realizar y el lenguaje se encarga de resolver cómo realizarlas.
  4. XSLT: (Extensible Stylesheet Language Transformations) es un lenguaje declarativo utilizado para transformar documentos XML en otro formato, como HTML o PDF. El programador especifica cómo se deben transformar los datos, en lugar de cómo se deben recuperar.
  5. RDF: (Resource Description Framework) es un lenguaje declarativo utilizado para describir recursos y relaciones entre ellos. Es ampliamente utilizado en la web semántica y el enriquecimiento de metadatos.

Enfoque Procedural

El enfoque procedural se refiere a una forma de expresar un problema o una solución en términos de los pasos específicos que deben seguirse para lograr un resultado. En lugar de especificar el resultado deseado, se especifican los pasos detallados para resolver el problema.

En programación, el enfoque procedural se utiliza para escribir código que especifica cómo se deben realizar las tareas, en lugar de qué tareas se deben realizar. Por ejemplo, en lugar de escribir código que especifica que se desea realizar una determinada acción en cada elemento de una lista, se escribe código que especifica cómo recorrer la lista y realizar la acción en cada elemento.

Los lenguajes de programación procedurales son aquellos que siguen un enfoque de programación estructurada, en donde se divide el código en bloques lógicos y se organizan en funciones y procedimientos

Algunos ejemplos de lenguajes de programación procedurales son:

C: Es un lenguaje de programación de alto rendimiento y de bajo nivel, que es ampliamente utilizado para desarrollar sistemas operativos, dispositivos embebidos y aplicaciones de bajo nivel. Es un lenguaje de programación estructurado, con un enfoque en la programación procedural.

Pascal: Es un lenguaje de programación estructurado, desarrollado para la enseñanza de la programación en las universidades. Es ampliamente utilizado para desarrollar aplicaciones de escritorio, juegos y aplicaciones científicas.

Fortran: es un lenguaje de programación procedural desarrollado para cálculo científico y numérico, es utilizado en aplicaciones como simulación de sistemas, modelado de fluidos y análisis estadísticos.

Basic: es un lenguaje de programación procedural muy fácil de aprender para principiantes. Fue diseñado para enseñar a los estudiantes de programación básica

¿Por qué es mejor el enfoque declarativo en Data Management?

El enfoque declarativo en Data Management tiene varias ventajas sobre el enfoque procedural. Algunas de estas ventajas son:

  1. Mayor claridad: El enfoque declarativo permite especificar los resultados deseados de manera clara y concisa, lo que ayuda a reducir el riesgo de errores y aumenta la eficiencia en el manejo de datos.
  2. Mayor flexibilidad: Al especificar los resultados deseados en lugar de los pasos para lograrlos, el enfoque declarativo permite adaptarse fácilmente a cambios en los datos o en los requisitos del sistema.
  3. Mayor escalabilidad: Al permitir la separación entre la especificación de los resultados y su implementación, el enfoque declarativo permite escalar el sistema de manejo de datos sin tener que modificar el código.
  4. Mayor portabilidad: Al separar la especificación de los resultados de su implementación, el enfoque declarativo permite el uso de diferentes sistemas o tecnologías para implementar la especificación.
  5. Mayor eficiencia: Al permitir que el sistema se encargue de implementar la especificación, el enfoque declarativo permite obtener resultados más rápidamente y con menos recursos.

En resumen, el enfoque declarativo en Data Management ofrece una mayor claridad, flexibilidad, escalabilidad, portabilidad y eficiencia en la gestión de datos. Al permitir especificar los resultados deseados en lugar de los pasos para lograrlos, permite una mayor escalabilidad, flexibilidad y portabilidad.

DELT(™) ELT Declarativo

DELT es una de las tecnologías propietarias de Irion. El motor orquesta y sincroniza el plan de procesamiento y control de datos con algoritmos inteligentes, lo que permite a los profesionales de la gestión de datos -que utilizan la plataforma Irion EDM®- trabajar en un entorno autoadaptativo y basado en metadatos.

Las ventajas principales son:

  • El enfoque declarativo permite al motor DELT™ alcanzar altos niveles de rendimiento al maximizar el paralelismo de las fases de procesamiento.
  • La arquitectura DELT™ está diseñada para trabajar eficazmente con grandes volúmenes de datos mediante motores orientados a conjuntos.
  • El ingeniero de datos se encarga de los aspectos semánticos de las soluciones delegando en la plataforma la gestión automática de las estructuras de datos.
  • La integración de motores con tecnologías heterogéneas, como Query, Script, Rule, R, Python, Masking, Profiling, permite utilizar la herramienta más adecuada para cada situación.

Para info: http://irion-edm.com/es

Los nuevos retos de la gestión de datos para el 2022 (y algunas reflexiones)

Algunas reflexiones sobre lo que está pasando dentro de las empresas en los últimos años y como algunas de ellas están enfocando las actividades para el 2022. Algunas de estas reflexiones y retos serán parte del contenido de las mesas redonda de la edición 2022 del Data Management Summit

El fin de año conlleva reflexionar sobre lo que se ha visto en el 2021 para lanzarse al vacío del 2022. El vacío porque normalmente “la vida tiene muchas más fantasías que nosotros” y el mundo empresarial está en una encrucijada muy importante. La pandemia ha supuesto la completa revisión de los procesos de trabajo distribuidos y ha sido un acelerador brutal del mundo de los datos. Hace años ya decía “no existe mi puesto” ahora existe mi lugar dentro de una organización que puede ser incluso virtual. Hace años publiqué un libro titulado “Downshifting, Decrecimiento y Empresa Desestructurada” y leerlo ahora da bastante risa porque muchas de estas “premoniciones” se han materializado. 

Todo gira alrededor del Dato…

Y aquella empresa que aún no lo ha entendido está muerta o agonizando. El dato es un activo primordial y da exactamente igual donde se trabaja. En una corporación, en un rascacielo del centro de Madrid o en mi casita de Menorca. Los profesionales se están librando del “curro” y empiezan a vivir de “proyectos”. El mundo del trabajo es dinámico y tus conocimientos de hoy no sirven para lo que viene mañana. Los datos fluyen desde que nos levantamos hasta el último de nuestros días. Muchos de nosotros ni siquiera sabemos cuántos GB generamos cada día. Es más fácil saber cuantos KW gastamos (y las facturas de las eléctricas son bien complicadas) que cuantos datos hemos estado generando, no solo en el trabajo sino en nuestro dia a dia.

Pagar por datos

La famosa frase “si es gratis tu eres el producto y no el cliente” es la que mejor define todo esto. Pero.. ¿Porque la industria, con la excusa de generar mi bienestar se queda prácticamente con todo lo que hago? En el futuro las grandes empresas se encontrarán en el medio de dos gigantes: la ética del dato y las nuevas regulaciones en materia de privacidad. Ahora no ha existido una conciencia global sobre lo que supone la cesión de tus datos pero esto va a cambiar en los próximos años. En el 2022 empezaremos a ver un nuevo fenómeno, las empresas van a ofrecer algo más a cambio, para el uso de tus datos. 

Alguien ha empezado a cuestionarse todo esto ya hace un tiempo. En su libro ‘¿Quién controla el futuro?‘, de 2013, Jaron Lanier, un personaje que parece salido de Matrix, se fijó en aquellas personas que, haciendo traducciones, ayudaron a Google a perfeccionar su traductor. Ninguno de ellos vio un euro por su trabajo, evidentemente, pero el buscador se benefició, tanto por el trabajo gratuito como por la mayor visibilidad de sus anuncios. 

“Lanier postula que la clase media está cada vez más marginada de la economía en línea. Al convencer a los usuarios de entregar información valiosa sobre sí mismos a cambio de servicios gratuitos, las compañías pueden acumular gran cantidad de datos prácticamente sin costo alguno. Lanier llama a estas empresas «servidores sirena», en alusión a las sirenas de Ulises. En lugar de pagar a cada individuo por su contribución a la base de datos, los servidores sirena concentran la riqueza en manos de los pocos que controlan los centros de datos.” (Fuente Wikipedia)

A parte iniciativas esporádicas como Datum oh Kubik Data más bien relacionada al advertising puro vamos a ver a partir del próximo año muchas empresas que están dispuestas a pagar para que nuestros datos personales y biométricos puedan ser almacenados en sus servidores.

Come cambia el Gobierno del Dato con el nuevo paradigma de la banca abierta

El nuevo entorno del Open Banking está transformando el mundo de la banca debido a un nuevo paradigma en el que los servicios financieros operan en un ecosistema completamente digitalizado. Esto ha conllevado a la completa reinvención de las prácticas y los procesos de los modelos bancarios tradicionales. Un cambio epocal hacia el Open Business y la economía basada en la completa interoperabilidad y las APIs, consecuencia, en parte, de las nuevas regulaciones como PSD2. El cambio de paradigma va a generar nuevas formas de enfocar el gobierno de datos siempre más ligado a la completa trazabilidad de los procesos. No solo roles, definiciones y metadatos sino también procesos materializados en el tiempo para satisfacer las necesidades regulatorias.

¿Cómo acelerar la adopción de Open Linked Data en el mundo de la administración pública?

Si es verdad que Open Data es el movimiento digital al que están adhiriendo paulatinamente gobiernos e instituciones de todo el mundo su adopción sigue siendo difícil. Se lanzan experimentos y portales de datos abiertos pero sin duda el punto de inflexión es el lanzamiento de las iniciativas comunitarias como el Data Governance Act: La UE está trabajando para reforzar diversos mecanismos de intercambio de datos. El objetivo es fomentar la disponibilidad de datos que puedan utilizarse para impulsar aplicaciones y soluciones avanzadas en inteligencia artificial, medicina personalizada, movilidad ecológica, fabricación inteligente y otros muchos ámbitos. 

Los Estados miembros han acordado un mandato de negociación sobre una propuesta de Ley de Gobernanza de Datos (DGA). La Ley trataría de establecer mecanismos sólidos para facilitar la reutilización de determinadas categorías de datos protegidos del sector público, aumentar la confianza en los servicios de intermediación de datos y promover el altruismo de datos en toda la UE.

Además, la DGA prohíbe vincular los servicios de intermediación con otros servicios como el almacenamiento en la nube o la analítica empresarial, servicios que están excluidos del ámbito de aplicación de la DGA. Esta medida contra la vinculación pretende evitar que las grandes plataformas tecnológicas creen un bloqueo comercial que pueda perjudicar a los competidores más pequeños.

Si saber cómo se mueven los usuarios en el metro de Madrid puede ser útil para reforzar el servicio público, el mismo dato en mano de cualquier empresa cuyo fin (y faltaría más) es el beneficio propio y de sus accionistas no es la misma cosa. Sin embargo regalamos datos continuamente para ver gatitos y delante de una pandemia no queremos colaborar. Almacenamos continuamente datos obsoletos y sin ningún sentido en una especie de síndrome de diogene digital que no cesa debido que el almacenamiento ya no es un coste tan importante. El problema es que este mismo comportamiento se hace en las empresas que no entienden que es mejor tener pocos datos de calidad que mucho sin ningún sentido, no existe algoritmo que puede ordenar y extraer conclusiones certeras de un dato sin sentido. Por esto los científicos de datos se frustran cada día limpiando datos en vez de entenderlo.

La convergencia de los diferentes modelos de calidad de datos

Sin datos de calidad es imposible tomar decisiones. Existen diferentes modelos y marcos de trabajo, desde DAMA hasta ISO. ¿Cómo medir la calidad de los datos, cómo gestionar los procesos de calidad de forma automática? ¿Cómo evitar las corrupciones de los Data Lakes? ¿Por qué no conseguimos que la calidad de los datos pueda ser un proceso horizontal dentro de la empresa? Esencialmente porque somos perezosos, desde quien atiende las llamadas en un call center hasta quien diseña el proceso de las mismas. 

Los procesos de enriquecimiento son el valor de la calidad, pero ¿cómo evitar el fenómeno garbage-in garbage-out? ¿Qué hacer con tantos datos de baja calidad?

Normalmente nos encontramos con estos inconvenientes: datos erróneos que no se corrigen, sino que se vuelven a crear, además los mismos datos son introducidos en diferentes sistemas, registros creados con valores erróneos o ausentes, falta de coincidencia entre los datos creados en diferentes sistemas, lo que hace que se tenga que hacer un trabajo adicional en fases posteriores, datos erróneos creados durante la transacción, lo que provoca una acción posterior de corrección o adición de datos, problemas de latencia entre la creación de los datos maestros y los de las transacciones y su consumo por parte de las aplicaciones de informes y transacciones posteriores

La gran pregunta quizá sea:  ¿Cómo convencer a las empresas de que el ciclo de vida de la calidad de los datos incluye la muerte de los mismos?  El GDPR lo instruye… pero ¿alguien lo pone en práctica?

¿Dónde están estos datos? Legacy, nubes, virtualización, la proliferación de fuentes de datos tan dispares ha vuelto a poner en el centro la Data Architecture.

¿Data Mesh o Data Fabric?

De la misma manera que los equipos de ingeniería de software pasaron de las aplicaciones monolíticas a las arquitecturas de microservicios, se puede decir que Data Mesh es la versión de la plataforma de datos con microservicios. El patrón de arquitectura Data Mesh adopta la ubicuidad de los datos aprovechando un diseño orientado al dominio y al autoservicio. Es evidente que quien conecta a estos dominios y sus activos de datos asociados debe ser una capa de interoperabilidad universal que aplica la misma sintaxis y los mismos estándares de datos, impulsados una gestión proactiva metadatos y datos maestros con el apoyo de un catálogo de datos empresarial y su gobierno. El patrón de diseño de la Data Mesh está compuesto principalmente por 4 componentes: fuentes de datos, infraestructura de datos, conductos de datos orientados al dominio e interoperabilidad. La capa crítica es la capa de interoperabilidad universal, que refleja los estándares agnósticos de dominio, así como la observabilidad, la procedencia, la auditabilidad y la gobernanza.Sobre la auditabilidad tenemos un problema cuando el enfoque es totalmente virtual ya que el regulador puede pedirnos de auditar datos y procesos en el tiempo, en algún lugar tendrá que persistir los datos y por ello en entornos fuertemente regulado al enfoque Data Fabric tiene mas logica. 

Data Fabric fomenta una única arquitectura de datos unificada con un conjunto integrado de tecnologías y servicios, diseñado específicamente para ofrecer datos integrados, enriquecidos y de alta calidad, en el momento adecuado, con el método correcto y al consumidor de datos adecuado. 

Según Gartner, Data Fabric es una arquitectura y un conjunto de servicios de datos que proporciona una funcionalidad consistente en una variedad de entornos, desde las instalaciones hasta la nube. Data Fabric simplifica e integra la gestión de datos en las instalaciones y en la nube acelerando la transformación digital.

Al menos tres de los pilares estrechamente interconectados identificados por Gartner para el tejido de datos están directamente relacionados con los metadatos:

Catálogo de datos aumentado: un catálogo de información disponible con características distintivas destinadas a apoyar un uso activo de los metadatos que pueda garantizar la máxima eficiencia de los procesos de gestión de datos;

Gráfico de conocimiento semántico: representación gráfica de la semántica y las ontologías de todas las entidades implicadas en la gestión de los activos de datos; obviamente, los componentes básicos representados en este modelo son los metadatos;

Metadatos activos: metadatos útiles que se analizan para identificar oportunidades de tratamiento y uso más fácil y optimizado de los activos de datos: archivos de registro, transacciones, inicio de sesión de usuarios, plan de optimización de consultas.

Cuando el Data Fabric está centrado en los metadatos nos proporciona todas las demás ventajas que son muy importantes a la hora de priorizar las medidas sobre los activos de datos.

Sea Data Fabric o Data Mesh han venido para cambiar completamente el modo de diseñar la arquitectura de datos.

El valor del dato el fulcro de la gestión

Desde la aparición del libro Infonomics de Doug Laney nos hemos dado cuenta que un activo se llama así porque supone un valor. Si antes solo nos centrabamos en la utilidad de este activo ahora nos estamos dando cuenta que tiene un valor monetario.

Si damos un valor a todos los datos, y especialmente a los metadatos, podremos responder a preguntas muy interesantes como ¿Cuáles son los propietarios de datos que gestionan los datos más valiosos para la empresa? ¿Cómo debemos priorizar las acciones de calidad en función del valor que representan estos activos de datos? Si una herramienta de gobernanza tiene el paradigma de Governance by Design, nos permite dar un valor interno (es decir, de la organización) y externo en función de la pérdida de este activo o la venta del mismo. ¿Cuánto valen los datos del cliente para nuestro competidor?

Data Governance y Data Valuation siempre van a ir de la mano. 

Las empresas están llenas de datos que no analizan y sobre todo no procesan de forma transversal. Si una compañía aérea solo se centra en analizar sus ventas directa y en el canal y gobierna los dominios de forma vertical está perdiendo mucha información. ¿Qué pasa cuando el número de pasajeros se confrontan con el departamento de operaciones o en el mantenimiento de los aviones? Unas pocas décimas de ahorro en operaciones puede valer tanto como un incremento de pasajeros. Ahorro de costes sin influir sobre el personal y sin renunciar a la seguridad es posible. Los números siempre nos dicen la verdad sea la que encontramos sea la que queremos encontrar (y esto es lamentable).

El problema de los sesgos en la gestión de datos

Desde que tengo Netflix encuentro auténticas perlas de conocimiento. A parte los documentarios sobre Miles Davis o Marcus Miller (uno de los dos quizá sea en Amazon Prime) he visto “Coded Bias” de Joy Buolamwini, una científica informática que descubrió que su cara no era reconocida por un sistema de reconocimiento facial mientras desarrollaba aplicaciones en un laboratorio del departamento de ciencia de la computación de su universidad, a partir de allí descubrió que los datos con los que entrenaron aquel tipo de sistemas eran principalmente de hombres blancos. Esto explicaba por qué el sistema no reconocía su cara afroamericana. El problema no son los datos.

La verdad es que estos sistemas, creados en los años 70, fueron concebidos con el fin de identificar a sospechosos contrastando fotografías contenidas en bases de datos policiales. Incluso hoy en día los sistemas policiales de reconocimiento facial se construyen con bases de datos históricas. No toman en consideración que muchos datos son incompletos, sesgados, reflejo de detenciones ilegales y de racismo policial, lo cual explica, además, que la prevención de delitos mediante esta tecnología posea un alto margen de error.

Y no es todo, la tecnología de reconocimiento facial fue desarrollada gracias al incremento exponencial de caras que se podían obtener desde la Web. Es decir, se hizo sin el consentimiento de las personas. Su uso no fue ético, lo que inhabilitaba desde el comienzo a casi todos estos sistemas. Tengamos claro que la IA sólo nos beneficiará en la medida en que su diseño y uso no perpetúen ni amplifiquen injusticias sociales.

Salta a la vista la sanción que Mercadona tuvo que pagar recientemente por un experimento piloto que desarrolló en 48 tiendas. Según explica la propia compañía, el sistema «aplicaba un filtro tecnológico y una segunda verificación visual establecía que la persona identificada tenía una orden de alejamiento vigente del establecimiento».

Sin embargo, la AEPD ha concluido que se ha vulnerado el Reglamento General de Protección de Datos. En concreto el artículo 6 (Licitud del tratamiento) y el artículo 9 (Tratamiento de categorías especiales de datos personales).¿Cómo diferenciaba el sistema de Mercadona quienes tenían orden judicial? La empresa se basaba en sus propios juicios contra quienes hurtaban y solicitaban al juez que se decretara precisamente esta medida. Quizá una «buena idea», pero donde la AEPD les imputa el hecho de haber empezado antes de realizar la evaluación de impacto. Un informe de impacto donde no se valoraron los riesgos respecto a los propios trabajadores de la empresa y el de los clientes vulnerables como menores, Según la Agencia, se trataban datos biométricos sin base suficiente ni se cumplían los requisitos básicos de interés público objetivo.

Pero el problema de los sesgos no solo aplica al reconocimiento facial sino hasta en la forma de querer interpretar datos. Algunos ejemplos: Nos fijarnos más en cosas que están asociadas con conceptos que usamos mucho o recientemente. En otras palabras, hacemos asociaciones que no siempre son correctas. A veces buscamos patrones e historias en datos dispersos, aun cuando no haya conexión real. Otro ejemplo es simplificar cálculos y probabilidades, lo que se traduce en soluciones fáciles (y la mayoría de las veces erróneas) para problemas complejos.

Si ya nosotros generamos Sesgos todo esto se está transladando a nuestros algoritmos y los resultados serán erroneos: persona de color que Facebook interpreta como “monos” o deduciones de riesgos en entidades financieras basadas en reglas de negocio erronea “si esta mujer esta separada va a tener menos ingresos, etc.”

Gaia X: que no sea una carta a los Reyes Magos

Una de las iniciativas estratégicas más importantes a nivel de gestión de datos es contrastar el poderío de las empresas norteamericanas en el monopolio del cloud. La Comunidad Europea se ha metido las pilas sobre todo porque, incluso China, ha empezado a desarrollar su propia infraestructura en la nube.

El Ministerio de Asuntos Económicos y Transformación Digital, a través de la Secretaría de Estado de Digitalización e Inteligencia Artificial, está impulsando la creación de un hub nacional de Gaia-X, cuyo objetivo es acelerar la capacidad europea en materia de compartición de datos y soberanía digital. 

El objetivo de esta iniciativa es desplegar un ecosistema sólido en el ámbito de la compartición de datos, principalmente industriales. Con ello, además, España aspira a liderar espacios de datos en sectores estratégicos como sanidad o turismo. 

Este ecosistema debería convertirse en el referente donde las industrias sectoriales acudan para crear comunidad en torno al dato, busquen nuevas soluciones y fomenten la innovación basada en datos e IA en su sector. 

Mientras tanto, muchas empresas que habían iniciado la aventura de Gaia-X con mucho entusiasmo parecen haberse desilusionado. Muchos se quejan de la excesiva burocracia de Gaia-X. El proyecto europeo de la nube era cada vez más complejo y amenazaba con abrumar a las empresas. Este 2022 tiene que presentar un cambio de marcha en el proyecto. Los europeos no podemos perder el tren del futuro.

El 2022 Gartner ha señalado estas diferentes TOP Trend Tech

  • Generative Artificial Intelligence (AI)
  • Data Fabric (de esto hemos hablado ampliamente en este artículo)
  • Cloud-Native Platforms (CNPs)
  • Autonomic Systems
  • Decisión Intelligence (DI)
  • Composable Applications
  • Hyper Automation
  • Privacy-Enhancing Computation (PEC)
  • Cybersecurity Mesh
  • AI Engineering
  • Total Experience (TX)
  • Empresa distribuida

Con el aumento de los modelos de trabajo remoto e híbrido, las organizaciones tradicionales centradas en la oficina están evolucionando hacia empresas distribuidas compuestas por trabajadores dispersos geográficamente.

«Esto requiere que los CIOs realicen importantes cambios técnicos y de servicio para ofrecer experiencias de trabajo sin fricción, pero hay otra cara de la moneda: el impacto en los modelos de negocio. Para todas las organizaciones, desde el comercio minorista hasta la educación, su modelo de entrega tiene que configurarse para adoptar los servicios distribuidos” según Gartner.

La pandemia ha sido el gran acelerador de la transformación digital ampliando la brecha entre quien han salido beneficiados y quien se han perdido completamente. La visión de todos los bares y restaurantes vacíos alrededor de Plaza Picasso a Madrid nos ha hecho reflexionar “sirve tener una oficina en el centro de Madrid?”. Cuando Smart Working sea el modelo aplicado al 80% de la semana laboral quien llenará estos lugares? Tiene sentido alquilar unas oficinas de 10 plantas en un rascacielo de Madrid para tenerlas vacías? Quizá dos plantas serán suficientes? El Smart Working ha venido para quedarse. 

Conclusiones…

Vuelvo a mi experimento literario de hace unos años citando a mi mismo que es bastante triste…

Estamos en un entorno inestable, hemos estado pasándolo bien un rato. Pero las cosas han cambiado tenemos que movernos de la zona de la comodidad a la zona de inquietud. Debemos entender que hay nuevos paradigmas y nuevas formas de ver las cosas. Tenemos que actuar y dejar de lloriquear en el recuerdo de qué bonito era esto antes, de que cómodo era tener un sueldo fijo a final de mes, que cómodo era comprarse lo que no podíamos permitirnos, la crisis nos ha librado de muchas esclavitudes y como decía Einstein la única crisis es la crisis de la incompetencia. Incompetencia laboral, ética y política y el fracaso del sistema entendido como “yo existo, gasto y pretendo”.

Ser libre de las nóminas quiere decir asumir riesgos, ser libre de las nóminas quiere decir ser libres de vivir nuestra vida de la forma que más nos complazca y haciendo lo que nos gusta. Con nuestro ritmo y no encauzados en ritmos de otros.

La falsa seguridad que el sistema nos brinda sirve para no hacernos pensar. El miedo al fracaso, el miedo a no poder tirar para adelante nos congela. Y el miedo es el más eficaz inhibidor del cambio. Por esto no cambiamos.

 “El dinero es el estiércol del demonio” pero lo necesitamos para sentirnos personas. Esto es absurdo. Nosotros pagamos el precio de la seguridad perdiendo parte de nuestro cerebro. 

Pero no queremos una vida frugal. Queremos parecer no ser. Queremos que los demás tengan de nosotros una imagen de éxito. Por ello no vivimos realmente nuestras vidas, buscamos continuamente vivir la vida de otros, compramos, consumimos sin ningún respeto, sin ninguna lógica.”

La inestabilidad es la regla

En lo laboral y en lo profesional. Esto me excita muchísimo. He estado reinventándome por lo menos 5 veces en mi vida. Este 2022 va a ser lo de siempre: “Destination Unknow”.

Disfrutemos de los disruptivos, actuemos contra el miedo, bailemos con el caos y sobre todo aprendamos a gestionar los datos. Sin sesgos, sin prisas pero sin pausas. Los datos son la brújula en el mar de la tempestad que supone el cambio continuo. Feliz 2022.

Data Fabric: Soluciones convergentes para evitar un mosaico de herramientas complejas

Según Gartner, el Data Fabric es una arquitectura y un conjunto de servicios de datos que proporciona una funcionalidad consistente en una variedad de entornos, desde los locales hasta la nube. Data fabric simplifica e integra la gestión de datos en las instalaciones y en la nube, acelerando la transformación digital. ¿Cómo vamos a convencer a las empresas de que los datos son absolutamente transversales? ¿Cómo podemos realizar una valoración sólida de los datos? ¿Puede el data fabric ayudarnos en esto? ¿Podemos someter los silos de datos?

Gartner define el data fabric como un concepto de diseño que sirve como capa integrada (tejido) de datos y procesos de conexión. Una estructura de datos utiliza el análisis continuo de los activos de metadatos existentes para apoyar el diseño, el despliegue y el uso de datos integrados y reutilizables en todos los entornos, y es una necesidad para las organizaciones impulsadas por los datos: «El enfoque de la estructura de datos puede mejorar los patrones tradicionales de gestión de datos y sustituirlos por un enfoque más receptivo. Ofrece a los gestores de D&A la posibilidad de reducir la variedad de plataformas de gestión de datos integradas y ofrecer flujos de datos interempresariales y oportunidades de integración«.

Por eso es necesario un enfoque «todo en uno», es decir, una plataforma que pueda operar en toda la cadena de datos, desde la ingesta de datos hasta su explotación y visualización.

Un enfoque totalmente virtual (un sistema LDW basado en consultas) tiene la limitación de no poder materializar todos los procesos y, sobre todo, no permite una auditoría completa a lo largo del tiempo y en entornos muy regulados, como la banca y los seguros. El almacén de datos lógicos es un enfoque que puede resolver algún requisito específico, pero no tiene cabida en los procesos estructurados. El regulador no sólo puede preguntarnos cómo se realiza un determinado proceso de extracción y su linaje, también puede querer ver la réplica de un determinado proceso en una fecha concreta para ver todas las transformaciones y todos los procesos que han intervenido.

En contra de las herramientas Patchwork

Normalmente, cuando nos acercamos a una empresa para cualquier tipo de proyecto de datos, nos encontramos con un escenario típicamente fragmentado. Las empresas suelen incorporar herramientas según una lógica más bien comercial del momento histórico de la empresa. Así que es normal encontrar un mosaico de muchas herramientas diferentes: Tendremos fuentes de datos, diferentes almacenes de datos de distintos proveedores, motores analíticos, motores de reporting, cubos OLAP, etc. En el mejor de los casos, pueden proceder del mismo proveedor, pero aún así hay que resolver algunos problemas. ¿Cómo hacemos la automatización del flujo de trabajo? ¿Cómo gestionamos los metadatos? ¿Cómo documentamos los procesos? ¿Qué pasa con la responsabilidad? ¿Cómo respondemos al regulador? Es entonces cuando nos preguntamos a nivel de arquitectura que quizá deberíamos haber hecho de otra manera.

Un enfoque de gestión de datos empresariales (EDM), en el que todos los activos de datos se concentran en una única plataforma, sería la solución óptima. Además, según DAMA, la eliminación de los silos y la plena responsabilidad deberían estar en el centro de cualquier proyecto de datos. ¿Puede el concepto de Data Fabric ser una solución? Según Gartner, los data fabrics reducen el tiempo de diseño de la integración en un 30%, el despliegue en un 30% y el mantenimiento en un 70%, ya que los diseños tecnológicos se basan en la capacidad de utilizar/reutilizar y combinar diferentes estilos de integración de datos. Además, los data fabrics pueden aprovechar las habilidades y tecnologías existentes de los data hubs, data lakes y data warehouses, al tiempo que introducen nuevos enfoques y herramientas para el futuro. En este sentido, aunque un buen enfoque es disponer de una plataforma «todo en uno» con plenas capacidades de interoperabilidad, la implantación de un data fabric no requiere ninguna de las inversiones tecnológicas del cliente.

Articulo completo: https://www.linkedin.com/pulse/data-fabric-soluciones-convergentes-para-evitar-un-mosaico-iurillo/

Articulo original en ingles en DataVersity: https://www.dataversity.net/data-fabric-convergent-solutions-to-avoid-complex-tools-patchwork/

Actividades Claves en el diseño de una estrategia de Gobierno de Datos

Este encierro forzado por el #Covid19 y la preparación de los cursos de Data Governance para la certificación de DAMA-I me permiten compartir con vosotros algunas buenas prácticas a la hora de diseñar un estrategia de Data Governance

Como ya he escrito en otros artículos y publicaciones sobre la materia, no considero la Data Governance como un proyecto sino más bien como un proceso continuo y sostenido en el tiempo. Es fundamental un acercamiento por fases e incremental para poder organizar los datos de la organización sin traumas y sin fisuras. Hacer las cosas bien nos permite tener que rectificar lo menos posible. Las 4 fases clásicas se acercan mucho al enfoque PMO ya que tenemos una iniciación, una planificación, una ejecución y un cierre que realmente no es como tal sino más bien un proceso continuo de mejora.

Siguiendo el enfoque del marco de DAMA tenemos algunas pautas que nos pueden ayudar:

Evaluar el grado de preparación de la organización

Habrá que considerar las características culturales y ambientales, así como las aspiraciones de la organización y sobre todo será necesario evaluar la madurez de la DM: ¿qué hace la organización con los datos? ¿Qué piensan las empresas y los individuos sobre el uso organizativo de los datos? Será necesario evaluar la capacidad de cambio: dado que la DG requiere un cambio de comportamiento, si antes el acceso a los datos era sencillo y desordenado, un proceso de Gobierno de Datos trae consigo un cambio fundamental, quizás al principio haya cierta resistencia y ganas de saltarse el sistema de control, pero poco a poco la organización se irá adaptando si las cosas se hacen bien desde el principio, más que dotarse de una herramienta desde el minuto uno será más necesario tener claro que el gobierno de los datos es algo que la organización no puede pasar por alto.

¿Tienen un programa o una estructura de gestión del cambio? ¿Han gestionado el cambio anteriormente? Esta fase también ayudará a comprender los posibles puntos de «resistencia» que siempre hay.

Articulo completo aquí: https://www.linkedin.com/pulse/actividades-claves-en-el-dise%C3%B1o-de-una-estrategia-gobierno-iurillo/

Cómo evaluar una herramienta de #DataGovernance con 20 indicadores

Seguimos con los artículos sobre Data Governance, hoy nos ocupamos de cómo analizar las diferentes herramientas presentes en el mercado y elegir la más adecuada a nuestro entorno.

Muchas veces las grandes empresas para “no arriesgarse” eligen herramientas y tecnologías guiándose por el Magic Quadrant de Gartner, sin saber que esto no es sinonimo de garantía de buen funcionamiento y fácil implementación.

En el panorama del Data Governance existen: grandes vendors que incorporan una herramienta de gobierno dentro en su ecosistema, empresas que siguen levantando ronda de capitales sin tener realmente clientes, y otras realidades quizá más específicas, poco conocidas y a veces muy eficaces. Estár en Gartner es algo parecido a las estrellas Michelin de los restaurantes, ganarla supone estar debajo de una lupa y actuar para mantenerse en el puesto olvidando la satisfacción de los comensales.

El dato es el mayor activo de nuestras empresas, hay que gestionarlo o como me gusta decir “meta gestionarlo” por ello si aun no habeis pensado en una herramienta de DG es el momento de mirar alrededor pero sin guiarse exclusivamente con Gartner, Barc etc..

Como experto, recomiendo mirar un poco más allá y os propongo una serie de indicadores para poder evaluar la mejor herramienta de Data Governance, por vosotros mismos.

Al finalizar el articulo os dejo con una sencilla hoja excel para poder hacer la evaluación.

Aquí os relato cuales son los indicadores que deberían guiarnos en la elección de la herramienta perfecta.

1. Multitenencia. El término «multi arrendamiento de software» se refiere a una arquitectura de software en la que una única instancia de software se ejecuta en un servidor y sirve a varios arrendatarios. Un límite muy importante en una herramienta de Gobernanza de Datos es no poder gestionar más de una instancia y la multiplicidad de roles y de proyectos. En tema de Roles a veces el Data Owner de un determinado proyecto tiene el rol de Data Steward en otro o en otro dominio. Una herramienta de DG debe tener un enfoque Multi Tenencia si o si.

2. Despliegue en Cloud. ¿La herramienta permite un despliegue en Cloud? Aunque su sistema no necesite este despliegue hay que pensar a futuro. ¿Es compatible con AWS, Azure, Google Cloud? ¿Es compatible con sus sistemas de almacenamiento?

3. ¿Con Licencia o Open Source?. Hasta hace unos años,el hecho de tener que pagar una licencia y su mantenimiento eran sinónimo de solvencia. Hoy en día muchas empresa prefieren apostar por herramientas open source junto con unos servicios profesionales especializados, ya que muchas veces estas herramientas son igual de solventes y no tan cerradas como las herramientas comerciales.

4. ¿Sistema abierto o ecosistema cerrado? Muchas veces la tecnología nos marca nuestras elecciones en término de software, generando el problema del Ghost TI. Aunque sea natural intentar mantener un marco global tecnológico esto es imposible de asumir en grandes corporaciones. Cuanto más intenten presionar el sistema cuanto más el fenómeno del ghost IT se presenta con todos los problemas de seguridad que ello conlleva. Realmente no sabemos si el ecosistema tecnológico actual va ser el mismo dentro de 5 años. Los expertos recomiendan que una herramienta de Governance sea completamente independiente del resto de tecnología, tampoco necesita grandes recursos ya que trabaja con metadatos y no con todos los datos. Es perfectamente factible por ejemplo que su eco sistema SAP tenga una herramienta diferente.

5. Usabilidad del Business Glossary. Es necesario evaluar si el software de gobierno de datos le permite crear taxonomías, gestionar términos de negocio, importar términos de negocio en masa. La mayoría de las empresas tienen trabajo desarrollado en Excel u otra herramienta como Confluence razón para averiguar que todo el trabajo previo se pueda recuperar. Si este trabajo aún no se ha desarrollado es mejor optar por una herramienta fácil e inmediata que no necesite por ejemplo, formación o certificaciones para poder usarse.

6. Atributos personalizados. ¿Cómo nombra y describe el software los atributos personalizados? Más allá de nombrar el atributo, es importante proporcionar una definición, una descripción corta (con un poco de fondo), una descripción larga (unos pocos párrafos de mayor profundidad), un ejemplo y una clasificación de seguridad (indicando el nivel de seguridad, por ejemplo, pública, interna o confidencial). Algunos software permiten trabajar templates de forma abierta y esta es una gran ventaja. Controle que su suite pueda trabajar con plantillas, esto agiliza mucho el trabajo.

7. Relaciones personalizadas. Al evaluar las relaciones personalizables, tenga en cuenta los acrónimos, las abreviaturas, los sinónimos, los reemplazos/sustituciones (que indican términos obsoletos), los activos asignados, los valores permitidos (vinculando el término comercial a los datos de referencia asociados) y las políticas y reglas de datos. Sobre todo compruebe que la herramienta tiene una gestión de versionado, es importante poder regresar o evaluar un término o una relación. Tiene que haber una trazabilidad total sobre los términos para saber “quién” ha cambiado el “qué” y “cuándo”.

8. Administración de datos. Los administradores de datos deben ser capaces de gestionar artefactos tales como términos de negocio, políticas de datos, estándares de datos, reglas de calidad de datos, métricas de calidad de datos, reglas de datos maestros, tareas de datos maestros (p. ej., duplicados) y cualquier otro artefacto que sea totalmente configurable (p. ej., regulación).

9. Roles personalizados. Las funciones personalizadas pueden incluir el propietario de los datos, el DGO, el Data Steward, las partes interesadas, los expertos en la materia y los responsables, los auditores externo etc. Elija una herramienta que no tenga roles cerrados y mejor aun que tenga plantillas de roles para poder crear nuevos criterios y reglas en cualquier momento.

10. Workflows de autorización. Es importante definir los workflows de autorización. Por ejemplo, puede incluir a los administradores regionales, los administradores mundiales y la tecnología de la información en el caso de un cambio de código de entrada multinacional. A veces alguna herramienta de DG presentan un verdadero BPMS para la definición de Workflows. ¿Este término del Glosario es el último? ¿Quién lo modificó? ¿Que se modificó? ¿Es una versión aprobada por el DGO? etc.

11. Reglas de datos maestros. Evalúe si la herramienta le permitirá crear reglas de enriquecimiento de datos, crear reglas de validación de datos, crear relaciones entre entidades, crear reglas de correspondencia de registros, establecer umbrales de confianza y crear reglas de consolidación de registros.

12. Linaje de datos. ¿La herramienta le permite documentar el linaje de datos, incluyendo los trabajos que se ejecutan en paralelo? ¿Permite una visualización gráfica del flujo de datos? ¿Tiene compliance RDA y GDPR?

13. Análisis de Impacto. ¿La herramienta creará un análisis de impacto, específicamente para los activos identificados en el linaje de datos? ¿Es posible visualizar gráficamente (con una base de datos de grafo) el impacto?

14. Jerarquía de los artefactos de datos. La herramienta debería permitirle vincular políticas, reglas, términos y datos de referencia, incluso debería generar de forma automática los informes a partir de los metadatos y de su manejo.

15. Elaboración de perfiles de diversas fuentes de datos. Esto incluye manuales (scripts SQL), automatizados (herramientas para proveedores) y diversas fuentes de datos. No solo datos estructurados sino también no-estructurados y sobre todo informes y reporting (SASMicrostrategy, etc). No podemos saber cómo será nuestro ecosistema tecnológico dentro de 5 años así que no podemos saber cuáles fuentes de datos vamos a utilizar. La solución más coherente sería tenerlo todo virtualizado con herramientas como C3Querona o Denodo

16. Cuadro de mando de la calidad de los datos. No subestime el valor de un cuadro de mando, que enumera las métricas de gobierno de la información, los objetivos, las actualizaciones periódicas de estado y la línea de base. Su herramienta tiene que tener la capacidad de utilizar reglas de calidad básica a nivel interno y poder conectarse con motores de calidad de datos externos. Si la herramienta no tiene un buen sistema de visualización de datos que por lo menos pueda utilizar frontends externos (como Power BI, Tableau) para ello.

17. Registro de los problemas y las alertas sobre datos. El registro de problemas de datos debe rastrear los problemas, el administrador asignado, los datos asignados, la fecha resuelta y el estado actual (por ejemplo, cerrado, el administrador hablando con el departamento de políticas, etc.). No se trata solo de generar un log sino un proceso de control de resolución de problema (con un sistema de ticketing o pudiendo relacionarse con herramientas externa como JiraConfluence o Slack.

18. Proceso de resolución de problemas de datos. Asegurar que el proceso de gestión y resolución de problemas esté completamente documentado. (además nos lo exige la regulación en muchos casos)

19. Apoyo a la auditoría interna/externa. Cada repositorio debe tener un propietario de datos y será auditado para verificar el cumplimiento de políticas específicas de gobierno de datos, tales como 1) la presencia de un diccionario de datos, 2) si las reglas han sido documentadas y 3) quién determina los controles de acceso. El software tiene que poder generar roles para auditores externos.

20. KPI de gobierno de datos

Hay muchos KPI posible en DG aquí algunas ideas: Glosario de negocios Número de términos del candidato, número de términos pendientes de aprobación, número de datos de referencia aprobados – Número de valores de código del candidato, número pendiente de aprobación, número de asuntos de datos aprobados Número de asuntos de datos pendientes, número de asuntos de datos resueltos en el último período de calidad de datos Índice de calidad de datos por aplicación, por elemento de datos críticos Vectores de información Por administrador de datos, propietario de datos, repositorio de datos, aplicación, dominio de datos.

Conclusiones

El dato es el mayor activo de nuestras empresas, hay que gestionarlo o como me gusta decir “meta gestionarlo” por ello si aun no habeis pensado en una herramienta de DG es el momento de mirar alrededor pero sin guiarse exclusivamente con Gartner, Barc etc..

Para facilitaros la labor hemos realizado un fichero excel con todo los indicadores, usted va a poder modificar los criterios y dar más o menos peso a las características que sean oportunas para su proyecto de Data Governance. Para descargar el fichero el el link es el siguiente. LINK.

Addendum

En estos días me he topado con lo que declara DAMA en su DMBook2 sobre la gestión de los meta-datos. Cito textualmente (la traducción es mia del original ingles):

«Un sistema de Gestión de Metadatos debe ser capaz de extraer Metadatos de muchas fuentes. Diseñar la arquitectura para que sea capaz de escanear las diversas fuentes de metadatos y actualizar periódicamente el repositorio. El sistema debe soportar las actualizaciones manuales de metadatos, solicitudes, búsquedas y búsquedas de metadatos por parte de varios grupos de usuarios.

Un entorno de metadatos gestionado debería aislar al usuario final de las diversas y dispares fuentes de metadatos. La arquitectura debe proporcionar un único punto de acceso para el repositorio de metadatos. El punto de acceso debe suministrar todos los recursos de metadatos relacionados de forma transparente al usuario. Los usuarios deben poder acceder a los metadatos sin ser conscientes de los diferentes entornos de las fuentes de datos. En las soluciones analíticas y de datos grandes, la interfaz puede tener funciones definidas por el usuario (UDF) para dibujar en varios conjuntos de datos, y la exposición de los metadatos al usuario final es inherente a esas personalizaciones. Con menos dependencia de UDF en las soluciones, los usuarios finales recopilarán, inspeccionarán y utilizarán los conjuntos de datos de forma más directa y, por lo general, los metadatos de soporte estarán más expuestos

Tavola Rotonda del DMS «La governance dei dati come culmine del viaggio verso la trasformazione digitale»

A poco meno di 20 giorni alla celebrazione del evento vogliamo parlare dell’argomento della tavola rotonda del Data Management Summit che focalizzerà l’attenzione dei partecipanti alla visione di fornitori ed esperti di Data Governance. Il Data Management Summit 2019 si terrà il 17 settembre presso l’Università di Pavia (Italia) e il 16 ottobre presso il Politecnico di Madrid (Spagna).

Non siamo nella «trasformazione digitale», dobbiamo parlare piuttosto di «abitudine all’evoluzione digitale». Perché è un processo continuo, non qualcosa di puntuale. Un processo che necessita della Data Governance così come di altri aspetti relativi ai dati (qualità dei dati, analisi dei dati, virtualizzazione dei dati, ecc.). Ripensandoci, siamo nell’era dei Metadati. Se è vero che la Business Intelligence ha cristallizzato la strategia (passando da «cosa» fare a «come» farlo), la virtualizzazione dei dati ha reso possibile liberare i dati da collegamenti fisici; la Data Governance concentrerà i suoi sforzi sui metadati. Non importa più quanti dati possiamo trattare o come li trattiamo. Dobbiamo sapere cosa dicono questi dati e chi decide cosa fare con questi dati e come.

Questo è il fulcro della tavola rotonda http://datamanagementsummit.org che sarà facilitata in Italia da Gigi Beltrame, giornalista e tecnologo, autore del libro Digilosofia, la filosofia del digitale e in Spagna da Carlos Bachmaier DPO e Ciso della Lotteria di Stato Spagnola e membro di ISACA.

 Cosa ne pensano gli esperti?

Secondo Gigi BeltrameCominciamo con il termine «digitale», che è uno dei più abusati, sfruttati e fraintesi dell’ultimo periodo. Digitale significa che una certa operazione viene effettuata attraverso strumenti che ragionano solo in termini di 0 e 1, l’alfabeto digitale. Il digitale da solo non cambia le procedure e il modo di fare qualcosa, ma ha un incredibile vantaggio rispetto all’analogico. Infatti, è perfettamente replicabile e facile da ricercare. La tecnologia digitale esiste da molti anni. Quello che stiamo vivendo è una fase diversa, tanto che abbiamo aggiunto la parola trasformazione. Le informazioni sono sempre state alla base del business, da quante uova sono state scambiate per ottenere una pelle che copre dal freddo in poi, abbiamo sempre cercato di misurare tuttoOra viviamo una fase nuova: il software non solo predice, ma con l’intelligenza artificiale prescrive cosa fare e spesso lo fa autonomamente.

«Oggi l’attenzione è sui dati, ma dovremo spostarla sugli algoritmi, altrimenti affogheremo in in chaos informativo senza precedenti. La vera sfida, in un contesto in cui il dato è commoditizzato, è sul come gestirlo. Per questo parlare oggi di Data Management è fondamentale, perché vuol dire parlare di business strategy e business management»

Secondo Gartner, «Le richieste di dati sono in costante aumento all’interno delle organizzazioni. Si va dalla richiesta di un accesso ai dati più facile e flessibile, attraverso una maggiore governance dei dati, alla speranza di poter quantificare il valore dei dati e venderli. Queste diverse aspettative di dati in un panorama di dati sempre più complesso e distribuito stanno spostando l’attenzione delle organizzazioni dalla gestione dei dati alla gestione dei metadati, sperando che se i dati sono ingestibili, i metadati saranno più facili da gestire”.

«Una cosa è certa. Avere uno strumento di Governance non è un’opzione, è una naturale evoluzione in uno scenario di molteplici fonti di dati e la virtualizzazione stessa ha incoraggiato«, afferma Michele Iurillo, Fondatore del Data Management Summit, «La Data Governance ci prepara al processo di trasformazione digitale. Poiché i dati non sono più bloccati in sistemi proprietari, né in un’unica fonte di dati o data warehouse, la complessità delle organizzazioni moltiplica la quantità di informazioni e soprattutto ora i dati sono il business.

“Viviamo in un mondo in cui i dati hanno un ruolo centrale, e lo avranno sempre di più. Da una parte i sistemi IoT ne produrranno in quantità crescente, dall’altra saranno fondamentali per “addestrare” le intelligenze artificiali. Il vero problema consiste nel fatto che troppo spesso le organizzazioni, per grandi e complesse che siano, non hanno la più pallida idea di come utilizzarli e si rifugiano nel confortevole pensiero per il quale sarà la tecnologia (di volta in volta big data, Ai, e chi più ne ha più ne metta), a risolvere il problema di cosa fare con tutti questi dati. Peccato che non sia così, e lo dimostra l’altissimo numero di progetti di data management che fallisce miseramente – afferma Stefano Epifani, presidente del Digital Transformation Institute, Direttore di Tech Economy e docente di Internet e Social Media Studies in Sapienza. – L’impatto dei dati sui processi di trasformazione digitale è oggi altissimo. Sono proprio o dati ad abilitare il cambiamento dalla dimensione e del “come” fare le cose alla dimensione del “cosa” abbia senso fare, che è il vero punto di svolta della Digital Transformation. Il fatto – continua Epifani – è che oggi l’attenzione è sui dati, ma dovremo spostarla sugli algoritmi, altrimenti affogheremo in in chaos informativo senza precedenti. La vera sfida, in un contesto in cui il dato è commoditizzato, è sul come gestirlo. Per questo parlare oggi di Data Management è fondamentale, perché vuol dire parlare di business strategy e business management”

 Data Management Summit a Pavia (Italia)

La prima edizione italiana ha il forte sostegno dell’Università di Pavia, storica istituzione con una sede storica e bellissima che si terrà il 17 settembre dalle 9.00 alle 17.30. Con un’agenda che verrà svelata nei prossimi giorni.

No alt text provided for this image

 Data Management Summit a Madrid (Spagna)

Quest’anno, la seconda edizione del DMS, un evento internazionale dedicato ai professionisti della gestione dei dati, si svolgerà in Spagna il 16 ottobre presso l’Universidad Politécnica de Madrid. Il DMS è un evento chiave per CEO, CTO, CIO, CIO, business intelligence manager e data scientist che implementano, in aziende e organizzazioni, tecnologie emergenti per risolvere le sfide tecnologiche e allinearsi alle nuove opportunità di business. 

No alt text provided for this image

 Informazioni sugli eventi DMS

Le sfide della BI self-service, dell’apprendimento automatico e dell’intelligenza artificiale domineranno il futuro dei dati. La conferenza permetterà ai partecipanti di immergersi nelle ultime tendenze nel campo dei dati e dell’analisi, concentrandosi sulle tecnologie emergenti che offriranno le maggiori opportunità di impatto all’interno dell’organizzazione.

L’evento è gratuito ma con posti limitati e ogni domanda sarà valutata dal comitato di ammissione formato dagli organizzatori. Le selezioni saranno effettuate utilizzando il profilo LinkedIn. Per inviare la domanda di iscrizione dei partecipanti, seguire questo link

Il programma della giornata include diverse presentazioni tecniche su Data Management, Data Governance, Sicurezza, Analytics, Machine Learning e Cloud, tra gli altri.

Per iscriversi agli eventi bisogna presentare la propria candidatura al sito http://datamanagementsummit.org

Perché Pavia?

Alcuni contributi dell’Università di Pavia al progresso dell’Umanità: il giunto cardanico, il calcolo probabilistico, l’abolizione della tortura, l’inseminazione artificiale, la misura della potenza elettrica (volt), lotta alla malaria, il parto cesareo sicuro, il pneumotorace, la cura della tubercolosi, la struttura del sistema nervoso centrale, l’apparato di Golgi, la serotonina, i premi Nobel Moneta, Natta e Rubbia e molto altro ancora.

Un impegno che prosegue ancora oggi in una università innovativa, interdisciplinare e internazionale, con:

  • 18 Dipartimenti (dalla medicina molecolare alla musicologia)
  • 86 Corsi tra Lauree triennali, Magistrali e Magistrali a ciclo unico (di cui 9 in lingua inglese)
  • 18 Dottorati
  • 6 Master in inglese
  • 15 Master di primo livello
  • 23 Master di secondo livello
  • 4 Corsi di perfezionamento/aggiornamento
  • 44 Scuole di Specializzazione
  • 70 Centri di ricerca
  • 3 Ospedali di ricerca (San Matteo, Mondino, Maugeri)
  • La sede dell’Istituto Universitario di Studi Superiori
  • 25.000 Studenti nazionali e internazionali
  • 20 collegi istituiti dal 1561
  • 9 musei
  • 30 biblioteche
  • 3.000 borse di studio e fondi speciali a sostegno degli studenti di paesi in via di sviluppo
  • Oltre 800 partnership internazionali
  • Oltre 700 accordi di scambio Erasmus e 300 per Erasmus Tirocinio

Menzione a parte merita la Laurea Magistrale MIBE, che ha un percorso in «Digital Management» e che attira studenti da tutto il mondo (https://mibe.unipv.it/).

Il tutto a Pavia, una delle più belle città italiane, dove in un’area di circa un miglio di diametro, chi frequenta l’università può godere di straordinarie opere d’arte, di natura e sport, di tutte quelle meraviglie che caratterizzano la cultura, l’artigianato, il cibo italiano ma anche di campus, centri di ricerca all’avanguardia nella medicina, nello studio dei terremoti, nella fisica nucleare, e altri temi di frontiera. In breve un “miglio d’oro della conoscenza.”

Contatti

Michele Iurillo (michele.iurillo@synergo.es)

Gigi Beltrame (Gigi@businesscommunity.it)

Principales Retos asociados al Gobierno y la Gestión de los Datos

Siguiendo el consejo que me dió el otro dia un asistente en la mesa redonda “GRC y Data Governance” organizada por el Chapter de ISACA de Madrid, voy a exponer en este artículo mi intervención y mis ideas sobre la Data Governance. El pasado 21 de marzo, celebramos el II Congreso de Auditoría & GRC en el Auditorio Bankia de Madrid. Con 325 asistentes más otros 130 que siguieron el congreso vía streaming, fue un verdadero éxito, que superó todas expectativas. La jornada fue muy interesante y de la mano di Carlos Bachmaier se organizó una muy animada e entretenida mesa redonda con el título: Principales Retos asociados al Gobierno y la Gestión de los Datos.

Algunos flashes y pensamientos:

  • Si es verdad que el 75% de los activos de las empresas Standard&Poors no son físicos: ¿De que estamos hablando? De Datos! Que seria de empresas como Booking, AirBNB, Facebook sin sus datos (y los nuestros) esto es motivo más que suficiente para entender la importancia de Gobernar el Dato.
  • Ahora más que nunca el dato no es una opción es el negocio!
  • No estamos en la “transformación digital” no se trata de algo que llega y al que hay que adaptarse se trata de hablar de “hábito de evolución digital”. Porque se trata de un proceso continuo no de algo puntual. Un proceso que necesita la Data Governance de la misma forma que necesita otros aspectos relacionado con los datos (Data Quality, Data Analyzing, Data Virtualization, etc.
  • Estamos en la era de los Metadatos. Si es verdad que la Inteligencia de Negocio ha cristalizado la estrategia (pasando de “qué” hacer a “como” hacerlo), la Data Virtualization ha permitido liberar los datos de vinculos fisicos; la Data Governance va a focalizar sus esfuerzo en los metadatos. Ya no importa la cantidad de datos que podamos tratar ni como lo tratamos. Necesitamos saber que estos datos dicen y quien decide que digan algo.
  • Sin Data Governance no existe el Data Management, es la visión de DAMA y lo comparto completamente.
  • No hay que pensar la Data Governance solo para un tema de compliance y regulaciones. El GDPR y el RDA han sido un buen argumento para dotar las grandes corporaciones con suites de Data Governance, pero el mid-market también necesita sacar provecho de sus datos y gestionar los metadatos de forma eficiente.

Estamos en la era de los Metadatos. Si es verdad que la Inteligencia de Negocio ha cristalizado la estrategia (pasando de “qué” hacer a “como” hacerlo), la Data Virtualization ha permitido liberar los datos de vinculos fisicos; la Data Governance va a focalizar sus esfuerzo en los metadatos.

Pregunta 1: ¿Qué es…el gobierno y gestión del/los Dato(s)?

Hoy en día se habla mucho de Data Governance, casi siempre el enfoque cae en dos aspectos básico: la compliance con la legislación vigente y futura, y la seguridad. ¿Pero es realmente solo esto? La verdad es que hay bastante más.

Si seguimos el enfoque de DAMA sobre el Data Management, la Governance es el elemento central. No hay Data Management sin ella. No podemos prescindir de ella. Por esto quizás deberíamos conocerla un poco más.

Según un estudio de Microsoft y EY la Governance es crucial para el desarrollo de la Inteligencia Artificial: “El gobierno de datos no es una tarea insignificante. Uno de los mayores obstáculos para las empresas de los datos es la gobernanza, en particular, quién es el propietario, cómo son los datos cómo acceder a ella, y quién puede acceso son todas preguntas esenciales cuando se trabaja con Inteligencia Artificial.” (desde Artificial Intelligence in Europe How 277 Major Companies Benefit from AI Outlook for 2019 and Beyond)

¿Qué aporta? ¿Qué resuelve?

Antes de todo la Gobernanza del Dato nos prepara en el proceso de transformación digital. Ya que los datos ya no están encerrados en sistemas propietarios, ni tampoco en una única fuente de datos o data warehouse, la complejidad de las organizaciones multiplica la cantidad de informaciones y sobre todo ahora el dato es el negocio.

¿En qué se diferencia de otras metodologías?

Más que una metodología es una obligación dentro de las empresas que entienden que su ventaja competitiva reside en los datos. Normalmente tiene su entrada en las grandes empresas por temas relacionados a la compliance para quedarse como herramienta fundamental.

¿A que se aplica?

La Data Governance nos ayuda en la toma de decisiones eficientes ya que rende la información creíble y segura. ¿Que es margen bruto? ¿Como se calcula? ¿Dónde encuentro este dato? ¿Cuales fuentes me aseguran este dato? ¿Quien ha modificado este medida?

¿Gobierno? ¿Gestión? ¿Dato? ¿Datos?

Sin una herramienta de orquestación o de Gobernanza de Datos es realmente difícil poder cumplir de forma fehaciente con las regulaciones (GDPR, RDA) siempre más restrictivas (justamente) y con el cometido del data-driven. Y no hay que olvidar que es cada vez es más fácil cambiar de plataforma tecnológica o trabajar con varias al mismo tiempo. En cualquiera de los dos escenarios, es fundamental controlar los activos de información con una visión unificada. Nos hace falta hacerlo en la totalidad de los datos si mantenemos una gestión eficientes de los metadatos y hay muchas herramientas para ello.

¿existe como disciplina?

SI y tiene que ser algo central dentro da la organización de los datos.

¿está definida y los expertos tienen una visión coherente?

Claro que Si. Los expertos tienen una visión coherente y precisa, el problema es transmitir esta visión y estas buenas prácticas dentro de las empresas. Hay muchas herramientas pero el problema no es la plataforma tecnológica sino la mentalidad. Es un problema de cultura dentro de las empresas.

¿está viva? ¿se emplea? ¿se compra?

Está viva, se emplea y se compra ahora y se comprará sobre todo en este 2019

¿está denostada?

No está plenamente reconocida como un activo fundamental dentro de las empresas. Dentro de poco los “bichos raros” serán aquellos CIO o CDO que no tienen una política de Data Governance.