En el AWS re:Invent, Amazon Web Services, anunció Amazon DataZone, un nuevo servicio de administración de datos que hace que sea más rápido y fácil para los clientes catalogar, descubrir, compartir y controlar los datos almacenados en AWS, on-premises o en fuentes de terceros.
Con Amazon DataZone, los administradores de datos que supervisan los activos de datos de una organización pueden administrar y controlar el acceso a los mismos mediante controles detallados para garantizar que se accedan con el contexto y el nivel de privilegios correctos.
Además el nuevo servicio facilita el acceso de ingenieros, científicos de datos, gerentes de productos, analistas y usuarios comerciales a datos en toda una organización para que puedan descubrir y usar insights, o aportarlos.
¿Muchos Datos?: Amazon DataZone
Hoy en día, las organizaciones recopilan petabytes, e incluso exabytes, de datos repartidos en múltiples departamentos, servicios, bases de datos on-premises y en fuentes de terceros (soluciones de socios o conjuntos de datos públicos). Antes de que las organizaciones puedan desbloquear el valor total de estos datos, los administradores de datos, aquellos que los generan y gestionan, necesitan hacerlos accesibles, manteniendo el control y la gobernanza para garantizar que solo puedan acceder a estos datos las personas adecuadas y en el contexto adecuado.
Al mismo tiempo, los empleados de toda una empresa (es decir, los consumidores de datos) quieren descubrir y analizar información de los productores de datos para impulsar su toma de decisiones. En este contexto, las organizaciones deben equilibrar la necesidad de control, para garantizar que los datos permanezcan seguros, con la necesidad de acceso con estos se generan nuevos insights. Sin embargo, es muy desafiante implementar políticas de gobernanza que tengan en cuenta la variedad de datos, departamentos y casos de uso dentro de una organización.
Si bien algunas empresas crean catálogos para organizar su información, estos sistemas requieren mucho tiempo de mantenimiento y que además los productores de datos etiqueten manualmente cada conjunto de datos con contexto adicional (origen y descripción) para que sean reconocible y así poder asignarles controles de acceso para simplificar la gobernanza.
Además, las organizaciones también luchan por hacer cumplir una taxonomía de datos consistente y los productores de datos deben mantener su propia información sincronizada, lo que dificulta la búsqueda de datos en una organización y puede hacer que la data se vuelva obsoleta. Incluso si un consumidor de datos encuentra la información que necesita, no tiene una forma sencilla de solicitar acceso al propietario directamente desde el catálogo, cargar los datos en los servicios de analytics y colaborar con otros. Como resultado, los tomadores de decisiones no pueden obtener la información que necesitan de manera oportuna, o pueden tomar malas decisiones basadas en datos incompletos o desactualizados.
Amazon DataZone es un nuevo servicio de gestión de datos que ayuda a los productores de datos a administrar el acceso y permite que los consumidores de datos descubran, usen y colaboren con los datos para impulsar insights de negocio. De esta forma, los productores de datos utilizan el portal web de Amazon DataZone para configurar sus propios catálogos definiendo su taxonomía, configurando políticas de gobernanza y conectándose a una variedad de servicios de AWS (Amazon S3 y Amazon Redshift), soluciones de socios (Salesforce y ServiceNow) y sistemas on-premises.
Asimismo, el nuevo servicio de AWS elimina el trabajo pesado de mantener un catálogo utilizando Machine learning para recopilar y sugerir metadatos (como origen y tipo de datos) para cada conjunto de datos y capacita sobre la taxonomía y las preferencias de un cliente para ir mejorando con el tiempo.
Es importante destacar que después que el catálogo está configurado, los consumidores de datos pueden usar el portal web de Amazon DataZone para buscar y descubrir activos de datos, examinar los metadatos en busca de contexto y solicitar acceso a conjuntos de datos. De esta manera, cuando un consumidor de datos está listo para comenzar a analizar datos, crea un proyecto de datos en Amazon DataZone, es decir, un espacio compartido en el portal web donde los usuarios pueden extraer diferentes conjuntos de datos, compartir el acceso con colegas y colaborar en el análisis.
Por otra parte, Amazon DataZone está integrado con los servicios de analytics de AWS, como Amazon Redshift, Amazon Athena, y Amazon QuickSight, que permiten a los consumidores de datos acceder a estos servicios en el contexto de su proyecto de datos, por lo que no necesitan administrar credenciales de inicio de sesión separadas y sus datos quedan disponibles automáticamente en estos servicios. El nuevo servicio de AWS también proporciona interfaces de programación de aplicaciones (API) para integrar con soluciones personalizadas o socios como DataBricks, Snowflake y Tableau, para que los clientes puedan publicar, buscar y trabajar fácilmente con todos los activos de datos.
“La buena gobernanza es la base que hace que los datos sean accesibles para toda la organización, pero a menudo escuchamos de los clientes decir que es difícil lograr el equilibrio adecuado entre hacer que los datos sean detectables y mantener el control”, dijo Swami Sivasubramanian, vicepresidente de Bases de datos, Analítica, y Machine Learning en AWS. “Con Amazon DataZone, los clientes pueden usar un único servicio que equilibre fuertes controles de gobernanza con acceso simplificado para facilitar la búsqueda, organización y colaboración con datos. Este nuevo servicio, liberará datos en toda la organización, para que cada empleado pueda ayudar a generar nuevos insights y así maximizar su valor”, aseguró.
ENGIE es una compañía de energía global con enfoque en estructuras de energía distribuida renovable y de bajo carbono que ayuda a sus clientes a alcanzar sus objetivos de descarbonización. “En ENGIE, nuestra principal prioridad es unificar datos a través de nuestros negocios y permitir compartir datos para mejorar nuestro desempeño y crear valor a escala. Para resolver este desafío, primero construimos un Common Data Hub (CDH) internamente”, comentó Gregory Wolowiec, director de tecnología de Data de ENGIE. “En vez de construir y mantener una plataforma para respaldar nuestras necesidades de gobernanza e intercambio de datos, durante los últimos seis meses hemos estado trabajando con el equipo de Amazon DataZone, como cliente beta, brindando inputs para crear un servicio nativo de AWS. Así, esperamos usar este nuevo servicio para diseminar los datos en toda la organización y obtener acceso simplificado a los servicios de analytics y las herramientas de gobernanza de AWS”, aseguró.
El ejecutivo también destacó que “esto empoderará a los analistas y líderes de línea de negocios para crear proyectos innovadores y tomar decisiones basadas en datos. Estamos entusiasmados de integrar Amazon DataZone en nuestras operaciones comerciales para aprovechar sus sólidas capacidades y así permitir el intercambio de datos y la creación de valor con datos a escala”.
De igual forma, Roberto Figueira, jefe de la plataforma de ingeniería de datos y análisis de Itaú Unibanco, una firma global de servicios financieros y la institución financiera del sector privado más grande de América Latina dijo que “Estar basados en datos es uno de nuestros objetivos corporativos clave, pero tenemos que equilibrar constantemente el acceso a los datos con nuestras políticas de gobernanza y cumplimiento en todos nuestros servicios de analytics de AWS, lo que hace que sea difícil para los equipos tener agilidad. Estamos entusiasmados para probar Amazon DataZone porque simplificará la gobernanza de datos y hará que el acceso a ellos entre las unidades del negocio sea mucho más fácil. Con el nuevo servicio de AWS, podremos configurar rápida y fácilmente el acceso detallado para que los equipos de analistas, ingenieros y científicos de datos experimenten hipótesis a través de varios casos de uso”.