Como parte del AWS re:Invent, Amazon Web Services, Inc. (AWS), anunció en Las Vegas cinco nuevas capacidades en sus carteras de base de datos y análisis que hacen que sea más rápido y fácil para los clientes administrar y analizar datos a escala de petabytes.

Estas nuevas capacidades para Amazon DocumentDB (con compatibilidad con MongoDB), Amazon OpenSearch Service y Amazon Athena facilitan a los clientes la ejecución de cargas de trabajo de análisis y bases de datos de alto rendimiento a escala.

Además, AWS anunció una nueva capacidad para que AWS Glue administre automáticamente la calidad de la base de datos en lagos de datos y canalizaciones de datos. Por último, Amazon Redshift ahora ofrece compatibilidad con una configuración de alta disponibilidad en varias zonas de disponibilidad (AZ) de AWS.

Base de Datos

Base de datos sacan músculos con AWS

El anuncio ayuda a los clientes a aprovechar al máximo sus datos en AWS al permitirles acceder a las herramientas adecuadas para sus cargas de trabajo de datos, operar a escala y aumentar la disponibilidad.

“Los datos son intrínsecamente dinámicos y aprovechar todo su potencial requiere una estrategia de datos integral que pueda escalar con las necesidades de un cliente y adaptarse a todo tipo de casos de uso, tanto ahora como en el futuro”, dijo Swami Sivasubramanian, vicepresidente presidente de bases de datos, análisis y aprendizaje automático en AWS. “Para ayudar a los clientes a aprovechar al máximo su creciente volumen y variedad de datos, nos comprometemos a ofrecer el conjunto más amplio y profundo de servicios de análisis y bases de datos. Las nuevas capacidades anunciadas hoy se basan en esto al hacer que sea aún más fácil para los clientes consultar, administrar y escalar sus datos para tomar decisiones más rápidas basadas en datos”.

Actualmente, las organizaciones crean y almacenan petabytes de base de datos, o incluso exabytes, de datos de un número creciente de fuentes (p. ej., medios digitales, transacciones en línea y dispositivos conectados).

Para maximizar el valor de estos datos, los clientes necesitan una estrategia de datos integral que brinde acceso a las herramientas adecuadas para todas las cargas de trabajo y aplicaciones de datos, junto con la capacidad de funcionar de manera confiable a escala a medida que aumenta el volumen y la velocidad de los datos. Para ayudar a los clientes a diseñar sus propias estrategias de datos integrales, AWS ofrece el conjunto de servicios y soluciones de datos más completo de la industria.

LEER MAS HUAWEI muestra cifras de proyección positiva para los próximos años

Esto incluye base de datos completamente administradas y optimizadas para los casos de uso más importantes de los clientes, como Amazon Aurora para bases de datos relacionales y Amazon DocumentDB para bases de datos de documentos. También incluye una amplia gama de servicios de análisis para ayudar a los clientes a obtener información valiosa a partir de sus datos, incluido Amazon OpenSearch Service para cargas de trabajo de análisis y búsqueda (por ejemplo, monitoreo de aplicaciones en tiempo real, análisis de registros y búsqueda de sitios web), Amazon Athena para análisis interactivo , AWS Glue para integración de datos y Amazon Redshift para almacenamiento de datos. El anuncio de hoy se basa en estos servicios con capacidades avanzadas.

Los clústeres elásticos de Amazon DocumentDB impulsan aplicaciones a escala de petabytes con millones de escrituras por segundo: Decenas de miles de clientes utilizan Amazon DocumentDB para ejecutar sus cargas de trabajo de documentos porque es rápido, escalable, altamente disponible y totalmente administrado. Si bien cada nodo de Amazon DocumentDB puede escalar hasta 64 tebibytes de datos y admitir millones de solicitudes de lectura por segundo, un subconjunto de clientes con cargas de trabajo extremadamente exigentes necesita la capacidad de escalar más allá de estos límites para admitir millones de escrituras por segundo y almacenar petabytes de datos. Anteriormente, estos clientes tenían que distribuir manualmente los datos y administrar la capacidad en varios nodos de Amazon DocumentDB. Amazon DocumentDB Elastic Clusters permite a los clientes escalar más allá de los límites de un solo nodo de base de datos en cuestión de minutos, admitiendo millones de lecturas y escrituras por segundo y almacenando hasta 2 petabytes de datos.
Amazon OpenSearch Serverless escala automáticamente las cargas de trabajo de análisis y búsqueda: Para impulsar casos de uso como la búsqueda de sitios web y el monitoreo de aplicaciones en tiempo real, decenas de miles de clientes utilizan Amazon OpenSearch Service. Muchas de estas cargas de trabajo son propensas a picos de uso repentinos e intermitentes, lo que dificulta la planificación de la capacidad. Amazon OpenSearch Serverless aprovisiona, configura y escala automáticamente la infraestructura de OpenSearch para ofrecer una ingesta de datos rápida y respuestas a consultas de milisegundos, incluso para cargas de trabajo impredecibles e intermitentes.
Amazon Athena para Apache Spark acelera el inicio del análisis interactivo a menos de un segundo: los clientes utilizan Amazon Athena, un servicio de consulta interactivo sin servidor, porque es una de las formas más fáciles y rápidas de consultar petabytes de datos en Amazon Simple Storage Service (Amazon S3) mediante una interfaz SQL estándar. Muchos clientes buscan la misma facilidad de uso cuando se trata de usar Apache Spark, un marco de procesamiento de código abierto para grandes cargas de trabajo de datos que admite marcos de lenguaje populares (es decir, Java, Scala, Python y R). Si bien los desarrolladores disfrutan de la rápida velocidad de consulta y la facilidad de uso de Apache Spark, no desean invertir tiempo en configurar, administrar y escalar su propia infraestructura de Apache Spark cada vez que desean ejecutar una consulta. Ahora, con Amazon Athena para Apache Spark, los clientes no tienen que aprovisionar, configurar y escalar los recursos por sí mismos. Las aplicaciones interactivas de Apache Spark se inician en menos de un segundo y se ejecutan más rápido que el código abierto utilizando el tiempo de ejecución de Spark optimizado de AWS. Debido a que Amazon Athena está integrado con otros servicios de AWS, los clientes pueden consultar datos de múltiples fuentes, encadenar cálculos para realizar análisis complejos y visualizar los resultados.
AWS Glue Data Quality monitorea y administra automáticamente la actualización, precisión e integridad de los datos: Cientos de miles de clientes utilizan AWS Glue para crear y administrar canales de datos modernos de forma rápida, sencilla y rentable. Las organizaciones necesitan monitorear la calidad de los datos, una medida de la frescura, precisión e integridad de los datos, de la información en sus lagos de datos y canalizaciones de datos para garantizar que sea de alta calidad antes de usarlos para potenciar sus aplicaciones de análisis o aprendizaje automático. Pero la gestión eficaz de la calidad de los datos es un proceso complejo y que requiere mucho tiempo, lo que requiere que los ingenieros de datos pasen días reuniendo estadísticas detalladas sobre sus datos, identificando manualmente las reglas de calidad de los datos basadas en esas estadísticas y aplicándolas a miles de conjuntos de datos y canalizaciones de datos. Una vez que se implementan estas reglas, los ingenieros de datos deben monitorear continuamente los errores o cambios en los datos para ajustar las reglas en consecuencia. AWS Glue Data Quality mide, supervisa y administra automáticamente la calidad de los datos de los lagos de datos de Amazon S3 y las canalizaciones de datos de AWS Glue, lo que reduce el tiempo de análisis de datos e identificación de reglas de días a horas. AWS Glue Data Quality calcula estadísticas para conjuntos de datos de clientes (p. ej., mínimos, máximos, histogramas y correlaciones) y las usa para recomendar automáticamente reglas para garantizar la actualización, precisión e integridad de los datos.
Amazon Redshift ahora admite implementaciones multi-AZ: Decenas de miles de clientes de AWS procesan colectivamente exabytes de datos con Amazon Redshift todos los días. Para respaldar las cargas de trabajo de misión crítica de estos clientes, Amazon Redshift ofrece capacidades que aumentan la disponibilidad y la confiabilidad, como copias de seguridad automáticas y la capacidad de reubicar un clúster en otra AZ en minutos. En la actualidad, muchas bases de datos utilizan un modo de replicación primario-en espera para admitir una alta disponibilidad en la que una sola base de datos atiende el tráfico en vivo y las copias en espera replican los datos de la versión en vivo en caso de que necesiten reemplazarla. Sobre la base de estas capacidades, Amazon Redshift ahora ofrece una configuración de alta disponibilidad para permitir una recuperación rápida y minimizar el riesgo de pérdida de datos. Con Amazon Redshift Multi-AZ, los clústeres se implementan en varias zonas de disponibilidad y utilizan todos los recursos para procesar consultas de lectura y escritura, eliminando la necesidad de copias en espera infrautilizadas y maximizando el rendimiento de los precios para los clientes.

LEER MAS Amazon Nova: Así es la nueva generación de modelos de inteligencia artificial

Todas las opciones anteriores permiten optimizar y aprovechar la base de datos de los usuarios, optimizando su trabajo de forma más simple.

About The Author

Claus Narr Rubio

Periodista radicado en Chile. Amante de la tecnología, aplicaciones móviles y sistemas operativos. No me considero fan de ninguno pero me gusta probar tecnologías y escribir de ellos. Fundador de Zoom Tecnológico Chile.

See author's posts