Como tecnología con un potencial enorme pero no aprovechado, la IA ha estado en la agenda corporativa durante mucho tiempo. Este año, sin duda, ha ido a toda marcha, debido a la inversión de 10 mil millones de dólares de Microsoft en OpenAI, junto con iniciativas estratégicas de Meta, Google y otros en IA generativa.
Si bien hemos visto muchos avances en la IA, y posiblemente la misma cantidad de falsos amaneceres en términos de su adopción generalizada, ahora no cabe duda de que llegó para quedarse. Como tal, ahora es el momento de que los CTO y los equipos de TI comprendan esta próxima era impulsada por la IA.
En términos de su probable impacto en el sector tecnológico y la sociedad en general, la IA puede compararse con la introducción de la base de datos relacional, en el sentido de que fue la chispa que encendió una apreciación generalizada por los grandes conjuntos de datos, que resonaron tanto en los usuarios finales como en el software. desarrolladores.
La IA y el ML pueden verse en los mismos términos, ya que proporcionan una base formativa no solo para crear nuevas y poderosas aplicaciones, sino también para mejorar la forma en que interactuamos con tecnología innovadora junto con conjuntos de datos grandes y dispares. Ya estamos viendo cómo estos desarrollos pueden ayudarnos a resolver problemas complejos mucho más rápido de lo que era posible anteriormente.
Comprender los desafíos del almacenamiento de datos de IA
Para comprender los desafíos que presenta la IA desde la perspectiva del almacenamiento de datos, debemos analizar sus fundamentos. Cualquier capacidad de aprendizaje automático requiere un conjunto de datos de entrenamiento. En el caso de la IA generativa, los conjuntos de datos deben ser muy grandes y complejos e incluir diferentes tipos de datos.
La IA generativa se basa en modelos complejos y los algoritmos en los que se basa pueden incluir una gran cantidad de parámetros que debe aprender. Cuanto mayor sea la cantidad de características, el tamaño y la variabilidad de la salida anticipada, mayor será el nivel del tamaño del lote de datos combinado con la cantidad de épocas en las ejecuciones de entrenamiento antes de que pueda comenzar la inferencia.
En esencia, la IA generativa tiene la tarea de hacer una suposición fundamentada o ejecutar una extrapolación, regresión o clasificación basada en el conjunto de datos. Cuantos más datos tenga con los que trabajar el modelo, mayores serán las posibilidades de obtener un resultado preciso o de minimizar la función error/costo.
En los últimos años, la IA ha aumentado constantemente el tamaño de estos conjuntos de datos, pero la introducción de grandes modelos de lenguaje, en los que se basan ChatGPT y otras plataformas de IA generativa, ha hecho que su tamaño y complejidad aumenten en un orden de magnitud.
Esto se debe a que los patrones de conocimiento aprendidos que surgen durante el proceso de entrenamiento del modelo de IA deben almacenarse en la memoria, lo que puede convertirse en un verdadero desafío con modelos más grandes.
Dada la conexión entre los volúmenes de datos y la precisión de las plataformas de IA, se deduce que las organizaciones que invierten en IA querrán crear sus propios conjuntos de datos muy grandes para aprovechar las oportunidades ilimitadas que ofrece la IA. Esto se logra mediante la utilización de redes neuronales para identificar los patrones y estructuras dentro de los datos existentes para crear contenido nuevo y propietario.
Está claro que la IA tendrá un impacto en los compromisos de sostenibilidad debido a las exigencias adicionales que impone a los centros de datos, en un momento en que las huellas de CO2 y el consumo de energía ya son un problema importante. Esto sólo aumentará la presión sobre las organizaciones, pero puede adaptarse y gestionarse trabajando con los proveedores de tecnología adecuados.
Los últimos servidores GPU consumen entre 6 y 10 kW cada uno, y la mayoría de los centros de datos existentes no están diseñados para ofrecer más de 15 kW por rack, por lo que existe un gran e inminente desafío para los profesionales de los centros de datos a medida que las implementaciones de GPU aumentan en escala.
Todos estos valiosos objetivos impondrán cada vez más nuevas exigencias al almacenamiento de datos. Los proveedores de almacenamiento ya están teniendo esto en cuenta en sus hojas de ruta de desarrollo de productos, sabiendo que los CTO buscarán soluciones de almacenamiento seguras, de alto rendimiento, escalables y eficientes que les ayuden a alcanzar estos objetivos.
Por lo tanto, la atención no debería centrarse exclusivamente en las capacidades del hardware y software de almacenamiento de datos; en este caso, el panorama general es realmente muy amplio.
Columna redactada por Douglas Wallace, Gerente de Ventas de Distrito, América Latina y el Caribe (Excepto Brasil y México) en Pure Storage. Conoce más artículos de opinión en Zoom Tecnológico.