Portada » Qué le espera a la ingeniería de datos en 2023?

Qué le espera a la ingeniería de datos en 2023?

by Donal Sandro Noblejas Huaman

Fecha de publicación: 6 de ene de 2023

¿Cuál es el futuro de la ingeniería de datos? 

Los artículos con pronósticos para el próximo año son trillados, pero tienen su propio propósito. Nos ayudan a superar la rutina diaria y pensar en lo que traerá beneficios a largo plazo.

Además, suelen ser ejercicios de humildad: estamos tratando de pintar un “panorama general” coherente de una industria que está evolucionando rápidamente en muchas direcciones. ¡Intenta encontrar una industria en la que las personas tengan una mayor necesidad de mantener sus conocimientos actualizados!

Estos desarrollos potenciales se vuelven aún más importantes a medida que las organizaciones de datos comienzan a evaluar y reevaluar sus prioridades a la luz de la recesión económica y a medida que las inversiones en ingeniería de datos determinan la capacidad de una empresa para seguir siendo ágil, innovadora y competitiva.

Pero la buena noticia es que la necesidad es la madre del ingenio, por lo que predigo que 2023 será un gran año para las tecnologías que ayuden a los equipos a ahorrar tiempo, ganancias y recursos en Dataops para que los ingenieros puedan concentrarse en construir, escalar y mejorar su rendimiento. .

Comencemos 

▍ n.° 1: los equipos de datos dedicarán más tiempo a la optimización de costos de FinOps/nube de datos

A medida que más y más trabajo de datos se traslada a la nube, preveo que los datos se convertirán en un costo creciente para la empresa y atraerán más la atención de los departamentos financieros .

No es ningún secreto que el entorno macroeconómico está comenzando a pasar de un período de rápido crecimiento y ganancias a una optimización más restringida de las operaciones y la rentabilidad. Estamos viendo que más CFO comienzan a asumir roles importantes en los equipos de datos, y tiene sentido que esta asociación incluya abordar el desafío de los costos operativos.

Los equipos de datos aún deberán contribuir al negocio aumentando la eficiencia de otros equipos y aumentando las ganancias a través de la monetización de datos, pero la optimización de costos se convertirá en una tercera tarea cada vez más importante..

Todavía hay muy poca experiencia en esta área, ya que los equipos de ingeniería de datos solían enfatizar la velocidad y la flexibilidad para cumplir con las demandas excepcionales que se les planteaban. La mayor parte de su tiempo se dedicó a escribir nuevas consultas o pasar nuevos datos, en lugar de optimizar consultas pesadas o deficientes.

Optimizar el costo de las nubes de datos también es una preocupación importante para los proveedores de datos de almacenamiento y lagos. Sí, por supuesto, necesitan que el consumo crezca, pero el despilfarro provoca una salida de usuarios. Les gustaría impulsar el crecimiento del consumo con productos como aplicaciones de datos que brinden valor a los clientes y aumenten la retención. Se van a quedar en este negocio por mucho tiempo.

Es por eso que se habla cada vez más sobre el costo de propiedad, . También vemos que todos los jugadores principales (BigQuery, RedShift, Snowflake) se están enfocando en las mejores prácticas y características relacionadas con la optimización .

Es probable que este aumento en el tiempo perdido se deba a un aumento en el personal, que estará más estrechamente relacionado con el ROI. Será más fácil justificarlo, ya que se prestará especial atención a la contratación. También es probable que la asignación de tiempo de los equipos de datos también cambie a medida que utilicen nuevos procesos y tecnologías para mejorar la eficiencia en otras áreas, como la confiabilidad de los datos.

▍ #2: Responsabilidades cada vez más especializadas en el equipo de procesamiento de datos

Actualmente, las responsabilidades en los equipos están segmentadas principalmente por etapa de procesamiento de datos:

  • los ingenieros de datos suministran datos,
  • los analistas los limpian,
  • los analistas de datos/científicos de datos los visualizan y sacan conclusiones de ellos.

Estos puestos no van a ninguna parte, sin embargo, creo que habrá una segmentación adicional por tareas comerciales:

Los ingenieros de confiabilidad de datos garantizarán la calidad de los datos,

los administradores de datos aumentarán la adopción y la monetización,

Los ingenieros de DataOps se centrarán en la gobernanza y la eficiencia de los datos,

los arquitectos de datos participarán en la transformación de bases de datos aisladas (silo de datos) e inversiones a largo plazo.

Esto reflejará cambios en el campo vecino del desarrollo de software, donde el puesto de ingeniero de software ha comenzado a dividirse en más puestos de nicho, como ingeniero DevOps o ingeniero de garantía de servicio. Esta es una evolución natural porque las profesiones comienzan a madurar y se vuelven más complejas.

▍ n.° 3: los datos se están volviendo más granulares, pero las plataformas de datos centralizados persistirán

La predicción de que los equipos de procesamiento de datos seguirán avanzando hacia la malla de datos (por primera vez lo dijo Zhamak Degani) no es una declaración tan audaz. La malla de datos ha sido uno de los conceptos más populares en el campo de los comandos de procesamiento de datos durante muchos años.

Sin embargo, veo que más equipos toman un descanso en el camino y se deciden por un sistema que combina equipos de dominio con un centro de excelencia o equipo de plataforma. Para muchos equipos, este principio organizador brinda los beneficios de ambos sistemas: la flexibilidad y la alineación de los equipos descentralizados con los estándares eficientes de los equipos centralizados.

Creo que algunos comandos seguirán su camino hacia la malla de datos, y para algunos esta pausa será el punto final. Usarán principios de malla de datos como arquitecturas centradas en el dominio, autoservicio y trabajarán con datos como un producto , pero seguirán siendo una poderosa plataforma centralizada con un equipo de “fuerzas especiales” para la ingeniería de datos.

▍ n.° 4: la mayoría de los modelos de aprendizaje automático llegarán a producción (>51 %)

Creo que, en promedio, las organizaciones podrán implementar con éxito más modelos de aprendizaje automático en producción.

Si asistió a conferencias de tecnología en 2022, podría pensar que todos estamos viviendo en el nirvana del aprendizaje automático, porque los proyectos exitosos a menudo hacen contribuciones importantes y es interesante hablar de ellos. Sin embargo, esto oculta el hecho de que la mayoría de los proyectos de ML fallan incluso antes de que existan.

En octubre de 2020, Gartner informó que solo el 53 % de los proyectos de ML pasan del prototipo a la producción, y esto es en organizaciones con algo de experiencia en IA. Es probable que a las empresas que todavía están trabajando en el desarrollo de su cultura de datos les vaya mucho peor: según algunas estimaciones, hasta el 80% o más de los proyectos fracasan.

Hay muchas complejidades:

  • Inconsistencia entre las necesidades comerciales y los objetivos de aprendizaje automático.
  • Entrenamiento de modelos de aprendizaje automático que no se pueden generalizar.
  • Problemas con las pruebas y la validación.
  • Dificultades con la implementación y el mantenimiento.

Creo que las cosas están empezando a cambiar para los equipos de desarrollo de ML debido a una combinación de un mayor enfoque en la calidad de los datos y la necesidad económica de hacer que ML sea más útil (con interfaces más útiles como computadoras portátiles o aplicaciones de datos como Streamlit jugando un papel importante).

▍ n.º 5: Primeras etapas de adopción de contratos de datos

Cualquiera que siga las discusiones de LinkedIn sobre datos sabe que los contratos de datos son uno de los temas más discutidos del año. Y por una buena razón: están asociados con uno de los mayores problemas de calidad de datos que enfrentan los equipos de ciencia de datos.

Los cambios de esquema inesperados son la causa de la mayoría de los problemas de calidad de los datos. La mayoría de las veces, son el resultado de un desarrollador de software desprevenido que impulsa una actualización del servicio, sin saber que está causando estragos en los sistemas de datos posteriores.

Sin embargo, es importante tener en cuenta que, a pesar de la exageración en línea, los contratos de datos aún están en pañales. 

 la importancia de este tema en 2023 acelerará su implementación en las primeras etapas. Esto preparará el escenario para un punto de inflexión en 2024, cuando comience a infiltrarse en la corriente principal o se desvanezca lentamente.

▍ n.° 6: los almacenes de datos y los lagos de datos comienzan a desdibujarse

Más recientemente, se podría decir que los lagos son mejores para la transmisión, la IA y otras aplicaciones de ciencia de datos, mientras que los almacenes de datos son mejores para el análisis.

Sin embargo, en 2023 esta declaración será desaprobada.

En el último año, los almacenes de datos se han centrado en las funciones de transmisión. Snowflake anunció la transmisión de Snowpipe y refactorizó su conector Kafka para que, una vez que los datos ingresan a Snowflake, se puedan consultar de inmediato, lo que reduce la latencia en un factor de diez. Google ha anunciado que ahora es posible transmitir Pub/Sub directamente a BigQuery , lo que facilita mucho la conexión de transmisiones al almacén de datos.

Al mismo tiempo, los lagos de datos como Databricks brindaban la capacidad de agregar metadatos y estructura a los datos almacenados. Databricks anunció la creación de Unity Catalog , una función que facilita a los equipos agregar estructuras como metadatos a sus recursos de datos.

Otra causa de la carrera armamentista fueron los nuevos formatos de tabla: Snowflake anunció la creación de Apache Iceberg para transmisión y tablas híbridas de procesamiento analítico transaccional (HTAP), Unistore para cargas de trabajo transaccionales, y Databricks se centró en su formato de tabla delta , que tiene tanto ACID como metadatos. propiedades. .

▍ n.º 7: los equipos mejorarán en la corrección de anomalías de datos más rápido

Una encuesta de Wakefield Research de 2022 encontró que más de 300 científicos de datos dedican un promedio del 40 % de su tiempo a la calidad de los datos . Y ese es un gran número.

La ecuación para el tiempo de inactividad de datos es: número de incidentes x(tiempo promedio para detectar +tiempo promedio para reparar). La encuesta de Wakefield también mostró que las organizaciones experimentan un promedio de 61 incidentes por mes, que tardan un promedio de 4 horas en identificarse y 9 horas adicionales en resolverse.

muchos han reducido el tiempo de detección al pasar de pruebas de datos estáticos codificados a monitoreo de datos basado en aprendizaje automático.

Y esto es genial porque crea el potencial para la innovación en el campo del análisis automático de causa raíz. Las características como el análisis de segmentación, la detección de cambios de consulta y la genealogía de datos ayudan a reducir las posibles causas de los errores de datos, ayudándole a comprender si el problema está en los sistemas, en el código o en los datos mismos.

▍ 2023: Big Data será más pequeño y manejable este año

A fines de 2022, quiero decir que ahora es un momento único para la ingeniería de datos, cuando las limitaciones de los recursos informáticos y las unidades prácticamente se han eliminado: los grandes datos pueden ser tan grandes como deben ser. Por supuesto, como siempre sucede, el péndulo oscilará en la dirección opuesta, pero es poco probable que esto suceda el próximo año.

Por lo tanto, las tendencias más populares no serán la optimización o el escalado de la arquitectura, sino los procesos que hagan que este universo expandido sea más ordenado, confiable y accesible.

Autor Donal Sandro Noblejas Huaman

Lima Perú

You may also like

Leave a Comment

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00