Portada » Data Scientist (Especialista en procesar, analizar y almacenar grandes cantidades de datos

Data Scientist (Especialista en procesar, analizar y almacenar grandes cantidades de datos

by Donal Sandro Noblejas Huaman

23 de diciembre de 2022

Hola mi nombre es donal Sandro Noblejas Huamán de Lima Perú 🇵🇪 hoy vengo con otro artículo de  Ciencia de Datos y como siempre y en cada uno de ellos completamente solo y me agrada porque se aprende, y como siempre sin empresas, personas, familiares, ni el estado ni ningún tipo de ayuda cuidado con los estafadores solo en mis tiempos libres redactando jejeje, bueno ahí vamos.

Data Scientist (científico de datos o científico de datos) procesa y analiza matrices de big data (Big Data) para usar algoritmos de aprendizaje automático para encontrar nuevas conexiones y patrones en ellos y construir un modelo algorítmico predictivo que pueda usarse para resolver negocios, ciencia , problemas cotidianos vida. La profesión es adecuada para personas con mentalidad analítica y habilidades matemáticas.  La profesión es adecuada para quienes estén interesados en la física las matemáticas.

Ciencia de datos: ciencia de datos en la intersección de diferentes disciplinas: matemáticas y estadísticas; informática y ciencias de la computación; negocios y economía.

La profesión es nueva, relevante y extremadamente prometedora. El término Big Data apareció en 2008. Y la profesión Científico de datos – “científico de datos” se registró oficialmente como una profesión académica e intersectorial a principios de 2010. Aunque la primera mención del término ciencia de datos se observó en el libro de Peter Naur de 1974, pero en un contexto diferente.

Breve descripción

Data Scientist trabaja con Big Data (big data): enormes conjuntos de información no estructurada.

Las matrices de big data se dividen en 3 tipos:

estructurado (por ejemplo, datos de cajas registradoras en el comercio);

semiestructurado o semiestructurado (mensajes de correo electrónico, estadísticas de rastreadores de eventos: Yandex.Metrika, GAnalytics, etc.);

no estructurados (archivos de video, imágenes, publicaciones de texto en redes sociales, informes meteorológicos, grabaciones de audio, resultados deportivos, bases de datos del genoma y mucho más).

La mayor parte de la información en Big Data son datos no estructurados o semiestructurados, lo que complica mucho su análisis. Al trabajar con dichos datos, el científico de datos utiliza los métodos de estadísticas matemáticas y aprendizaje automático (aprendizaje automático, ML).

La tarea de un científico de datos es analizar grandes datos para hacer predicciones basadas en ellos. Cuál depende de la tarea en cuestión. El resultado del trabajo del Científico de Datos es un modelo predictivo, en términos simples, es un algoritmo de software que encuentra la solución óptima al problema.

Gracias al trabajo de los científicos de datos, las empresas pueden tomar decisiones informadas basadas en varios tipos de datos y mantenerse por delante de sus competidores, mientras que los productos se vuelven más convenientes y útiles para las personas. 

caracteristicas de la profesion

Los estadísticos ordinarios, los analistas de sistemas o los analistas comerciales no pueden procesar individualmente conjuntos de información que pertenecen a la categoría Big Data. Esto requiere un profesional con una educación interdisciplinaria, competente en matemáticas y estadística, economía y negocios, informática y tecnología informática, un especialista en datos, es decir, un científico de datos .    

Las principales tareas de un científico de datos son:

extraer la información necesaria de una amplia variedad de fuentes utilizando flujos de información en tiempo real;

identifique patrones ocultos en conjuntos de datos y analícelos estadísticamente para tomar decisiones comerciales inteligentes.

El lugar de trabajo de un científico de datos no es 1 computadora o incluso 1 servidor, sino un grupo de servidores.

Un científico de datos, como un verdadero científico, no solo recopila y analiza datos, sino que también los estudia en diferentes contextos y desde diferentes ángulos, cuestionando cualquier suposición. La cualidad más importante de un científico de datos es la capacidad de ver conexiones lógicas en el sistema de información recopilada y, en función del análisis cuantitativo, desarrollar soluciones comerciales efectivas. En el mundo competitivo y cambiante de hoy, con un flujo de información cada vez mayor, un científico de datos es indispensable para tomar las decisiones comerciales correctas.

¿Qué hace un científico de datos?

En diferentes empresas, las tareas de un científico de datos serán diferentes, pero las principales etapas de trabajo son similares:

  1. Averigüe qué necesita el cliente.
  2. Evaluar si es posible resolver el problema con métodos de aprendizaje automático (ML).
  3. Recopile datos para el análisis, conviértalos a un formato más conveniente para trabajar con la metodología ML. (Si existe la oportunidad de aplicar ML, y si es más apropiado usar los métodos de estadísticas matemáticas, visualización, entonces la tarea la resuelve un analista de negocios).
  4. Encuentre criterios de evaluación para saber qué tan efectivo será el modelo a crear.
  5. Programe y “entrene” el modelo ML.
  6. Evaluar la viabilidad económica de aplicar este modelo (en esta etapa, es posible la asistencia de otros especialistas: un analista comercial, un economista jefe de una empresa, etc.).
  7. Implementar el modelo en producción/producto.
  8. Acompañar el modelo implementado – refinarlo, si es necesario, o adaptarlo a las necesidades actuales del cliente.

¿Qué se puede hacer con este patrón? Tantos. Los científicos de datos han creado cientos de servicios a los que estamos acostumbrados desde hace mucho tiempo y que usamos todos los días. Algoritmos de buscadores, previsiones meteorológicas en los smartphones, asistentes de voz, programas de reconocimiento de rostros o imágenes, algoritmos de recomendación que seleccionan vídeos y música o potenciales amigos en las redes sociales, chat bots son todo el fruto del trabajo de los científicos de datos.

Cuando trabaja con datos, el científico de datos utiliza:

  • métodos de estadística;
  • modelado de bases de datos;
  • métodos de análisis intelectual;
  • inteligencia artificial para trabajar con datos;
  • métodos de diseño y desarrollo de bases de datos.

La diferencia entre un científico de datos y otros especialistas en datos  

Muchos especialistas trabajan con Big Data, pero cada uno de ellos tiene sus propias herramientas y objetivos.

Diferencia científico de datos vs analista de negocios 

Un científico de datos y un analista de negocios (Business Analyst) sacan conclusiones en base a los datos, pero la diferencia radica en el resultado de su trabajo. El científico de datos encuentra relaciones y patrones en los datos para crear un modelo predictivo y predecir el resultado. De hecho, el científico de datos mira hacia el futuro. Al mismo tiempo, resuelve el problema técnicamente, utilizando algoritmos y estadísticas matemáticas.

Los analistas de negocios están interesados en las métricas comerciales de la empresa. Con base en estadísticas, puede evaluar, por ejemplo, la efectividad de la publicidad, la dinámica de ventas durante un período determinado. Esta información del pasado puede ser utilizada por el analista de negocios para hacer sugerencias sobre cómo mejorar el desempeño de la empresa. Cuando hay muchos datos y se necesita un pronóstico basado en ellos, entonces el científico de datos ayuda a resolver el lado técnico del problema.

Entonces, el resultado del trabajo de un científico de datos es un modelo algorítmico, un código escrito sobre la base del análisis de datos. Un científico de datos es un especialista técnico. El resultado del trabajo de un analista de negocios es visualizar recomendaciones sobre cómo mejorar el desempeño comercial de la empresa. Estos consejos también se basan en el análisis de datos, pero el analista comercial está inmerso en el componente comercial de la tarea.

La diferencia entre un científico de datos y un ingeniero de datos

Ambos especialistas son técnicos. Hacen que los datos sean accesibles y de alta calidad, a menudo trabajan en conjunto, por lo que sus deberes y responsabilidades a menudo se confunden.

Data Scientist formula tareas de análisis de datos en función de las necesidades comerciales. Sabe exactamente qué datos se necesitan, sabe cómo encontrar patrones en ellos (a veces no notados por otros) y crea modelos predictivos en los casos en que los métodos ML pueden y deben aplicarse. Un científico de datos controla la calidad del modelo desarrollado y evalúa el efecto de su aplicación. 

El ingeniero de datos recopila datos, proporciona su estructura cualitativa para que el científico de datos pueda entrenar e implementar algoritmos y modelos de ML. Un ingeniero de datos puede procesar grandes cantidades de información y extraer lo más importante de ella, sabe cómo cargar e integrar regularmente datos conflictivos o incompletos de diferentes fuentes.

Entonces, las tareas de un ingeniero de datos y un científico de datos son diferentes:

El ingeniero de datos proporciona datos limpios y estructurados a un científico de datos, desarrolla una canalización para respaldar el algoritmo ML;

Data Scientist prueba hipótesis en el sistema de datos, desarrolla algoritmos.

El científico de datos encuentra información comercialmente importante en los datos para construir la estrategia de una empresa y explora la posibilidad de usar ML. El ingeniero de datos es un trabajador en equipo, su tarea es garantizar una alta productividad de los analistas comerciales y conectar a los miembros del equipo de desarrollo de software.

Pros y contras de la profesión.

Ventajas:

La profesión de científico de datos tiene una gran en el extranjero, hay una gran escasez de especialistas en datos de este nivel en el mercado. 

Una profesión muy bien pagada.

Un trabajo interesante para los apasionados de las tecnologías informáticas y las matemáticas. Cada proyecto es único a su manera, por lo que el trabajo no puede llamarse rutinario.

La profesión de científico de datos te obliga a ser una persona intelectual desarrollada integralmente: debes estar al tanto de las tendencias en economía, comercio, cultura, educación, sociología y muchas otras áreas de la vida, y lo más importante, ser capaz de analizarlas y dibujar. conclusiones.  

Contras:

No todas las personas podrán dominar la profesión de científico de datos, se necesita una mentalidad especial.

Al construir modelos, los métodos conocidos y más del 60% de las ideas pueden no funcionar. Muchas soluciones fallarán y se necesita mucha paciencia para obtener resultados satisfactorios. Un científico de datos  no tiene derecho a decir que no a un problema. Debe encontrar una manera que ayude a resolver el problema.

Gran responsabilidad: los errores de los científicos de datos cuestan muy caro a las empresas. Por ejemplo, debido a errores de cálculo en la construcción del modelo de puntuación (evalúa la solvencia), el banco emitirá préstamos de forma masiva a clientes poco fiables que no devolverán el dinero. 

Lugar de trabajo

El científico de datos es un empleado indispensable donde sea que necesite hacer pronósticos, negociar y evaluar riesgos. 

Las principales áreas de aplicación de los conocimientos y habilidades de los científicos de datos:

  1. industrias de alta tecnología;
  2. la ciencia;
  3. TI (optimización de motores de búsqueda, filtro de spam, sistematización de noticias, traducción automática de textos y mucho más);
  4. medicina (diagnóstico automático de enfermedades);
  5. estructuras financieras (toma de decisiones sobre la emisión de préstamos), etc.;
  6. telecomunicaciones;
  7. transporte;
  8. grandes cadenas minoristas;
  9. Agricultura;
  10. seguro;
  11. sociología.

hay tres áreas principales de empleo para los científicos de datos: TI (38 % de las vacantes), finanzas (29 %), B2B (9 %).

Data Scientist puede trabajar tanto con empresas emergentes como con corporaciones multinacionales. En las pequeñas empresas de nueva creación, un científico de datos suele estar solo y resuelve tareas individuales. En las grandes empresas, en colaboración con analistas de datos y analistas de negocios, administradores de sistemas, programadores, ingenieros de datos, diseñadores, gerentes de proyectos, Data Scientist se dedica a proyectos a largo plazo.

Cualidades importantes

  • Mente analítica.
  • Diligencia.
  • Persistencia.
  • Meticulosidad, precisión, cuidado.
  • La capacidad de completar la investigación a pesar de los malos resultados intermedios.
  • Sociabilidad.
  • Habilidad para explicar cosas complejas en términos simples.
  • Intuición empresarial.

Conocimientos y habilidades profesionales.

Matemáticas, análisis matemático, estadística matemática, teoría de la probabilidad.

Preparación de datos para el análisis utilizando bibliotecas. 

Inglés.

Lenguajes de programación que tienen componentes para trabajar con grandes matrices de datos: SQL, Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). La mayoría de las veces, los científicos de datos usan SQL, Python y, para cálculos complejos, C/C++.

Herramientas estadísticas: SPSS, R, MATLAB, SAS Data Miner, Tableau, etc.

Conocimiento profundo de la industria en la que trabaja el científico de datos (por ejemplo, si es la industria farmacéutica, entonces se requiere conocimiento de los procesos básicos de producción, componentes de medicamentos).

Leyes del desarrollo empresarial.

Data Science es el uso de métodos científicos en el trabajo con big data para encontrar la solución adecuada. Data Scientist trabaja con datos de la misma manera que un científico en cualquier campo del conocimiento. Aplica estadísticas matemáticas, principios lógicos y modernas herramientas de visualización para obtener el resultado. Debe ser capaz de analizar y generalizar observaciones privadas, excluir accidentes, filtrar hechos insignificantes y sacar conclusiones correctas.

En resumen, un científico de datos necesita saber matemáticas, estadística matemática, uno o dos lenguajes de programación, principios de aprendizaje automático y tener una idea de la industria donde se utilizará todo esto para trabajar con datos.

Capacitación para científicos de datos 

El científico de datos debe poder programar, trabajar con estadísticas, utilizar métodos analíticos. Todo esto se enseña en las universidades en los programas de TI. Quiero creer que en Perú también puede y hay

“Matemática Aplicada e Informática” e Inteligencia Artificial (NRU HSE

“Matemáticas Aplicadas”

“Estadísticas” 

Con experiencia como desarrollador, es fácil convertirse en un científico de datos en unos pocos meses. Será más difícil para los profesionales de otros campos, pero tienen una ventaja competitiva importante: un conocimiento profundo de su área temática.

Como en cualquier profesión, la autoeducación es importante para un científico de datos. Para la autonivelación, los conocimientos y habilidades serán útiles:

  • Machine Learning en Youtube de 
  • aprendizaje automático en Youtube Yandex.
  • cursos de Udacity;
  • Cursos de Dataquest donde puedes convertirte en un verdadero profesional en Data Science;
  • Data Origami;
  • Udemy Coursera 

La profesión de Científico de Datos es una de las mejor pagadas en TI. En los EE. UU., el salario de un científico de datos es de $ 110,000-140,000 por año. En Perú el salario de los científicos de datos depende de la experiencia laboral, el alcance de las funciones y la región..

Pasos y perspectivas de carrera

Como todos los profesionales de TI, el científico de datos pasa por etapas profesionales desde junior hasta senior y líder de equipo. Cada etapa de crecimiento profesional toma alrededor de uno o dos años. El científico de datos de nivel medio comprende las tareas comerciales más profundamente, puede ofrecer la mejor solución para ellas. Cuanta más experiencia y mayor nivel de carrera, menos se centra el científico de datos en tareas técnicas: aborda el proyecto de forma global y puede evaluar su componente semántico.

La profesión de científico de datos ya es un logro en sí mismo: el trabajo requiere un conocimiento teórico serio y experiencia práctica en varias especialidades de TI. En cualquier gran empresa u organización, un científico de datos es una figura clave. Para alcanzar tales alturas, uno debe trabajar duro y con determinación y mejorar constantemente en todas las áreas que forman la base de la profesión.

La aplicación de Data Science no se limita a un área. Puede entrenar redes neuronales para buscar nuevas partículas electrónicas o códigos de ADN, y si quiere variedad, vaya a una industria completamente diferente y cree un servicio de música de recomendación. 

Bromean sobre el Data Scientist: este es un generalista que programa mejor que cualquier estadístico y conoce las estadísticas mejor que cualquier programador. Y entiende los procesos comerciales mejor que el jefe.

Los estaré esperando 

Autor Donal Sandro Noblejas Huamán

Lima Perú

You may also like

Leave a Comment

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00