Conocimientos de tecnologías Habilidades laborales ingeniería

15 HABILIDADES DE INGENIERO DE DATOS PARA TU CURRÍCULUM Y TU CARRERA

50 Views

En esta lección:

Algunas de las habilidades duras más importantes que un ingeniero de datos puede demostrar en su currículum son el análisis y la visualización de datos, ya que estas habilidades constituyen una gran parte del trabajo. También es importante que los científicos de datos tengan experiencia trabajando con software Cloud y otros softwares clave, así como con lenguajes de programación como Scala.

En lo que respecta a las competencias interpersonales, los ingenieros de datos deben tener, ante todo, una gran capacidad de pensamiento crítico. Los ingenieros de datos tienen que encontrar soluciones y estar abiertos a cambios de planes, por lo que la capacidad de adaptación también es crucial.

A continuación hemos recopilado una lista de las habilidades más importantes de los ingenieros de datos. Hemos clasificado las principales habilidades de los ingenieros de datos en función del porcentaje de currículums en los que aparecen. Por ejemplo, el 12,2% de los currículums de ingenieros de datos incluían python como habilidad. Continúa leyendo para descubrir qué habilidades necesita un ingeniero de datos para tener éxito en el lugar de trabajo.

15 COMPETENCIAS ESENCIALES DE UN INGENIERO DE DATOS PARA SU CURRÍCULUM Y SU CARRERA PROFESIONAL

1. Python

Python es un lenguaje de programación muy conocido. Se trata de un lenguaje de programación orientado a objetos y polivalente que puede utilizarse tanto para el desarrollo de software como para el desarrollo web.

Así se utiliza python en los currículums de los ingenieros de datos:

Desarrollo en Python de un programa de cotejo de textos difusos para identificar y eliminar redundancias en los instrumentos de los condados.
Desarrollo de un portal de calidad de datos mediante secuencias de comandos Python.
Implementación de scripts de automatización utilizando Python.
Desarrollo de herramientas internas para la minería de textos (análisis sentimental), y rastreador web para la recopilación de datos mediante Python y SQL.
Desarrollé varios scripts en Python para encontrar vulnerabilidades en consultas SQL mediante inyección SQL, verificación de permisos y análisis de rendimiento.

2. Java

Java es un lenguaje de programación ampliamente conocido, inventado en 1995 y propiedad de Oracle. Es un lenguaje del lado del servidor creado para permitir a los desarrolladores de aplicaciones “escribir una vez y ejecutar en cualquier lugar”. Es fácil y sencillo de aprender y utilizar y es potente, rápido y seguro. Este lenguaje de programación orientado a objetos permite reutilizar el código, lo que reduce automáticamente el coste de desarrollo. Java se utiliza especialmente para aplicaciones android, servidores web y de aplicaciones, juegos, conexiones a bases de datos, etc. Este lenguaje de programación está estrechamente relacionado con C++, lo que facilita a los usuarios el cambio entre ambos.

Así se utiliza Java en los currículums de los ingenieros de datos:

Configuración y optimización del clúster Cassandra y desarrollo de aplicaciones en tiempo real basadas en Java para trabajar con la base de datos Cassandra.
Desarrollo de componentes de automatización SparkSQL y responsable de la modificación del componente java para conectar directamente con el servidor thrift.
Diseño e implementación de trabajos Map Reduce para apoyar el procesamiento distribuido utilizando Java.
Creación de modelos de clasificación de aprendizaje automático optimizados, utilizando Java.
Trabajé en la escritura de transformadores/mapping Map-Reduce pipelines usando Java.

3. Nube

La nube es un servidor al que se accede a través de Internet. Hay diferentes programas y software que también se ejecutan en estos servidores. Se puede acceder a estas nubes desde cualquier parte del mundo, ya que no están presentes en el almacenamiento de su ordenador, sino que tienen sus servidores en línea. La nube está formada por centros de datos repartidos por todo el mundo.

Así se utiliza la nube en los currículums de los ingenieros de datos:

Trabajó con servicios de infraestructura en la nube de Amazon Web Services (AWS) y participó en ETL, integración y migración de datos.
Dirigió el ejercicio de desarrollo de capacidades para la incursión del banco en Big Data con MongoDb de código abierto y en la nube.
Traslado de servidores físicos a la nube AWS EC2 mediante la creación de varias instancias en la nube utilizando Elastic IP y Elastic Block Volumes.
Diseñó el marco de la aplicación, las estrategias de datos, las herramientas y las tecnologías utilizando las tecnologías Big Data y Cloud.
Creación de monitores, alarmas y notificaciones para hosts EC2 mediante Cloud Watch, Cloud trail y SNS.

4. ETL

Así se utiliza etl en los currículums de los ingenieros de datos:

Diseño de la arquitectura ETL y documentos de arquitectura y mapeo.
Desarrollo de trabajos ETL utilizando DataStage para rellenar modelos dimensionales.
Programación y supervisión de trabajos ETL y resolución de problemas.
Implantación de metadatos ETL y validación de datos.
Preparación de documentaciones de almacén de datos y ETL.

5. Scala

Scala es un lenguaje de programación moderno con múltiples paradigmas con los que se pueden expresar de forma concisa, elegante y fiable modelos y patrones de programación comunes. Scala fue creado por Martin Odersky y publicó su primera versión en 2003. Combina la programación funcional y la orientada a objetos en un lenguaje conciso de alto nivel. Muchas de las decisiones de diseño de Scala pretenden responder a las críticas a Java. Interopera sin problemas tanto con Java como con Javascript. Se considera un lenguaje de tipos estáticos y no tiene el concepto de datos primitivos.

Así es como se utiliza scala en los currículums de los ingenieros de datos:

Utilización de SCALA para almacenar datos en streaming en HDFS e implementación de Spark para un procesamiento más rápido de los datos.
Desarrollo de procesos ETL utilizando SPARK, SCALA, HIVE y HBASE.
Desarrollo de aplicaciones Scala utilizando el entorno Spring tool suits.
Mejora de la estabilidad y el rendimiento del complemento de Scala para Eclipse, gracias a los comentarios de clientes y usuarios internos sobre el producto.
Consolidación de los archivos pequeños para grandes conjuntos de datos utilizando spark Scala para crear tablas sobre los datos.

6. Kafka

Kafka es un tipo de software que memoria de datos para el almacenamiento, streaming y análisis de datos. Este software de código abierto se utiliza a menudo para recopilar extensos archivos de datos para el streaming de datos en tiempo real para desarrollar una nueva característica y crear conciencia de las actualizaciones para los nuevos consumidores o usuarios. Una de las características más convenientes del software es que es fiable, rápido, totalmente gratuito y está diseñado para grandes redes y empresas. Puede funcionar a través de varios servidores y les proporciona una capacidad de almacenamiento adicional.

Así se utiliza kafka en los currículums de los ingenieros de datos:

Diseño y configuración del clúster Kafka para dar cabida a mensajes de alto rendimiento por segundo.
Creación de temas Kafka y distribución a diferentes aplicaciones consumidoras.
Involucrado en el procesamiento de los datos de streaming, así como datos por lotes utilizando Apache Spark, Spark Streaming y Kafka.
Configuramos Spark Streaming para recibir datos en tiempo real desde Kafka y almacenarlos en HDFS.
Utilización de Apache Kafka como sistema de mensajería para cargar datos de registro y datos de aplicaciones de interfaz de usuario en el sistema HDFS.

7. NoSQL

Así se utiliza nosql en los currículums de los ingenieros de datos:

Utilizado Cassandra como base de datos NoSQL y adquirido muy buena experiencia de trabajo con bases de datos NoSQL.
Trabajó con MongoDB y utilizó NoSQL para el almacenamiento y la recuperación de datos no relacionales.
Trabajé en Apache Cassandra escribiendo rutinas NoSQL para datos de series temporales.
Introducción de los datos de los sensores en una base de datos NoSQL (MongoDB).
Trabajado en NoSQL incluyendo MongoDB y Cassandra.

8. Lago de datos

Así es como se utiliza el lago de datos en los currículums de los ingenieros de datos:

Diseñó y desarrolló un canal de ingestión crítico para procesar más de 100 TB de datos en un lago de datos.
Creación de scripts PigLatin para extraer los datos necesarios del gran lago de datos.
Arquitectura, diseño y desarrollo de la estructura, partición y procesamiento de Data Lake para gestionar grandes volúmenes de datos médicos.
Reducción del almacenamiento de datos en un 80% en hdfs, y recuperación de datos de Data Lake 3 veces más rápida.
Trabajó con arquitectura de lago de datos y configuración de entorno Hadoop para la ingesta de datos de reclamaciones y proveedores de múltiples fuentes.

9. Visualización

Así se utiliza la visualización en los currículums de los ingenieros de datos:

Informes de visualización de BI programados que ofrecen información sobre el rendimiento de los pacientes y ayudan a tomar decisiones a los investigadores de fármacos clínicos.
Proporcionó un marco interactivo de visualización de la red para responder y resolver rápidamente los problemas de disponibilidad de la red y las interrupciones del servicio.
Desarrollo de aplicaciones de visualización basadas en servidor que aprovechan el aprendizaje automático y la analítica predictiva para predecir el estado de los equipos.
Facilitó la elaboración centralizada de informes empresariales de BI con múltiples cuadros de mando e informes realizados con la herramienta de visualización Tableau.
Realización de análisis estadísticos de retención de CRM y desarrollo de un cuadro de mandos interactivo para la visualización de datos.

10. Análisis de datos

Así se utiliza la analítica de datos en los currículums de los ingenieros de datos:

Sintetizó y defendió ideas y recomendaciones a partir del análisis y la modelización de datos.
Desarrollo de análisis de datos basados en clics publicitarios para el análisis y la comprensión de palabras clave.
Diseñar la arquitectura para el aprovisionamiento de datos, el almacenamiento de datos, la extracción de datos, la transformación de datos y el análisis de datos.
Desarrollar nuevos métodos avanzados de segmentación y análisis de datos para seguir mejorando la plataforma de intercambio de medios digitales de NDN.
Implementación de la API Spark sobre YARN para realizar análisis de datos en Hive DB.

11. Redshift

Así es como se utiliza redshift en los currículums de los ingenieros de datos:

Desarrollo del marco de migración a la plataforma RedShift DW.
Diseñó el esquema en estrella del almacén de datos Redshift de producción para lograr el equilibrio adecuado entre rendimiento, coste y flexibilidad.
Investigó tecnologías de datos como AWS Redshift, Azure Data Warehouse, ScaleDB, MySQL y PostgreSQL.
Ajuste del rendimiento de Redshift DW mediante la creación de estilos de distribución y claves de ordenación adecuados en dimensiones y hechos.
Migración de la instancia de BI a la misma zona de disponibilidad que Redshift para ubicarla en la misma zona.

12. Canalización de datos

Así es como se utiliza la canalización de datos en los currículums de los ingenieros de datos:

Desarrollo de código para crear cuadros de mando o informes que permitan a los ejecutivos, responsables técnicos y jefes de producto supervisar el flujo de datos.
Desarrollo de canalizaciones de datos para analizar datos sin procesar y almacenarlos en tablas hive particionadas para la elaboración de informes y análisis.
Diseñé y desarrollé una canalización de datos sin pérdida de datos utilizando Flume y colas UM.
Creación y mantenimiento de varios canales de datos, fuentes de salida, informes y cubos.
Trabajos Map-Reduce nativos integrados en la canalización de datos PIG mediante el comando MAPREDUCE.

13. Potencia Bi

Así se utiliza el power bi en los currículums de los ingenieros de datos:

Creación de informes y cuadros de mando analíticos a partir de modelos multidimensionales para identificar indicadores clave de rendimiento críticos utilizando Power BI.
Power BI (Formación) Instalación y configuración de instancias siempre activas.
Configurar la actualización automática de las diversas fuentes de datos y paquetes de contenido, informes publicados en SharePoint utilizando Power BI.
Generación de cuadros de mando e informes para los directivos de alto nivel utilizando Power BI Desktop / servicio web.
Desarrollo de cuadros de mando y visualizaciones personalizados en Excel y Power BI.

14. EMR

Así se utiliza emr en los currículums de los ingenieros de datos:

Trabajó en Spark SQL y DataFrames para una ejecución más rápida de consultas Hive mediante Spark y AWS EMR.
Analizó los datos de EMR (historia clínica electrónica) heredados convertidos para comprobar su compatibilidad y precisión con Epic EMR.
Configuración de clústeres de Amazon EMR para Spark en YARN y nodos Cassandra.
Trabajo en EMR para analizar datos en buckets S3.
Script desarrollado para ejecutar Spark en EMR.

15. Azure

Así se utiliza Azure en los currículums de los ingenieros de datos:

Trabajó con el programador de Windows PowerShell y Azure para automatizar los trabajos de ingestión y transformación de datos en calendarios diarios y mensuales.
Preparar y presentar las métricas para la utilización del equipo y el estado del entorno en PowerBI, Power Point y SQL Azure.
Desarrollado una conexión JDBC para obtener los datos de Azure SQL y alimentar a un trabajo de Spark.
Proporcionar Gestión de Recursos y Configuración de un entorno de más de 100 servidores en Azure.
Solución proporcionada en el despliegue y la gestión de Microsoft Azure.

LISTA DE COMPETENCIAS DE INGENIERO DE DATOS PARA AÑADIR A SU CURRÍCULUM VITAE

Las competencias de ingeniero de datos más relevantes para tu currículum, según las últimas tendencias, incluyen:

Python
Java
Nube
ETL
Scala
Kafka
NoSQL
Lago de datos
Visualización
Análisis de datos
Redshift
Canalización de datos
Potencia Bi
EMR
Azure

Análisis de datos
Calidad de los datos
Tratamiento de datos
Almacén de datos
BI
GIT
HBase
Apache Spark
Servicios web de Amazon
Almacenamiento de datos
Linux
Bases de datos relacionales
API
Extracción
Servidor SQL

CE2
HDFS
Jenkins
Ingesta de datos
Computación en nube
Elasticsearch
MapReduce
Informatica
Unix
JavaScript
Microservicios
Ssis
Apache Kafka