miércoles, 27 de noviembre de 2019

Las 7+ herramientas del analista de datos


Asi como el carpintero no sería carpintero sin un martillo, destornillador y demás, asi mismo el analista de datos debe rodearse de ciertas herramientas para realizar una obra de arte con los datos que se le entregan.

A continuación, se presentan las 7+ herramientas vitales que debe considerar un analista/científico de datos a la hora de realizar su trabajo. Debido a la cantidad inmensa de herramientas gratuitas dispuestas para profesionales de datos, la lista que se presenta a continuacion son de uso libre o bien conocidas como open source. En otra ocasion se hablará de las herramientas de pago por uso.

Lenguajes de Programación

Si echas un vistazo a las ofertas de empleo para analista/cientifico de datos en canales como elempleo.com, LinkedIn, Computrabajo, etc. Notarás cómo se repite una y otra vez alguna de las siguientes palabras: Python, R y SQL. Sin duda todo analista/cientifico de datos debe, al menos, manejar alguno de estos 3 lenguajes de programacion (preferiblemente los tres en conjunto)

1. Python

Python es un lenguaje de programación orientado a objetos. Actualmente es el lenjuaje más usado (junto a R) en el campo de la analitica de datos. La gran ventaja de Python es que no solo es utilizado para analisis de datos sino que tambien se usa para desarrollo web (usando el framework Django, por ejemplo) o tambien para desarrollo de aplicaciones de escritorio (a traves de librerias como Tkinter, por ejemplo)

2. R

R es un lenguaje que encuentra todo su potencial en la analitica de datos estadisticos. Presenta unos graficos geniales a la hora de representar los datos graficamente (Utilizando la libreria ggplot2, por ejemplo). Nació en los 90' y cada dia es un lenguaje que abraza gran campo para muchos analistas.

3. SQL

SQL (Structured Query Language) es un lenguaje de consultas estructuradas. Es un lenguaje que se usa de complemento a Python o R para el analisis de datos. Por medio de este lenguaje se crean tablas, se realizan consultas y se realizan operaciones para modificar los datos de dichas consultas.

Software

4. Anaconda

Anaconda es un software de distribucion libre de los paquetes de Python y R para la analítica/ciencia de datos y para Machine Learning.

5. RStudio 

RStudio es un entorno de desarrollo integrado para trabajar en R. Proporciona un editor de código, consola de R y herramientas para graficar y analizar datos. Es de código abierto y posee una gran comunidad alrededor del mundo que brinda gran soporte.

6. Jupyter Notebook

Jupyter es un entorno de trabajo interactivo en el cual se puede desarrollar código en Python y R para analisis y visualizacion de datos. Jupyter Es un software que viene integrado en Anaconda.


Paquetería

7+. Paquetes y/o librerias de codigo abierto para analisis/ciencia de datos y/o Machine Learning

Para Python: Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, etc.

Para R: Tidyverse (incluye librerias como readr para importar datos, ggplot2 para graficar datos, etc), mlr, Shiny, etc.

Conclusion

Para terminar se deja claro que el analista/cientifico de datos debe fortalecerse en Python, R y SQL y varias de las librerias de estos lenguajes. Asi mismo se debe apoyar en algunos software como Anaconda para disponer de dichos lenguajes y sus respectivos paquetes/librerias. Sin duda el analisis de datos todavia esta en sus inicios y es importarnte mantnerse a la vanguardia y dotado con las herramientas que permitirán crear modelos de datos impresionantes.

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.