El Analista de Datos: ¿Qué es Machine Learning?

¿Qué es Machine Learning?

Después de Leer el Libro “Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow by Aurélien Géron” Me gustaría compartir, a continuación, algunas notas relevantes a cerca de la teoría sobre Machine Learning. Espero les guste y sea de mucha ayuda.

¿Qué es el Machine Learning?
El aprendizaje automático es la ciencia (y el arte) de la programación de computadoras para que puedan aprender de los datos.
Arthur Samuel, 1959 definió: "[Machine Learning] es el campo de estudio que brinda a las computadoras la capacidad de aprender sin ser programado explícitamente".

Por ejemplo, el filtro de correo no deseado es un programa de Machine Learning que puede aprender a marcar el correo no deseado dados ejemplos de correos electrónicos no deseados (por ejemplo, marcados por los usuarios) y ejemplos de correos electrónicos normales.

Machine Learning es ideal cuando se presentan los siguientes problemas:

• Problemas para los que las soluciones existentes requieren mucho ajuste manual o largas listas de reglas: un algoritmo de Machine Learning a menudo puede simplificar el código y funcionar mejor.
• Problemas complejos para los que no hay una buena solución usando un enfoque tradicional: las mejores técnicas de Machine Learning pueden encontrar una solución.
• Entornos fluctuantes: un sistema de Machine Learning puede adaptarse a nuevos datos.
• Obtener información sobre problemas complejos y grandes cantidades de datos.

¿Cuáles son los tipos de sistemas de Machine Learning?

Hay varios tipos de sistemas de Machine Learning y resulta muy útil clasificarlos.

Aprendizaje supervisado

En el aprendizaje supervisado, los datos de entrenamiento que proporcionamos al algoritmo incluyen las soluciones deseadas, llamadas etiquetas.
Una tarea típica de aprendizaje supervisado es la clasificación. El filtro de spam es un buen ejemplo de esto: está entrenado con muchos correos electrónicos de ejemplo junto con su clase (spam o normal), y debe aprender cómo clasificar nuevos correos electrónicos. Otra tarea típica es predecir un valor numérico objetivo, como el precio de un automóvil, dado un conjunto de características (kilometraje, antigüedad, marca, etc.). Este tipo de tarea se llama regresión. Las características también son llamadas predictoras, variables independientes, atributos, etc.
Estos son algunos de los algoritmos de aprendizaje supervisado más importantes:

k-Vecinos más cercanos
Regresión lineal
Regresión logística
Máquinas de vectores de soporte (SVM)
Árboles de decisión
Random Forest

Aprendizaje No Supervisado

En el aprendizaje no supervisado, los datos de entrenamiento no están etiquetados
Algunos de los algoritmos de aprendizaje no supervisados más importantes:

K-medias
Análisis jerárquico de conglomerados (HCA)
Análisis de componentes principales (PCA)
Asociación de aprendizaje de reglas

Por ejemplo, supongamos que tiene muchos datos sobre los visitantes de su blog. Es posible que desee ejecutar un algoritmo de agrupación para tratar de detectar grupos de visitantes similares. En ningún momento le dice al algoritmo a qué grupo pertenece un visitante (encuentra esas conexiones sin su ayuda). Por ejemplo, puede notar que el 40% de sus visitantes son hombres que aman los cómics y generalmente leen su blog por la noche, mientras que el 20% son jóvenes amantes de la ciencia ficción que visitan los fines de semana, y así sucesivamente. Si utiliza un algoritmo de agrupamiento jerárquico, también puede subdividir cada grupo en grupos más pequeños. Esto puede ayudar a orientar las publicaciones para cada grupo.

Otra tarea importante no supervisada es la detección de anomalías, por ejemplo, detectar transacciones inusuales de tarjetas de crédito para evitar fraudes, detectar defectos de fabricación o eliminar automáticamente valores atípicos de un conjunto de datos antes de alimentarlo a otro algoritmo de aprendizaje. El sistema se muestra en su mayoría instancias normales durante el entrenamiento, por lo que aprende a reconocerlas y cuando ve una nueva instancia puede decir si se ve normal o si es probable que sea una anomalía.

Aprendizaje Semisupervisado

Algunos algoritmos pueden manejar datos de entrenamiento parcialmente etiquetados, generalmente una gran cantidad de datos sin etiquetar y un poco de datos etiquetados. Esto se llama aprendizaje semisupervisado.

El Analista de Datos

lunes, 18 de mayo de 2020

¿Qué es Machine Learning?

No hay comentarios:

Publicar un comentario

Entrada destacada

Predición de Enfermedades Cardiacas Aplicando Modelos de Machine Learning y Data Mining

Entradas populares