¿Qué es el Machine Learning?


1

Escribir «¿qué es el Machine Learning o aprendizaje automático?» en una búsqueda de Google abre una caja de Pandora de foros, investigaciones académicas e información falsa, y el propósito de este artículo es simplificar la definición y la comprensión del Machine Learning gracias a la ayuda directa de nuestro panel de investigadores de dicha disciplina.

En Emerj, la empresa de investigación y asesoría de la IA, muchos de nuestros clientes empresariales sienten que deberían estar invirtiendo en proyectos de aprendizaje automático, pero no tienen una idea clara de lo que es. A menudo los dirigimos a este recurso para que se inicien en los fundamentos del aprendizaje automático en los negocios.

Además de una definición informada y práctica del machine learning, detallamos los desafíos y limitaciones de hacer que las máquinas «piensen», algunas de las cuestiones que se abordan hoy en día en el aprendizaje profundo (la frontera del aprendizaje automático), y las claves para desarrollar aplicaciones de aprendizaje automático para casos de uso empresarial.

«El aprendizaje automático es la ciencia de hacer que las computadoras aprendan y actúen como los humanos, y mejoren su aprendizaje con el tiempo de manera autónoma, alimentándolos con datos e información en forma de observaciones e interacciones en el mundo real».

Múltiples definiciones… según a quién preguntes

Como con cualquier concepto, el aprendizaje de la máquina puede tener una definición ligeramente diferente, dependiendo de a quién se le pregunte. Peinamos la Internet para encontrar cinco definiciones prácticas de fuentes acreditadas:

«El aprendizaje automático en su forma más básica es la práctica de usar algoritmos para analizar los datos, aprender de ellos, y luego hacer una determinación o predicción sobre algo en el mundo.» – Nvidia
«El aprendizaje automático es la ciencia de hacer que los ordenadores actúen sin ser programados explícitamente». – Stanford
«El aprendizaje de las máquinas se basa en algoritmos que pueden aprender de los datos sin depender de la programación basada en reglas». – McKinsey & Co.
«Los algoritmos de aprendizaje automático pueden averiguar cómo realizar tareas importantes generalizando a partir de ejemplos.» – Universidad de Washington
«El campo del aprendizaje automático busca responder a la pregunta «¿Cómo podemos construir sistemas informáticos que mejoren automáticamente con la experiencia, y cuáles son las leyes fundamentales que rigen todos los procesos de aprendizaje?» – Universidad Carnegie Mellon

Conceptos básicos del Machine Learning

Hay muchos tipos diferentes de algoritmos de aprendizaje automático, con cientos de ellos publicados cada día, y suelen agruparse por estilo de aprendizaje (es decir, aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semisupervisado) o por similitud de forma o función (es decir, clasificación, regresión, árbol de decisiones, agrupación, aprendizaje profundo, etc.). Independientemente del estilo o función de aprendizaje, todas las combinaciones de algoritmos de aprendizaje automático consisten en lo siguiente:

  • Representación (un conjunto de clasificadores o el lenguaje que una computadora entiende)
  • Evaluación (también conocida como objetivo/función de puntuación)
  • Optimización (método de búsqueda; a menudo el clasificador de mayor puntuación, por ejemplo; se utilizan tanto métodos de optimización estándar como personalizados)

El objetivo fundamental de los algoritmos de aprendizaje de la máquina es generalizar más allá de las muestras de entrenamiento, es decir, interpretar con éxito los datos que nunca antes ha «visto».

Retos y limitaciones

«El aprendizaje automático no puede obtener algo de la nada… lo que hace es obtener más de menos.» – Dr. Pedro Domingo, Universidad de Washington

Los dos mayores problemas históricos (y actuales) del Machine Learning o aprendizaje automático han sido el exceso de adaptación (en el que el modelo muestra un sesgo hacia los datos de capacitación y no se generaliza a nuevos datos, y/o la variabilidad, es decir, aprende cosas al azar cuando se entrena con nuevos datos) y la dimensionalidad (los algoritmos con más características funcionan en dimensiones superiores/múltiples, lo que dificulta la comprensión de los datos). El acceso a un conjunto de datos suficientemente grande también ha sido en algunos casos un problema primordial.

Uno de los errores más comunes entre los principiantes del aprendizaje automático es probar con éxito los datos del entrenamiento y tener la ilusión del éxito; Domingo (y otros) destacan la importancia de mantener algunos de los conjuntos de datos separados cuando se prueban los modelos, y sólo utilizar esos datos reservados para probar un modelo elegido, seguido del aprendizaje sobre el conjunto de datos.

Cuando un algoritmo de aprendizaje (es decir, de aprendizaje) no funciona, a menudo el camino más rápido hacia el éxito es alimentar la máquina con más datos, cuya disponibilidad ya es bien conocida como principal impulsor del progreso de los algoritmos de máquina y de aprendizaje profundo en los últimos años; sin embargo, esto puede dar lugar a problemas de escalabilidad, en los que tenemos más datos pero el tiempo para aprender esos datos sigue siendo un problema.

David Palacios
Últimas entradas de David Palacios (ver todo)

Like it? Share with your friends!

1

0 Comments

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *