Actividad de clasificación supervisada utilizando Orange
El objetivo de esta práctica es resolver un problema de aprendizaje supervisado mediante el uso de diferentes algoritmos de clasificación. Se deberá seleccionar y cargar un conjunto de datos nuevo (distinto a los utilizados en clase), entrenar y comparar varios modelos de clasificación y analizar los resultados obtenidos a través de las herramientas de visualización que ofrece Orange.
Instrucciones generales
-
Selección del conjunto de datos
-
Se debe cargar un conjunto de datos distinto a los empleados en la sesión de clase.
-
Puede utilizarse un dataset incluido en Orange, uno descargado de fuentes abiertas (por ejemplo, Kaggle o UCI Machine Learning Repository) o incluso un conjunto de imágenes.
-
Si el dataset no está incluido en Orange, debe adjuntarse en formato
.zipjunto con la entrega.
-
-
Modelado
-
Probar al menos dos algoritmos de clasificación supervisada, entre los siguientes:
-
Árboles de decisión
-
Vecinos más cercanos (kNN)
-
Máquinas de vectores de soporte (SVM)
-
Redes de neuronas (Neural Network)
-
-
-
Evaluación
-
Utilizar los widgets de Test & Score y Confusion Matrix para evaluar el rendimiento de los modelos.
-
Identificar qué modelo presenta el mejor desempeño.
-
-
Visualización
-
Emplear herramientas de visualización de Orange (por ejemplo, Scatter Plot) para observar patrones o diferencias entre clases.
-
Archivos a entregar
La entrega deberá incluir los siguientes archivos:
-
Documento explicativo (formato PDF o Word)
Debe contener:-
Breve descripción del dataset (fuente, número de instancias, variables, objetivo de predicción).
-
Listado de los modelos de clasificación probados.
-
Resultados obtenidos. ¿Qué modelo funcionó mejor?
-
-
Archivo de proyecto de Orange (
.ows)-
Contendrá el flujo completo del experimento: carga de datos, preprocesamiento, modelado, evaluación y visualización.
-
-
Archivo comprimido (
.zip) con el dataset-
Solo en caso de que el dataset no esté incluido en Orange.
-