# Ejercicio: Clasificación de oraciones sobre dominios estructurales de proteínas
## Descripción
- Clasificación
- binaria
...
...
@@ -6,10 +7,30 @@
- Categorías
- Oraciones sobre dominio estructural (DOM)
- Oraciones sobre otro tema (OTHER)
### Tarea
Desarrolle varios clasificador utilizando los siguientes métodos de aprendizaje de máquina (tradicionales): SVM, Naïve Bayes, Decision Tree, Random Forest para clasificar un conjunto de oraciones en las categorías mencionadas.
Desarrolle varios clasificador utilizando los siguientes métodos de aprendizaje de máquina
(tradicionales): SVM, Naïve Bayes, Decision Tree, Random Forest
para clasificar un conjunto de oraciones en las categorías mencionadas.
### Datos de entrada
- trainData.txt Oraciones de entrenamiento
- trainClasses.txt Categorías de oraciones de entrenamiento
- testData.txt Oraciones de evaluación
- testClasses.txt Categorías de oraciones de evaluación
## Requerimientos
- Python y scikit-learn
- Probar diferentes características (grid de entrenamiento):
- Palabras
- Lemmas
- Lemmas y etiquetas POS
- Unigramas y bigramas
- Con y sin stops words
- Almacenar reporte de resultados de entrenamiento y evaluación
- Almacenar gráfico de matriz de confusión
- Evaluar con F-score, Precision, Recall, AUC, gráfica de Precision-Recall, gráfica ROC
- Almacenar modelo entrenado en archivo (joblib)
- Afinación de hiperparámetros con método RandomizedGridCV