Name Last Update
..
data Loading commit data...
README.md Loading commit data...

Ejercicio: Clasificación de oraciones sobre dominios estructurales de proteínas

Descripción

  • Clasificación
    • binaria
    • One-of (categorías excluyentes)
  • Categorías
    • Oraciones sobre dominio estructural (DOM)
    • Oraciones sobre otro tema (OTHER)

Tarea

Desarrolle varios clasificador utilizando los siguientes métodos de aprendizaje de máquina (tradicionales): SVM, Naïve Bayes, Decision Tree, Random Forest para clasificar un conjunto de oraciones en las categorías mencionadas.

Datos de entrada

  • trainData.txt Oraciones de entrenamiento
  • trainClasses.txt Categorías de oraciones de entrenamiento
  • testData.txt Oraciones de evaluación
  • testClasses.txt Categorías de oraciones de evaluación

Requerimientos

  • Python y scikit-learn
  • Probar diferentes características (grid de entrenamiento):
    • Palabras
    • Lemmas
    • Lemmas y etiquetas POS
    • Unigramas y bigramas
    • Con y sin stops words
  • Almacenar reporte de resultados de entrenamiento y evaluación
  • Almacenar gráfico de matriz de confusión
  • Evaluar con F-score, Precision, Recall, AUC, gráfica de Precision-Recall, gráfica ROC
  • Almacenar modelo entrenado en archivo (joblib)
  • Afinación de hiperparámetros con método RandomizedGridCV