cmendezc

Last README

1 # Ejercicio: Clasificación de oraciones sobre dominios estructurales de proteínas 1 # Ejercicio: Clasificación de oraciones sobre dominios estructurales de proteínas
2 +
2 ## Descripción 3 ## Descripción
3 - Clasificación 4 - Clasificación
4 - binaria 5 - binaria
...@@ -6,10 +7,30 @@ ...@@ -6,10 +7,30 @@
6 - Categorías 7 - Categorías
7 - Oraciones sobre dominio estructural (DOM) 8 - Oraciones sobre dominio estructural (DOM)
8 - Oraciones sobre otro tema (OTHER) 9 - Oraciones sobre otro tema (OTHER)
10 +
9 ### Tarea 11 ### Tarea
10 -Desarrolle varios clasificador utilizando los siguientes métodos de aprendizaje de máquina (tradicionales): SVM, Naïve Bayes, Decision Tree, Random Forest para clasificar un conjunto de oraciones en las categorías mencionadas. 12 +Desarrolle varios clasificador utilizando los siguientes métodos de aprendizaje de máquina
13 +(tradicionales): SVM, Naïve Bayes, Decision Tree, Random Forest
14 +para clasificar un conjunto de oraciones en las categorías mencionadas.
15 +
11 ### Datos de entrada 16 ### Datos de entrada
12 - trainData.txt Oraciones de entrenamiento 17 - trainData.txt Oraciones de entrenamiento
13 - trainClasses.txt Categorías de oraciones de entrenamiento 18 - trainClasses.txt Categorías de oraciones de entrenamiento
14 - testData.txt Oraciones de evaluación 19 - testData.txt Oraciones de evaluación
15 - testClasses.txt Categorías de oraciones de evaluación 20 - testClasses.txt Categorías de oraciones de evaluación
21 +
22 +## Requerimientos
23 +- Python y scikit-learn
24 +- Probar diferentes características (grid de entrenamiento):
25 + - Palabras
26 + - Lemmas
27 + - Lemmas y etiquetas POS
28 + - Unigramas y bigramas
29 + - Con y sin stops words
30 +- Almacenar reporte de resultados de entrenamiento y evaluación
31 +- Almacenar gráfico de matriz de confusión
32 +- Evaluar con F-score, Precision, Recall, AUC, gráfica de Precision-Recall, gráfica ROC
33 +- Almacenar modelo entrenado en archivo (joblib)
34 +- Afinación de hiperparámetros con método RandomizedGridCV
35 +
36 +
......