Training, crossvalidation and testing structural domain dataset

Carlos-Francisco Méndez-Cruz
Commit 72cd75d868dd226f2233fd11f54a40661e2fe223 72cd75d8 1 parent 80d4618d
Showing 1 changed file with 7 additions and 17 deletions
clasificacion-automatica/structural-domain-dataset/training-crossvalidation-testing-dom.py
--- a/clasificacion-automatica/structural-domain-dataset/training-crossvalidation-testing-dom.py
View file @72cd75d
+++ b/clasificacion-automatica/structural-domain-dataset/training-crossvalidation-testing-dom.py
View file @72cd75d
@@ -36,6 +36,7 @@ __author__ = 'CMendezC'
 # 11) --kernel Kernel
 # 12) --reduction Feature selection or dimensionality reduction
 # 13) --removeStopWords Remove most frequent words
+# 14) --vectorizer Vectorizer: b=binary, f=frequency, t=tf-idf.
 # Ouput:
@@ -43,22 +44,6 @@ __author__ = 'CMendezC'
 # Execution:
-# python training-crossvalidation-testing-dom.py
-# --inputPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset
-# --inputTrainingData trainData.txt
-# --inputTrainingClasses trainClasses.txt
-# --inputTestingData testData.txt
-# --inputTestingClasses testClasses.txt
-# --outputModelPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/models
-# --outputModelFile SVM-lineal-model.mod
-# --outputReportPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/reports
-# --outputReportFile SVM-lineal.txt
-# --classifier SVM
-# --saveData
-# --kernel linear
-# --reduction SVD200
-# --removeStopWords
-
 # source activate python3
 # python training-crossvalidation-testing-dom.py
 # --inputPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset
@@ -75,7 +60,8 @@ __author__ = 'CMendezC'
 # --kernel linear
 # --reduction SVD200
 # --removeStopWords
-# python training-crossvalidation-testing-dom.py --inputPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset --inputTrainingData trainData.txt --inputTrainingClasses trainClasses.txt --inputTestingData testData.txt --inputTestingClasses testClasses.txt --outputModelPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/models --outputModelFile SVM-lineal-model.mod --outputReportPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/reports --outputReportFile SVM-lineal.txt --classifier SVM --kernel linear
+# --vectorizer b
+# python training-crossvalidation-testing-dom.py --inputPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset --inputTrainingData trainData.txt --inputTrainingClasses trainClasses.txt --inputTestingData testData.txt --inputTestingClasses testClasses.txt --outputModelPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/models --outputModelFile SVM-lineal-model.mod --outputReportPath /home/compu2/bionlp/lcg-bioinfoI-bionlp/clasificacion-automatica/structural-domain-dataset/reports --outputReportFile SVM-lineal.txt --classifier SVM --kernel linear --saveData --vectorizer b
 # --reduction SVD200
 # --removeStopWords
@@ -124,6 +110,9 @@ if __name__ == "__main__":
     parser.add_argument("--ngrfinal", type=int,
                       dest="ngrfinal", default=1,
                       help="Final n-gram", metavar="INTEGER")
+    parser.add_argument("--vectorizer", dest="vectorizer", required=True,
+                      help="Vectorizer: b=binary, f=frequency, t=tf-idf", metavar="CHAR",
+                      choices=('b', 'f', 't'), default='b')
     args = parser.parse_args()
@@ -145,6 +134,7 @@ if __name__ == "__main__":
     print("Remove stop words: " + str(args.removeStopWords))
     print("Initial ngram: " + str(args.ngrinitial))
     print("Final ngram: " + str(args.ngrfinal))
+    print("Vectorizer: " + str(args.vectorizer))
     # Start time
     t0 = time()