upload

Estefani Gaytan Nunez
Commit f91c3acb70a5a5f7bdbe0bf3b0a9d2926ae4ccac f91c3acb 1 parent 1d5f7e2b
Showing 6 changed files with 39 additions and 34 deletions
predict-annot/bin/tagging/tagging_v2.py
predict-annot/output/annot-input_bg_outputIII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
predict-annot/output/annot-input_bg_outputII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
predict-annot/output/annot-input_bg_outputI_v5.txt_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
predict-annot/reports/annot-input_bg_report_v4.txt
predict-annot/reports/output_tagging_report_v5.txt
--- a/predict-annot/bin/tagging/tagging_v2.py
View file @f91c3ac
+++ b/predict-annot/bin/tagging/tagging_v2.py
View file @f91c3ac
@@ -138,7 +138,8 @@ if __name__ == "__main__":
             sentencesOutputDataI = []
             # Preprocessing input sentences
             with open(os.path.join(options.inputPath, file), "r") as iFile:
-                sentencesInputData = [ line.strip('\n').split() for line in iFile]
+                lines = iFile.readlines()
+                sentencesInputData = [ line.strip('\n').split() for line in lines]
                 # Save input sentences    
                 X_input = [training.sent2features(s, options.S1, options.S2, options.S3, options.S4, options.variant) for s in sentencesInputData]
                 print("Sentences input data: " + str(len(sentencesInputData)))               
@@ -148,12 +149,13 @@ if __name__ == "__main__":
                 print("Predicting tags with model...")
                 y_pred = crf.predict(X_input)
+                #print(y_pred)
                 print("Prediction done in: %fs" % (time() - t1))                
                 ########################################### Tagging with CRF model ###########################################
                 print("Tagging file...")
                 lidx = 0
-                for line, tagLine in zip(iFile.readlines(), y_pred):
+                for line, tagLine in zip(lines, y_pred):
                     # unique tags
                     Ltags = set(labels).intersection(set(tagLine))
                     # Skip untagged sentence
@@ -178,6 +180,7 @@ if __name__ == "__main__":
                         else:                             
                             outputLine = line.split(' ')[0]
                         # Saving Sentence Ouput I
+                        print(outputLine)
                         sentencesOutputDataI.append(idx[lidx].replace('\n','\t') + outputLine + '\t' + ', '.join(Ltags))
                         # Increase sentence counter
                         lidx += 1
@@ -212,41 +215,43 @@ if __name__ == "__main__":
                         outputLine += word.split('|')[0] + ' '
                         i += 1                        
                     # Saving Sentence Ouput I 
+                    print(outputLine)
                     sentencesOutputDataI.append(idx[lidx].replace('\n', '\t') + outputLine+ '\t' +', '.join(Ltags))
                     lidx += 1
+                
                 print("\n".join(sentencesOutputDataI[1:3]))
-                ########################################### Save Output I ##########################################
+            ########################################### Save Output I ##########################################
-                print("Saving Ouput I...")
+            print("Saving Ouput I...")
-                with open(os.path.join(options.outputPath, options.outFileI + '_' + options.modelName + '.tsv'), "w") as oFileI:
+            with open(os.path.join(options.outputPath, options.outFileI + '_' + options.modelName + '.tsv'), "w") as oFileI:
-                    for line in sentencesOutputDataI:
+                for line in sentencesOutputDataI:
-                        if re.findall('</', line):
+                    if re.findall('</', line):
-                            #print(line)
+                        #print(line)
-                            oline = line.replace('LDR','(')
-                            oline = oline.replace('RDR',')')
-                            oFileI.write(oline + '\n')
-                            
-                ########################################### Save Output II ##########################################
-                print("Saving Ouput II...")
-                with open(os.path.join(options.outputPath, options.outFileII + '_' + options.modelName + '.tsv'), "w") as oFileII:
-                    for line in sentencesOutputDataI:
                         oline = line.replace('LDR','(')
                         oline = oline.replace('RDR',')')
-                        for ttex, tag in re.findall(r'<[^>]+>([^<]+)</([^>]+)>', oline):
+                        oFileI.write(oline + '\n')
-                            lline = oline.split('\t')[0:-2] + [ttex, tag]
-                            nline = '\t'.join(lline)
-                            oFileII.write(nline  + '\n')
-                            
-                ########################################### Save Output III ##########################################
-                print("Saving Ouput III...")
-                with open(os.path.join(options.outputPath, options.outFileIII + '_' + options.modelName + '.tsv'), "w") as oFileIII:
-                    for line, tagLine in zip(iFile.readlines(), y_pred):                    
-                        oline = [ w.split('|')[0].replace('LDR','(').replace('LDR','(')+'|'+tag for w,tag in zip(line.split(' '), tagLine)]
-                        oFileIII.write(' '.join(oline) + '\n')  
+            ########################################### Save Output II ##########################################
-                
+            print("Saving Ouput II...")
-                ########################################### Save Probs ##########################################
+            with open(os.path.join(options.outputPath, options.outFileII + '_' + options.modelName + '.tsv'), "w") as oFileII:
-                y_probs = crf.predict_marginals(X_input)
+                for line in sentencesOutputDataI:
-                # from https://stackoverflow.com/questions/7100125/storing-python-dictionaries
+                    oline = line.replace('LDR','(')
-                with open(os.path.join(options.outputPath, 'crf_probs.json'), 'w') as fp:
+                    oline = oline.replace('RDR',')')
-                    json.dump(y_probs, fp)
+                    for ttex, tag in re.findall(r'<[^>]+>([^<]+)</([^>]+)>', oline):
-    print("Processing corpus done in: %fs" % (time() - t0))
+                        lline = oline.split('\t')[0:-2] + [ttex, tag]
+                        nline = '\t'.join(lline)
+                        oFileII.write(nline  + '\n')
+                        
+            ########################################### Save Output III ##########################################
+            print("Saving Ouput III...")
+            with open(os.path.join(options.outputPath, options.outFileIII + '_' + options.modelName + '.tsv'), "w") as oFileIII:
+                for line, tagLine in zip(lines, y_pred):                    
+                    oline = [ w.split('|')[0].replace('LDR','(').replace('LDR','(')+'|'+tag for w,tag in zip(line.split(' '), tagLine)]
+                    
+                    oFileIII.write(' '.join(oline) + '\n')  
+            
+            ########################################### Save Probs ##########################################
+            y_probs = crf.predict_marginals(X_input)
+            # from https://stackoverflow.com/questions/7100125/storing-python-dictionaries
+            with open(os.path.join(options.outputPath, 'crf_probs.json'), 'w') as fp:
+                json.dump(y_probs, fp)
+    print("Pssing corpus done in: %fs" % (time() - t0))
--- a/predict-annot/output/annot-input_bg_outputIII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
+++ b/predict-annot/output/annot-input_bg_outputIII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
--- a/predict-annot/output/annot-input_bg_outputII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
+++ b/predict-annot/output/annot-input_bg_outputII_v5_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
--- a/predict-annot/output/annot-input_bg_outputI_v5.txt_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
+++ b/predict-annot/output/annot-input_bg_outputI_v5.txt_model_Run3_v10_S1_False_S2_True_S3_False_S4_False_Run3_v10.tsv
View file @f91c3ac
--- a/predict-annot/reports/annot-input_bg_report_v4.txt 0 → 100644
View file @f91c3ac
+++ b/predict-annot/reports/annot-input_bg_report_v4.txt 0 → 100644
View file @f91c3ac
--- a/predict-annot/reports/output_tagging_report_v5.txt
View file @f91c3ac
+++ b/predict-annot/reports/output_tagging_report_v5.txt
View file @f91c3ac