Kevin Meza Landeros

extraction

1 +#!/bin/python3
2 +import os
3 +from itertools import chain
4 +from optparse import OptionParser
5 +from time import time
6 +from collections import Counter
7 +import re
8 +
9 +import nltk
10 +import sklearn
11 +import scipy.stats
12 +import sys
13 +
14 +from sklearn.externals import joblib
15 +from sklearn.metrics import make_scorer
16 +from sklearn.cross_validation import cross_val_score
17 +from sklearn.grid_search import RandomizedSearchCV
18 +
19 +import sklearn_crfsuite
20 +from sklearn_crfsuite import scorers
21 +from sklearn_crfsuite import metrics
22 +
23 +from nltk.corpus import stopwords
24 +import random
25 +
26 +
27 +# Objective
28 +# Labaled separated by '|' and split 70/30 sentences on training and tets files from CoreNLP-tagging
29 +#
30 +# Input parameters
31 +# --inputPath=PATH Path of inputfile
32 +# --outputPath=PATH Path to place output files
33 +# --trainingFile=testFile Output training data set
34 +# --testFile=testFile Output test data set
35 +#
36 +# Output
37 +# training and test data set
38 +#
39 +# Examples
40 +# python label-split_training_test_v1.py
41 +# --inputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/output/
42 +# --inputFile sentences.tsv_pakal_.conll
43 +# --trainingFile training-data-set-70.txt
44 +# --testFile test-data-set-30.txt
45 +# --outputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CRF/data-sets
46 +#
47 +#
48 +# python label-split_training_test_v1.py --inputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/output/ --inputFile sentences.tsv_pakal_.conll --trainingFile training-data-set-70.txt --testFile test-data-set-30.txt --outputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CRF/data-sets
49 +
50 +
51 +##########################################
52 +# MAIN PROGRAM #
53 +##########################################
54 +
55 +if __name__ == "__main__":
56 + # Defining parameters
57 + parser = OptionParser()
58 + parser.add_option("--inputPath", dest="inputPath",
59 + help="Path of output from CoreNLP", metavar="PATH")
60 + parser.add_option("--outputPath", dest="outputPath",
61 + help="Output path to place output files",
62 + metavar="PATH")
63 + parser.add_option("--inputFile", dest="inputFile",
64 + help="File with CoreNLP-tagging sentences", metavar="FILE")
65 + parser.add_option("--trainingFile", dest="trainingFile",
66 + help="File with training data set", metavar="FILE")
67 + parser.add_option("--testFile", dest="testFile",
68 + help="File with test data set", metavar="FILE")
69 +
70 + (options, args) = parser.parse_args()
71 + if len(args) > 0:
72 + parser.error("Any parameter given.")
73 + sys.exit(1)
74 +
75 + print('-------------------------------- PARAMETERS --------------------------------')
76 + print("Path of CoreNLP output: " + options.inputPath)
77 + print("File with CoreNLP-tagging sentences: " + str(options.inputFile))
78 + print("Path of training data set: " + str(options.outputPath))
79 + print("File with training data set: " + str(options.trainingFile))
80 + print("Path of test data set: " + str(options.outputPath))
81 + print("File with test data set: " + str(options.testFile))
82 + print('-------------------------------- PROCESSING --------------------------------')
83 + ## begin of tagging
84 + in_labels = {
85 + '<Gtype>': 'Gtype',
86 + '<Gversion>': 'Gversion',
87 + '<Med>': 'Med',
88 + '<Phase>': 'Phase',
89 + '<Sample>': 'Sample',
90 + '<Serie>': 'Serie',
91 + '<Substrain>': 'Substrain',
92 + '<Supp>': 'Supp',
93 + '<Technique>': 'Technique',
94 + '<Temp>': 'Temp',
95 + '<OD>': 'OD',
96 + '<Anti>': 'Anti',
97 + '<Agit>': 'Agit',
98 + '<Vess>': 'Vess'
99 + }
100 + ## End of tagging
101 + out_labels = {
102 + '</Air>': 'O',
103 + '</Gtype>': 'O',
104 + '</Gversion>': 'O',
105 + '</Med>': 'O',
106 + '</Phase>': 'O',
107 + '</Sample>': 'O',
108 + '</Serie>': 'O',
109 + '</Strain>': 'O',
110 + '<Strain>': 'O',
111 + '</Substrain>': 'O',
112 + '</Supp>': 'O',
113 + '</Technique>': 'O',
114 + '</Temp>': 'O',
115 + '</OD>': 'O',
116 + '</Anti>': 'O',
117 + '</Agit>': 'O',
118 + '<Name>': 'O',
119 + '</Name>': 'O',
120 + '<Orgn>': 'O',
121 + '</Orgn>': 'O',
122 + '</Vess>': 'O'}
123 +
124 + # Other label
125 + flag = 'O'
126 + # sentences counter
127 + n=0
128 + lista = []
129 + #First sentence
130 + sentence = ''
131 + with open(os.path.join(options.inputPath, options.inputFile), "r") as input_file:
132 + for line in input_file:
133 + if len(line.split('\t')) > 1:
134 + w = line.split('\t')[1]
135 + if w in in_labels or w in out_labels:
136 + #Tagging
137 + if w in in_labels.keys(): flag = in_labels[w]
138 + if w in out_labels: flag = out_labels[w]
139 + else:
140 + if w == "PGCGROWTHCONDITIONS":
141 + #End of sentence
142 + lista.append(sentence)
143 + #New setence
144 + sentence = ''
145 + n=n+1
146 + else:
147 + #Building and save tagging sentence
148 + sentence = sentence + ' ' + ('|'.join(line.split('\t')[1:4])+'|'+flag+' ')
149 +
150 + print("Number of sentences: " + str(n))
151 +
152 + # Split 70 30 training and test sentences
153 + trainingIndex = random.sample(range(len(lista)-1), int(len(lista)*.70))
154 + testIndex = [n for n in range(len(lista)-1) if n not in trainingIndex]
155 + print(len(trainingIndex))
156 + print(len(testIndex))
157 +
158 + with open(os.path.join(options.outputPath, options.trainingFile), "w") as oFile:
159 + Data = [lista[i] for i in trainingIndex]
160 + oFile.write('\n'.join(Data))
161 +
162 + with open(os.path.join(options.outputPath, options.testFile), "w") as oFile:
163 + Data = [lista[i] for i in testIndex]
164 + oFile.write('\n'.join(Data))
165 +
166 + print("==================================END===================================")
1 +#!/bin/python3
2 +import os
3 +from itertools import chain
4 +from optparse import OptionParser
5 +from time import time
6 +from collections import Counter
7 +import re
8 +
9 +import nltk
10 +import sklearn
11 +import scipy.stats
12 +import sys
13 +
14 +from sklearn.externals import joblib
15 +from sklearn.metrics import make_scorer
16 +from sklearn.cross_validation import cross_val_score
17 +from sklearn.grid_search import RandomizedSearchCV
18 +
19 +import sklearn_crfsuite
20 +from sklearn_crfsuite import scorers
21 +from sklearn_crfsuite import metrics
22 +
23 +from nltk.corpus import stopwords
24 +
25 +import random
26 +
27 +
28 +# Objective
29 +# Labaled separated by '|' and split 70/30 sentences on training and tets files from CoreNLP-tagging
30 +#
31 +# Input parameters
32 +# --inputPath=PATH Path of inputfile
33 +# --outputPath=PATH Path to place output files
34 +# --trainingFile=testFile Output training data set
35 +# --testFile=testFile Output test data set
36 +#
37 +# Output
38 +# training and test data set
39 +#
40 +# Examples
41 +# python label-split_training_test_v1.py
42 +# --inputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/output/
43 +# --inputFile sentences.tsv_pakal_.conll
44 +# --trainingFile training-data-set-70.txt
45 +# --testFile test-data-set-30.txt
46 +# --outputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CRF/data-sets
47 +#
48 +#
49 +# python label-split_training_test_v1.py --inputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/output/ --inputFile sentences.tsv_pakal_.conll --trainingFile training-data-set-70.txt --testFile test-data-set-30.txt --outputPath /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CRF/data-sets
50 +
51 +
52 +##########################################
53 +# MAIN PROGRAM #
54 +##########################################
55 +
56 +if __name__ == "__main__":
57 + # Defining parameters
58 + parser = OptionParser()
59 + parser.add_option("--inputPath", dest="inputPath",
60 + help="Path of output from CoreNLP", metavar="PATH")
61 + parser.add_option("--outputPath", dest="outputPath",
62 + help="Output path to place output files",
63 + metavar="PATH")
64 + parser.add_option("--inputFile", dest="inputFile",
65 + help="File with CoreNLP-tagging sentences", metavar="FILE")
66 + parser.add_option("--trainingFile", dest="trainingFile",
67 + help="File with training data set", metavar="FILE")
68 + parser.add_option("--testFile", dest="testFile",
69 + help="File with test data set", metavar="FILE")
70 +
71 + (options, args) = parser.parse_args()
72 + if len(args) > 0:
73 + parser.error("Any parameter given.")
74 + sys.exit(1)
75 +
76 + print('-------------------------------- PARAMETERS --------------------------------')
77 + print("Path of CoreNLP output: " + str(options.inputPath))
78 + print("File with CoreNLP-tagging sentences: " + str(options.inputFile))
79 + print("Path of training data set: " + str(options.outputPath))
80 + print("File with training data set: " + str(options.trainingFile))
81 + print("Path of test data set: " + str(options.outputPath))
82 + print("File with test data set: " + str(options.testFile))
83 + print('-------------------------------- PROCESSING --------------------------------')
84 + ## begin of tagging
85 + in_labels = {
86 + '<Gtype>': 'Gtype',
87 + '<Gversion>': 'Gversion',
88 + '<Med>': 'Med',
89 + '<Phase>': 'Phase',
90 + '<Sample>': 'Sample',
91 + '<Serie>': 'Serie',
92 + '<Substrain>': 'Substrain',
93 + '<Supp>': 'Supp',
94 + '<Technique>': 'Technique',
95 + '<Temp>': 'Temp',
96 + '<OD>': 'OD',
97 + '<Anti>': 'Anti',
98 + '<Agit>': 'Agit',
99 + '<Vess>': 'Vess'
100 + }
101 + ## End of tagging
102 + out_labels = {
103 + '</Air>': 'O',
104 + '</Gtype>': 'O',
105 + '</Gversion>': 'O',
106 + '</Med>': 'O',
107 + '</Phase>': 'O',
108 + '</Sample>': 'O',
109 + '</Serie>': 'O',
110 + '</Strain>': 'O',
111 + '<Strain>': 'O',
112 + '</Substrain>': 'O',
113 + '</Supp>': 'O',
114 + '</Technique>': 'O',
115 + '</Temp>': 'O',
116 + '</OD>': 'O',
117 + '</Anti>': 'O',
118 + '</Agit>': 'O',
119 + '<Name>': 'O',
120 + '</Name>': 'O',
121 + '<Orgn>': 'O',
122 + '</Orgn>': 'O',
123 + '</Vess>': 'O'}
124 +
125 + # Other label
126 + flag = 'O'
127 + # sentences counter
128 + n=0
129 + lista = []
130 + #First sentence
131 + sentence = ''
132 + with open(os.path.join(options.inputPath, options.inputFile), "r") as input_file:
133 + for line in input_file:
134 + if len(line.split('\t')) > 1:
135 + w = line.split('\t')[1]
136 + if w in in_labels or w in out_labels:
137 + #Tagging
138 + if w in in_labels.keys(): flag = in_labels[w]
139 + if w in out_labels: flag = out_labels[w]
140 + else:
141 + if w == "PGCGROWTHCONDITIONS":
142 + #End of sentence
143 + lista.append(sentence)
144 + #New setence
145 + sentence = ''
146 + n=n+1
147 + else:
148 + #Building and save tagging sentence
149 + sentence = sentence + ' ' + ('|'.join(line.split('\t')[1:4])+'|'+flag+' ')
150 +
151 + print("Number of sentences: " + str(n))
152 + print('\n'.join(lista))
153 + # Split 70 30 training and test sentences
154 +# trainingIndex = random.sample(range(len(lista)-1), int(len(lista)*.70))
155 +# testIndex = [n for n in range(len(lista)-1) if n not in trainingIndex]
156 +
157 +# with open(os.path.join(options.outputPath, options.trainingFile), "w") as oFile:
158 +# Data = [lista[i] for i in trainingIndex]
159 +# oFile.write('\n'.join(Data))
160 +
161 +# with open(os.path.join(options.outputPath, options.testFile), "w") as oFile:
162 +# Data = [lista[i] for i in testIndex]
163 +# oFile.write('\n'.join(Data))
164 +
165 +# print("==================================END===================================")
166 +
1 +['O', 'O', 'O', 'O', 'O']
2 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
3 +['O', 'O', 'O']
4 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
5 +['O', 'O', 'O', 'Gtype']
6 +['O', 'O', 'O', 'O']
7 +['Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
8 +['O', 'O', 'O', 'O', 'O']
9 +['O', 'O', 'O', 'O', 'O']
10 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
11 +['O', 'O', 'O', 'Med', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp']
12 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
13 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
14 +['O', 'O', 'O', 'O']
15 +['O', 'O', 'O', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp']
16 +['O', 'O', 'O', 'O', 'O']
17 +['O', 'O', 'Gtype']
18 +['O', 'O', 'O']
19 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
20 +['O', 'O', 'O', 'O', 'O']
21 +['O', 'O', 'O', 'O', 'O', 'O', 'Gversion', 'Gversion', 'Gversion', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
22 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
23 +['O', 'O', 'O', 'O', 'O']
24 +['O', 'O', 'O']
25 +['O', 'O', 'O', 'O', 'O']
26 +['O', 'O', 'Anti', 'Anti', 'Anti']
27 +['O', 'O', 'O']
28 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
29 +['O', 'O', 'O', 'O', 'O']
30 +['O', 'O', 'O']
31 +['O', 'O', 'O']
32 +['O', 'O', 'O']
33 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
34 +['O', 'O', 'O', 'O']
35 +['O', 'O', 'O', 'Supp']
36 +['O', 'O', 'O', 'Gtype', 'O', 'O', 'O', 'O', 'O']
37 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
38 +['O', 'O', 'O', 'O']
39 +['O', 'O', 'O']
40 +['O', 'O', 'O', 'O']
41 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
42 +['O', 'O', 'O']
43 +['O', 'O', 'O', 'O']
44 +['O', 'O', 'O', 'O', 'O']
45 +['O', 'O', 'Gtype']
46 +['O', 'O', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
47 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Gtype', 'Gtype']
48 +['O', 'O', 'O', 'O', 'O', 'O']
49 +['O', 'O', 'O', 'O', 'O']
50 +['O', 'O', 'Gtype']
51 +['O', 'O', 'O']
52 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'OD', 'OD', 'OD', 'OD', 'O', 'O', 'Med', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp', 'O']
53 +['O', 'O', 'O']
54 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
55 +['O', 'O', 'O']
56 +['O', 'O', 'O']
57 +['O', 'O', 'O', 'Gtype']
58 +['O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase
59 +['O', 'O', 'O']
60 +['O', 'O', 'O']
61 +['O', 'O', 'Gtype']
62 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'OD', 'OD', 'OD', 'OD', 'O', 'O']
63 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'O']
64 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
65 +['O', 'O', 'O']
66 +['O', 'O', 'Gtype']
67 +['O', 'O', 'O', 'Anti', 'Anti', 'Anti', 'O']
68 +['O', 'O', 'O', 'O']
69 +['O', 'O', 'O', 'O']
70 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
71 +['O', 'O', 'O', 'Anti', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
72 +['O', 'O', 'O']
73 +['O', 'O', 'O']
74 +['O', 'O', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
75 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
76 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
77 +['O', 'O', 'Gtype']
78 +['O', 'O', 'O', 'O', 'O', 'Anti', 'Anti']
79 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
80 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'OD']
81 +['O', 'O', 'O', 'O', 'O', 'O']
82 +['O', 'O', 'O', 'O', 'O']
83 +['O', 'O', 'O', 'Anti']
84 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
85 +['O', 'O', 'Gtype']
86 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'Substrain']
87 +['O', 'O', 'Gtype']
88 +['O', 'O', 'Gtype']
89 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
90 +['O', 'O', 'O']
91 +['O', 'O', 'O']
92 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Gtype', 'Gtype', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
93 +['O', 'O', 'O', 'O', 'O', 'O']
94 +['O', 'O', 'Med']
95 +['O', 'O', 'O', 'O', 'O', 'O']
96 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
97 +['O', 'O', 'Gtype']
98 +['Gversion', 'Gversion']
99 +['O', 'O', 'O', 'O', 'O']
100 +['O', 'O', 'O']
101 +['O', 'O', 'O']
102 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
103 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
104 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
105 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Gversion', 'Gversion', 'Gversion', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
106 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'O']
107 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
108 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
109 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
110 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
111 +['O', 'O', 'Gtype']
112 +['O', 'O', 'O', 'O']
113 +['O', 'O', 'O', 'O', 'O']
114 +['O', 'O', 'Anti', 'Anti', 'Anti', 'Anti']
115 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
116 +['O', 'O', 'O', 'O']
117 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
118 +['O', 'O', 'O']
119 +['O', 'O', 'O', 'O']
120 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
121 +['Med', 'Med', 'Med', 'Med', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
1 +['O', 'O', 'O', 'O', 'O']
2 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
3 +['O', 'O', 'O']
4 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
5 +['O', 'O', 'O', 'Technique']
6 +['O', 'O', 'O', 'O']
7 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
8 +['O', 'O', 'O', 'O', 'O']
9 +['O', 'O', 'O', 'O', 'O']
10 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'Substrain']
11 +['O', 'O', 'O', 'Med', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp']
12 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'OD', 'OD', 'OD', 'O', 'O']
13 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
14 +['O', 'O', 'O', 'O']
15 +['O', 'O', 'O', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp']
16 +['O', 'O', 'O', 'O', 'O']
17 +['O', 'O', 'Gtype']
18 +['O', 'O', 'O']
19 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
20 +['O', 'O', 'O', 'O', 'O']
21 +['O', 'O', 'O', 'O', 'O', 'O', 'Gversion', 'Gversion', 'Gversion', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
22 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
23 +['O', 'O', 'Gtype', 'Gtype', 'Gtype']
24 +['O', 'O', 'O']
25 +['O', 'O', 'O', 'O', 'O']
26 +['O', 'O', 'Anti', 'Anti', 'Anti']
27 +['O', 'O', 'O']
28 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
29 +['O', 'O', 'O', 'O', 'O']
30 +['O', 'O', 'O']
31 +['O', 'O', 'O']
32 +['O', 'O', 'O']
33 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
34 +['O', 'O', 'O', 'O']
35 +['O', 'O', 'O', 'Supp']
36 +['O', 'O', 'O', 'Anti', 'O', 'O', 'O', 'O', 'O']
37 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
38 +['O', 'O', 'O', 'O']
39 +['O', 'O', 'O']
40 +['O', 'O', 'O', 'O']
41 +['O', 'O', 'O', 'O', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
42 +['O', 'O', 'O']
43 +['O', 'O', 'O', 'O']
44 +['O', 'O', 'O', 'O', 'O']
45 +['O', 'O', 'Gtype']
46 +['O', 'O', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
47 +['Substrain', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
48 +['O', 'O', 'O', 'O', 'O', 'O']
49 +['O', 'O', 'Gtype', 'O', 'O']
50 +['O', 'O', 'Gtype']
51 +['O', 'O', 'O']
52 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'OD', 'OD', 'OD', 'OD', 'O', 'O', 'Med', 'Med', 'Med', 'Med', 'O', 'Supp', 'Supp', 'Supp', 'O']
53 +['O', 'O', 'O']
54 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
55 +['O', 'O', 'O']
56 +['O', 'O', 'O']
57 +['O', 'O', 'O', 'Anti']
58 +['O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase
59 +['O', 'O', 'O']
60 +['O', 'O', 'O']
61 +['O', 'O', 'Gtype']
62 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'OD', 'OD', 'OD', 'OD', 'O', 'O']
63 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
64 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
65 +['O', 'O', 'O']
66 +['O', 'O', 'Gtype']
67 +['O', 'O', 'O', 'Anti', 'Anti', 'Anti', 'O']
68 +['O', 'O', 'O', 'O']
69 +['O', 'O', 'O', 'O']
70 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
71 +['O', 'O', 'O', 'Anti', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
72 +['O', 'O', 'O']
73 +['O', 'O', 'O']
74 +['O', 'O', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
75 +['Substrain', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype', 'Gtype']
76 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
77 +['O', 'O', 'Gtype']
78 +['O', 'O', 'O', 'Anti', 'Anti', 'Anti', 'Anti']
79 +['OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
80 +['OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD', 'OD']
81 +['O', 'O', 'O', 'O', 'O', 'O']
82 +['O', 'O', 'O', 'O', 'O']
83 +['O', 'O', 'O', 'Anti']
84 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
85 +['O', 'O', 'Gtype']
86 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
87 +['O', 'O', 'Gtype']
88 +['O', 'O', 'Supp']
89 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
90 +['O', 'O', 'O']
91 +['O', 'O', 'O']
92 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Gtype', 'Gtype
93 +['O', 'O', 'O', 'O', 'O', 'O']
94 +['O', 'O', 'Med']
95 +['O', 'O', 'O', 'O', 'O', 'O']
96 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
97 +['O', 'O', 'Supp']
98 +['O', 'O']
99 +['O', 'O', 'O', 'O', 'O']
100 +['O', 'O', 'O']
101 +['O', 'O', 'O']
102 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
103 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
104 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
105 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Gversion', 'Gversion', 'Gversion', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
106 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
107 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
108 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
109 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
110 +['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Phase', 'Phase', 'O', 'O', 'O', 'Temp', 'Temp', 'O', 'Med', 'Med', 'Med', 'O', 'O', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'O', 'O', 'O', 'O', 'O', 'O', 'Supp', 'Supp', 'O']
111 +['O', 'O', 'Gtype']
112 +['O', 'O', 'O', 'O']
113 +['O', 'O', 'O', 'O', 'O']
114 +['O', 'O', 'Anti', 'Anti', 'Anti', 'Anti']
115 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
116 +['O', 'O', 'O', 'O']
117 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
118 +['O', 'O', 'O']
119 +['O', 'O', 'O', 'O']
120 +['O', 'O', 'O', 'O', 'O', 'O', 'O']
121 +['Med', 'Med', 'Med', 'Med', 'O', 'O', 'O', 'O', 'O', 'O', 'Temp', 'Temp', 'Temp', 'O', 'O', 'Agit', 'Agit', 'Agit', 'Agit', 'Agit', 'Agit', 'Agit']
1 +cd /home/kevinml/automatic-extraction-growth-conditions/data-sets/tagged-xml-data
2 +echo
3 +echo
4 +echo
5 +
6 +echo "==============================Family SOFT files======================================= "
7 +echo
8 +echo "Access to GEO family soft files.."
9 +echo "directory: "$(pwd);
10 +echo
11 +echo
12 +
13 +ls -1 ;
14 +echo
15 +
16 +echo "Number of files: "$(ls -1 | wc -l);
17 +echo
18 +echo
19 +echo "Filter all paragraphs with tags..."
20 +echo "Add sentence-end-tag PGCGROWTHCONDITIONS..."
21 +grep -E "<[^<]*>" * | grep -E '!'| cut -f2 -d'='|sort|uniq|awk '{ print $_" PGCGROWTHCONDITIONS"; }' > /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/input/raw-metadata-senteneces.txt
22 +echo
23 +echo "Number of total tag sentences: "$(wc /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/input/raw-metadata-senteneces.txt -l);
24 +echo
25 +echo
26 +echo "Saving file: /home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/input/raw-metadata-senteneces.txt";
1 +echo
2 +echo
3 +echo "==============================Run CoreNLP======================================= ";
4 +echo
5 +echo
6 +
7 +input="/home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/input/raw-metadata-senteneces.txt";
8 +output="/home/egaytan/GROWTH-CONDITIONS-GEO-EXTRACTION/CoreNLP/output/";
9 +echo "input file: "$input;
10 +echo
11 +echo "output directory: "$output;
12 +echo
13 +echo
14 +
15 +corenlp.sh -annotators tokenize,ssplit,pos,lemma -outputFormat conll -file $input -outputDirectory $output;
16 +
17 +
18 +
This diff could not be displayed because it is too large.