laste version

iarroyof
Commit 1e051ed3083ff3b1bc250e4e670e2fdd26773f7e 1e051ed3 1 parent 06d7dddb
Showing 11 changed files with 504 additions and 14 deletions
filter_abstracts.py.save
filter_abstracts_binClass.py
filter_abstracts_oneClass.py
filter_output/useful.out
filter_papers.py
model/svd_model.pkl
model/svm_model.paper.pkl
model/svm_model.pkl
model/tfidf_model.paper.pkl
outRNAseq/useful.out
outRNAseq/useless.out
--- a/filter_abstracts.py.save 0 → 100644
View file @1e051ed
+++ b/filter_abstracts.py.save 0 → 100644
View file @1e051ed
+ #from pdb import set_trace as st
+ from sklearn.cross_validation import train_test_split as splitt
+ from sklearn.feature_extraction.text import TfidfVectorizer
+ from sklearn.decomposition import TruncatedSVD
+ from sklearn.model_selection import RandomizedSearchCV
+ from sklearn.model_selection import GridSearchCV
+ from sklearn import metrics
+ from sklearn.svm import SVC
+ import numpy as np
+ import argparse
+ import csv
+ import os
+ from sklearn.externals import joblib
+ from time import time
+ from scipy.stats import randint as sp_randint
+ from scipy.stats import expon
+ from sklearn.preprocessing import label_binarize
+ 
+ 
+ def get_abstracts(file_name, label):
+     f = open(file_name)
+     extract = {}
+     docs = []
+     empties = []
+     lines = f.readlines()
+     copyright = False
+ 
+     for i, ln in enumerate(lines):
+         if not ln.strip():
+             empties.append(i)
+             continue
+         elif ' doi: ' in ln:
+             for j in range(i, i + 10):
+                 if not lines[j].strip():
+                     title_idx = j + 1
+                     break
+             continue
+ 
+         elif 'Copyright ' in ln or 'Publish' in ln or u'\N{COPYRIGHT SIGN}' in ln:
+             copyright = True
+ 
+         elif 'DOI: ' in ln:
+             if 'PMCID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 2].strip().split()[1])
+             elif not 'PMCID: ' in lines[i + 1] and 'PMID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 1].strip().split()[1])
+ 
+             if copyright:
+                 get = slice(empties[-3], empties[-2])
+                 copyright = False
+             else:
+                 get = slice(empties[-2], empties[-1])
+ 
+             extract['body'] = " ".join(lines[get]).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             title = []
+             for j in range(title_idx, title_idx + 5):
+                 if lines[j].strip():
+                     title.append(lines[j])
+                 else:
+                     break
+             extract['title'] = " ".join(title).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             extract['topic'] = label
+             docs.append(extract)
+             empties = []
+             extract = {}
+ 
+     return docs
+ 
+ 
+ parser = argparse.ArgumentParser(
+     description="This script separates abstracts of biomedical papers that"
+             "report data from biomedical experiments from those that do not.")
+ parser.add_argument("--input", help="Input file containing the abstracts to"
+                                 "be predited.")
+ parser.add_argument("--classA", help="Input file containing the abstracts of"
+                                 "class A to be learned.")
+ parser.add_argument("--classB", help="Input file containing the abstracts of"
+                                 "class B to be learned.")
+ parser.add_argument("--out", help="Path to the output directory "
+                      "(default='./filter_output')", default="filter_output")
+ parser.add_argument("--svcmodel", help="Path to custom pretrained svc model"
+         "(default='./model/svm_model.pkl')", default="model/svm_model.pkl")
+ 
+ args = parser.parse_args()
+ 
+ labels = {0: 'useless', 1: 'useful'}
+ 
+ if args.classA and args.classB and not args.input:
+     vectorizer = TfidfVectorizer(binary=True)
+     print(vectorizer)
+     f0 = open("model_params.conf")
+     n_iter_search = 10
+     params = [p for p in csv.DictReader(f0)]
+     f0.close()
+     names = list(params[0].keys())
+     model_params = {n: [] for n in names}
+ 
+     for n in names:
+         for d in params:
+             for k in d:
+                 if k == n:
+                     try:
+                         model_params[n].append(float(d[k]))
+                     except ValueError:
+                         model_params[n].append(d[k])
+ 
+     model_params = {k: list(set(model_params[k])) for k in model_params}
+     abstracs = get_abstracts(file_name=args.classA, label=labels[0])
+     abstracs += get_abstracts(file_name=args.classB, label=labels[1])
+ 
+     tfidf_model = vectorizer.fit([x['body'] for x in abstracs])
+     X = tfidf_model.transform([x['body'] for x in abstracs])
+     svd = TruncatedSVD(n_components=200, random_state=42, n_iter=20)
+     svd_model = svd.fit(X)
+     X = svd_model.transform(X)
+     #y = [x['topic'] for x in abstracs]
+     y = [0 if x['topic'] == 'useless' else 1 for x in abstracs]    
+ 
+     #X_train, X_test, y_train, y_test = splitt(X, y, test_size=0.3, random_state=42)
+ 
+     clf = SVC()#kernel='linear', C=100.0, gamma=0.0001)# degree=11, coef0=0.9)
+     clf = GridSearchCV(clf, cv=3,
+         param_grid=model_params,
+     # clf = RandomizedSearchCV(clf, param_distributions=model_params, cv=5, n_iter=n_iter_search,
+                                  n_jobs=-1, scoring='f1')
+     start = time()
+     clf.fit(X, y)
+ 
+     #clf.fit(X_train, y_train)
+     print("GridSearch took %.2f seconds for %d candidates"
+       " parameter settings." % ((time() - start), n_iter_search))
+ 
+     print(clf.best_estimator_)
+     print()
+     print(clf.best_score_)
+     #print(metrics.f1_score(clf.predict(X_test), y_test))
+ 
+     #joblib.dump(clf, 'model/svm_model.pkl')
+     joblib.dump(clf.best_estimator_, 'model/svm_model.pkl')
+     joblib.dump(tfidf_model, 'model/tfidf_model.pkl')
+     joblib.dump(svd_model, 'model/svd_model.pkl')
+ 
+ else:
+ 
+     clf = joblib.load(args.svcmodel)
+     vectorizer = joblib.load('model/tfidf_model.pkl')
+     svd = joblib.load('model/svd_model.pkl')
+     abstracs = get_abstracts(file_name=args.input, label='unknown')
+     X = vectorizer.transform([x['body'] for x in abstracs])
+     X = svd.transform(X)
+     classes = clf.predict(X)
+ 
+     if not os.path.exists(args.out):
+         os.makedirs(args.out)
+     # Writing predictions to output files
+     with open(args.out + "/" + labels[0] + ".out", 'w') as f0, \
+                     open(args.out + "/" + labels[1] + ".out", 'w') as f1:
+         for c, a in zip(classes, abstracs):
+             if c == 0:
+                 f0.write("%d\t%s\n" % (a['pmid'], a['body']))
+             elif c == 1:
+                 f1.write("%d\t%s\n" % (a['pmid'], a['body']))
--- a/filter_abstracts_binClass.py 0 → 100644
View file @1e051ed
+++ b/filter_abstracts_binClass.py 0 → 100644
View file @1e051ed
+ #from pdb import set_trace as st
+ from sklearn.cross_validation import train_test_split as splitt
+ from sklearn.feature_extraction.text import TfidfVectorizer
+ from sklearn.decomposition import TruncatedSVD
+ from sklearn.model_selection import RandomizedSearchCV
+ from sklearn.model_selection import GridSearchCV
+ from sklearn import metrics
+ from sklearn.svm import SVC
+ import numpy as np
+ import argparse
+ import csv
+ import os
+ from sklearn.externals import joblib
+ from time import time
+ from scipy.stats import randint as sp_randint
+ from scipy.stats import expon
+ from sklearn.preprocessing import label_binarize
+ 
+ 
+ def get_abstracts(file_name, label):
+     f = open(file_name)
+     extract = {}
+     docs = []
+     empties = []
+     lines = f.readlines()
+     copyright = False
+ 
+     for i, ln in enumerate(lines):
+         if not ln.strip():
+             empties.append(i)
+             continue
+         elif ' doi: ' in ln:
+             for j in range(i, i + 10):
+                 if not lines[j].strip():
+                     title_idx = j + 1
+                     break
+             continue
+ 
+         elif 'Copyright ' in ln or 'Publish' in ln or u'\N{COPYRIGHT SIGN}' in ln:
+             copyright = True
+ 
+         elif 'DOI: ' in ln:
+             if 'PMCID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 2].strip().split()[1])
+             elif not 'PMCID: ' in lines[i + 1] and 'PMID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 1].strip().split()[1])
+ 
+             if copyright:
+                 get = slice(empties[-3], empties[-2])
+                 copyright = False
+             else:
+                 get = slice(empties[-2], empties[-1])
+ 
+             extract['body'] = " ".join(lines[get]).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             title = []
+             for j in range(title_idx, title_idx + 5):
+                 if lines[j].strip():
+                     title.append(lines[j])
+                 else:
+                     break
+             extract['title'] = " ".join(title).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             extract['topic'] = label
+             docs.append(extract)
+             empties = []
+             extract = {}
+ 
+     return docs
+ 
+ 
+ parser = argparse.ArgumentParser(
+     description="This script separates abstracts of biomedical papers that"
+             "report data from biomedical experiments from those that do not.")
+ parser.add_argument("--input", help="Input file containing the abstracts to"
+                                 "be predited.")
+ parser.add_argument("--classA", help="Input file containing the abstracts of"
+                                 "class A to be learned.")
+ parser.add_argument("--classB", help="Input file containing the abstracts of"
+                                 "class B to be learned.")
+ parser.add_argument("--out", help="Path to the output directory "
+                      "(default='./filter_output')", default="filter_output")
+ parser.add_argument("--svcmodel", help="Path to custom pretrained svc model"
+         "(default='./model/svm_model.pkl')", default="model/svm_model.pkl")
+ 
+ args = parser.parse_args()
+ 
+ labels = {0: 'useless', 1: 'useful'}
+ vectorizer = TfidfVectorizer(binary=True)
+ print(vectorizer)
+ 
+ if args.classA and args.classB and not args.input:
+     f0 = open("model_params.conf")
+     n_iter_search = 10
+     params = [p for p in csv.DictReader(f0)]
+     f0.close()
+     names = list(params[0].keys())
+     model_params = {n: [] for n in names}
+ 
+     for n in names:
+         for d in params:
+             for k in d:
+                 if k == n:
+                     try:
+                         model_params[n].append(float(d[k]))
+                     except ValueError:
+                         model_params[n].append(d[k])
+ 
+     model_params = {k: list(set(model_params[k])) for k in model_params}
+     abstracs = get_abstracts(file_name=args.classA, label=labels[0])
+     abstracs += get_abstracts(file_name=args.classB, label=labels[1])
+ 
+     tfidf_model = vectorizer.fit([x['body'] for x in abstracs])
+     X = tfidf_model.transform([x['body'] for x in abstracs])
+     svd = TruncatedSVD(n_components=200, random_state=42, n_iter=20)
+     svd_model = svd.fit(X)
+     X = svd_model.transform(X)
+     #y = [x['topic'] for x in abstracs]
+     y = [0 if x['topic'] == 'useless' else 1 for x in abstracs]    
+ 
+     #X_train, X_test, y_train, y_test = splitt(X, y, test_size=0.3, random_state=42)
+ 
+     clf = SVC()#kernel='linear', C=100.0, gamma=0.0001)# degree=11, coef0=0.9)
+     clf = GridSearchCV(clf, cv=3,
+         param_grid=model_params,
+     # clf = RandomizedSearchCV(clf, param_distributions=model_params, cv=5, n_iter=n_iter_search,
+                                  n_jobs=-1, scoring='f1')
+     start = time()
+     clf.fit(X, y)
+ 
+     #clf.fit(X_train, y_train)
+     print("GridSearch took %.2f seconds for %d candidates"
+       " parameter settings." % ((time() - start), n_iter_search))
+ 
+     print(clf.best_estimator_)
+     print()
+     print(clf.best_score_)
+     #print(metrics.f1_score(clf.predict(X_test), y_test))
+ 
+     #joblib.dump(clf, 'model/svm_model.pkl')
+     joblib.dump(clf.best_estimator_, 'model/svm_model.pkl')
+     joblib.dump(tfidf_model, 'model/tfidf_model.pkl')
+     joblib.dump(svd_model, 'model/svd_model.pkl')
+ 
+ else:
+ 
+     clf = joblib.load(args.svcmodel)
+     vectorizer = joblib.load('model/tfidf_model.pkl')
+     svd = joblib.load('model/svd_model.pkl')
+     abstracs = get_abstracts(file_name=args.input, label='unknown')
+     X = vectorizer.transform([x['body'] for x in abstracs])
+     X = svd.transform(X)
+     classes = clf.predict(X)
+ 
+     if not os.path.exists(args.out):
+         os.makedirs(args.out)
+     # Writing predictions to output files
+     with open(args.out + "/" + labels[0] + ".out", 'w') as f0, \
+                     open(args.out + "/" + labels[1] + ".out", 'w') as f1:
+         for c, a in zip(classes, abstracs):
+             if c == 0:
+                 f0.write("%d\t%s\n" % (a['pmid'], a['body']))
+             elif c == 1:
+                 f1.write("%d\t%s\n" % (a['pmid'], a['body']))
--- a/filter_abstracts_oneClass.py 0 → 100644
View file @1e051ed
+++ b/filter_abstracts_oneClass.py 0 → 100644
View file @1e051ed
+ #from pdb import set_trace as st
+ from sklearn.cross_validation import train_test_split as splitt
+ from sklearn.feature_extraction.text import TfidfVectorizer
+ from sklearn.decomposition import TruncatedSVD
+ from sklearn.model_selection import RandomizedSearchCV
+ from sklearn.model_selection import GridSearchCV
+ from sklearn import metrics
+ from sklearn.svm import SVC
+ import numpy as np
+ import argparse
+ import csv
+ import os
+ from sklearn.externals import joblib
+ from time import time
+ from scipy.stats import randint as sp_randint
+ from scipy.stats import expon
+ from sklearn.preprocessing import label_binarize
+ 
+ 
+ def get_abstracts(file_name, label):
+     f = open(file_name)
+     extract = {}
+     docs = []
+     empties = []
+     lines = f.readlines()
+     copyright = False
+ 
+     for i, ln in enumerate(lines):
+         if not ln.strip():
+             empties.append(i)
+             continue
+         elif ' doi: ' in ln:
+             for j in range(i, i + 10):
+                 if not lines[j].strip():
+                     title_idx = j + 1
+                     break
+             continue
+ 
+         elif 'Copyright ' in ln or 'Publish' in ln or u'\N{COPYRIGHT SIGN}' in ln:
+             copyright = True
+ 
+         elif 'DOI: ' in ln:
+             if 'PMCID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 2].strip().split()[1])
+             elif not 'PMCID: ' in lines[i + 1] and 'PMID: ' in lines[i + 1]:
+                 extract['pmid'] = int(lines[i + 1].strip().split()[1])
+ 
+             if copyright:
+                 get = slice(empties[-3], empties[-2])
+                 copyright = False
+             else:
+                 get = slice(empties[-2], empties[-1])
+ 
+             extract['body'] = " ".join(lines[get]).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             title = []
+             for j in range(title_idx, title_idx + 5):
+                 if lines[j].strip():
+                     title.append(lines[j])
+                 else:
+                     break
+             extract['title'] = " ".join(title).replace("\n", ' '
+                                                         ).replace("  ", ' ')
+             extract['topic'] = label
+             docs.append(extract)
+             empties = []
+             extract = {}
+ 
+     return docs
+ 
+ 
+ parser = argparse.ArgumentParser(
+     description="This script separates abstracts of biomedical papers that"
+             "report data from biomedical experiments from those that do not.")
+ parser.add_argument("--input", help="Input file containing the abstracts to"
+                                 "be predited.")
+ parser.add_argument("--classA", help="Input file containing the abstracts of"
+                                 "class A to be learned.")
+ parser.add_argument("--classB", help="Input file containing the abstracts of"
+                                 "class B to be learned.")
+ parser.add_argument("--out", help="Path to the output directory "
+                      "(default='./filter_output')", default="filter_output")
+ parser.add_argument("--svcmodel", help="Path to custom pretrained svc model"
+         "(default='./model/svm_model.pkl')", default="model/svm_model.pkl")
+ 
+ args = parser.parse_args()
+ 
+ labels = {0: 'useless', 1: 'useful'}
+ vectorizer = TfidfVectorizer(binary=True)
+ print(vectorizer)
+ 
+ if args.classA and args.classB and not args.input:
+     f0 = open("model_params.conf")
+     n_iter_search = 10
+     params = [p for p in csv.DictReader(f0)]
+     f0.close()
+     names = list(params[0].keys())
+     model_params = {n: [] for n in names}
+ 
+     for n in names:
+         for d in params:
+             for k in d:
+                 if k == n:
+                     try:
+                         model_params[n].append(float(d[k]))
+                     except ValueError:
+                         model_params[n].append(d[k])
+ 
+     model_params = {k: list(set(model_params[k])) for k in model_params}
+     abstracs = get_abstracts(file_name=args.classA, label=labels[0])
+     abstracs += get_abstracts(file_name=args.classB, label=labels[1])
+ 
+     tfidf_model = vectorizer.fit([x['body'] for x in abstracs])
+     X = tfidf_model.transform([x['body'] for x in abstracs])
+     svd = TruncatedSVD(n_components=200, random_state=42, n_iter=20)
+     svd_model = svd.fit(X)
+     X = svd_model.transform(X)
+     #y = [x['topic'] for x in abstracs]
+     y = [0 if x['topic'] == 'useless' else 1 for x in abstracs]    
+ 
+     #X_train, X_test, y_train, y_test = splitt(X, y, test_size=0.3, random_state=42)
+ 
+     clf = SVC()#kernel='linear', C=100.0, gamma=0.0001)# degree=11, coef0=0.9)
+     clf = GridSearchCV(clf, cv=3,
+         param_grid=model_params,
+     # clf = RandomizedSearchCV(clf, param_distributions=model_params, cv=5, n_iter=n_iter_search,
+                                  n_jobs=-1, scoring='f1')
+     start = time()
+     clf.fit(X, y)
+ 
+     #clf.fit(X_train, y_train)
+     print("GridSearch took %.2f seconds for %d candidates"
+       " parameter settings." % ((time() - start), n_iter_search))
+ 
+     print(clf.best_estimator_)
+     print()
+     print(clf.best_score_)
+     #print(metrics.f1_score(clf.predict(X_test), y_test))
+ 
+     #joblib.dump(clf, 'model/svm_model.pkl')
+     joblib.dump(clf.best_estimator_, 'model/svm_model.pkl')
+     joblib.dump(tfidf_model, 'model/tfidf_model.pkl')
+     joblib.dump(svd_model, 'model/svd_model.pkl')
+ 
+ else:
+ 
+     clf = joblib.load(args.svcmodel)
+     vectorizer = joblib.load('model/tfidf_model.pkl')
+     svd = joblib.load('model/svd_model.pkl')
+     abstracs = get_abstracts(file_name=args.input, label='unknown')
+     X = vectorizer.transform([x['body'] for x in abstracs])
+     X = svd.transform(X)
+     classes = clf.predict(X)
+ 
+     if not os.path.exists(args.out):
+         os.makedirs(args.out)
+     # Writing predictions to output files
+     with open(args.out + "/" + labels[0] + ".out", 'w') as f0, \
+                     open(args.out + "/" + labels[1] + ".out", 'w') as f1:
+         for c, a in zip(classes, abstracs):
+             if c == 0:
+                 f0.write("%d\t%s\n" % (a['pmid'], a['body']))
+             elif c == 1:
+                 f1.write("%d\t%s\n" % (a['pmid'], a['body']))
--- a/filter_output/useful.out
View file @1e051ed
+++ b/filter_output/useful.out
View file @1e051ed
--- a/filter_papers.py
View file @1e051ed
+++ b/filter_papers.py
View file @1e051ed
@@ -30,15 +30,14 @@ parser.add_argument("--svcmodel", help="Path to custom pretrained svc model"
         "(default='./model/svm_model.paper.pkl')", default="model/svm_model.paper.pkl")
 
 args = parser.parse_args()
+ labels = {0: 'useless', 1: 'useful'}
 
- data=load_files(container_path=args.traind, encoding=None, 
+ if args.traind and not args.input:
+     data=load_files(container_path=args.traind, encoding=None, 
                                                     decode_error='replace')
- labels = data.target_names
- 
- vectorizer = TfidfVectorizer(binary=True)
- print(vectorizer)
- 
- if args.train and not args.input:
+     labels = data.target_names
+     vectorizer = TfidfVectorizer(binary=True)
+     print(vectorizer)
     f0 = open("model_params.conf")
     n_iter_search = 10
     params = [p for p in csv.DictReader(f0)]
@@ -56,10 +55,9 @@ if args.train and not args.input:
                         model_params[n].append(d[k])
 
     model_params = {k: list(set(model_params[k])) for k in model_params}
-     papers = data.data
 
-     tfidf_model = vectorizer.fit(papers)
-     X = vectorizer.transform(papers)
+     tfidf_model = vectorizer.fit(data.data)
+     X = vectorizer.transform(data.data)
     #y = [x['topic'] for x in abstracs]
     y = data.target    
 
@@ -87,15 +85,15 @@ if args.train and not args.input:
     joblib.dump(tfidf_model, 'model/tfidf_model.paper.pkl')
 
 else:
- 
+     from pdb import set_trace as st
     data=load_files(container_path=args.input, encoding=None,
                                                     decode_error='replace')
     clf = joblib.load(args.svcmodel)
     vectorizer = joblib.load('model/tfidf_model.paper.pkl')
-     papers = data.data
-     X = vectorizer.transform(papers)
-     classes = clf.predict(X)
+     X = vectorizer.transform(data.data)
 
+     classes = clf.predict(X)
+     st()
     if not os.path.exists(args.out):
         os.makedirs(args.out)
     # Writing predictions to output files
--- a/model/svd_model.pkl 0 → 100644
View file @1e051ed
+++ b/model/svd_model.pkl 0 → 100644
View file @1e051ed
--- a/model/svm_model.paper.pkl 0 → 100644
View file @1e051ed
+++ b/model/svm_model.paper.pkl 0 → 100644
View file @1e051ed
--- a/model/svm_model.pkl
View file @1e051ed
+++ b/model/svm_model.pkl
View file @1e051ed
--- a/model/tfidf_model.paper.pkl 0 → 100644
View file @1e051ed
+++ b/model/tfidf_model.paper.pkl 0 → 100644
View file @1e051ed
--- a/outRNAseq/useful.out 0 → 100644
View file @1e051ed
+++ b/outRNAseq/useful.out 0 → 100644
View file @1e051ed
--- a/outRNAseq/useless.out 0 → 100644
View file @1e051ed
+++ b/outRNAseq/useless.out 0 → 100644
View file @1e051ed