grid search classification

Ignacio Arroyo
Commit 063a626d4f84d03e9389cb5ea7b89f02df7b04b3 063a626d 0 parents
Showing 1 changed file with 175 additions and 0 deletions
get_abstracts.py
--- a/get_abstracts.py 0 → 100644
View file @063a626
+++ b/get_abstracts.py 0 → 100644
View file @063a626
+#from pdb import set_trace as st
+from sklearn.cross_validation import train_test_split as splitt
+from sklearn.feature_extraction.text import TfidfVectorizer, HashingVectorizer
+from sklearn.decomposition import TruncatedSVD
+from sklearn.naive_bayes import MultinomialNB
+from sklearn.linear_model import SGDClassifier
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.neighbors import NearestCentroid
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.svm import LinearSVC
+from sklearn.svm import SVC
+from sklearn import metrics
+from sklearn.ensemble import (ExtraTreesClassifier, RandomForestClassifier,
+                              AdaBoostClassifier, GradientBoostingClassifier)
+from sklearn.grid_search import GridSearchCV
+import pandas as pd
+from numpy import mean, std
+
+#Classifier = KNeighborsClassifier # 0.6464
+#Classifier = NearestCentroid # 0.5054
+#Classifier = RandomForestClassifier # 0.49
+#Classifier = LinearSVC # 0.5402
+#Classifier = SGDClassifier # 0.664
+
+class EstimatorSelectionHelper:
+    def __init__(self, models, params):
+        if not set(models.keys()).issubset(set(params.keys())):
+            missing_params = list(set(models.keys()) - set(params.keys()))
+            raise ValueError("Some estimators are missing parameters: %s" % missing_params)
+        self.models = models
+        self.params = params
+        self.keys = models.keys()
+        self.grid_searches = {}
+
+    def fit(self, X, y, cv=3, n_jobs=1, verbose=1, scoring=None, refit=False):
+        for key in self.keys:
+            print("Running GridSearchCV for %s." % key)
+            model = self.models[key]
+            params = self.params[key]
+            gs = GridSearchCV(model, params, cv=cv, n_jobs=n_jobs,
+                              verbose=verbose, scoring=scoring, refit=refit)
+            gs.fit(X,y)
+            self.grid_searches[key] = gs
+
+    def score_summary(self, sort_by='mean_score'):
+        def row(key, scores, params):
+            d = {
+                 'estimator': key,
+                 'min_score': min(scores),
+                 'max_score': max(scores),
+                 'mean_score': mean(scores),
+                 'std_score': std(scores),
+            }
+            return pd.Series(dict(list(params.items()) + list(d.items())))
+
+        rows = [row(k, gsc.cv_validation_scores, gsc.parameters)
+                     for k in self.keys
+                     for gsc in self.grid_searches[k].grid_scores_]
+        df = pd.concat(rows, axis=1).T.sort_values([sort_by], ascending=False)
+
+        columns = ['estimator', 'min_score', 'mean_score', 'max_score', 'std_score']
+        columns = columns + [c for c in df.columns if c not in columns]
+
+        return df[columns]
+
+
+def get_abstracts(file_name, label):
+    f = open(file_name)
+    extract = {}
+    docs = []
+    empties = []
+    lines = f.readlines()
+    copyright = False
+
+    for i, ln in enumerate(lines):
+        if not ln.strip():
+            empties.append(i)
+            continue
+        elif ' doi: ' in ln:
+            for j in range(i, i + 10):
+                if not lines[j].strip():
+                    title_idx = j + 1
+                    break
+            continue
+
+        elif 'Copyright ' in ln:
+            copyright = True
+
+        elif 'DOI: ' in ln:
+            if 'PMCID: ' in lines[i + 1]:
+                extract['pmid'] = int(lines[i + 2].strip().split()[1])
+            elif not 'PMCID: ' in lines[i + 1] and 'PMID: ' in lines[i + 1]:
+                extract['pmid'] = int(lines[i + 1].strip().split()[1])
+
+            if copyright:
+                get = slice(empties[-3], empties[-2])
+                copyright = False
+            else:
+                get = slice(empties[-2], empties[-1])
+
+            extract['body'] = " ".join(lines[get]).replace("\n", ' ').replace("  ", ' ')
+            title = []
+            for j in range(title_idx, title_idx + 5):
+                if lines[j].strip():
+                    title.append(lines[j])
+                else:
+                    break
+            extract['title'] = " ".join(title).replace("\n", ' ').replace("  ", ' ')
+            extract['topic'] = label
+            docs.append(extract)
+            empties = []
+            extract = {}
+
+    return docs
+
+
+filename="../data/ecoli_abstracts/not_useful_abstracts.txt"
+labels = ['useless', 'useful']
+
+abstracs = get_abstracts(file_name = filename, label = labels[0])
+
+filename="../data/ecoli_abstracts/useful_abstracts.txt"
+
+abstracs += get_abstracts(file_name = filename, label = labels[1])
+
+X = [x['body'] for x in abstracs]
+y = [1 if x['topic'] == 'useful' else 0 for x in abstracs]
+
+models1 = {
+    'ExtraTreesClassifier': ExtraTreesClassifier(),
+    'RandomForestClassifier': RandomForestClassifier(),
+    'AdaBoostClassifier': AdaBoostClassifier(),
+    'GradientBoostingClassifier': GradientBoostingClassifier(),
+    'SVC': SVC()
+}
+
+params1 = {
+    'ExtraTreesClassifier': { 'n_estimators': [16, 32] },
+    'RandomForestClassifier': { 'n_estimators': [16, 32] },
+    'AdaBoostClassifier':  { 'n_estimators': [16, 32] },
+    'GradientBoostingClassifier': { 'n_estimators': [16, 32], 'learning_rate': [0.8, 1.0] },
+    'SVC': [
+        #{'kernel': ['linear'], 'C': [1, 10, 100, 150, 200, 300, 400]},
+        {'kernel': ['rbf'], 'C': [1, 10, 100, 150, 200, 300, 400], 'gamma': [0.001, 0.0001]},
+        {'kernel': ['poly'], 'C': [1, 10, 100, 150, 200, 300, 400], 'degree': [2, 3, 4, 5, 6]},
+        {'kernel': ['sigmoid'], 'C': [1, 10, 100, 150, 200, 300, 400], 'gamma': [0.001, 0.0001]},
+    ]
+}
+
+clf = EstimatorSelectionHelper(models1, params1)
+
+vectorizer = TfidfVectorizer(binary=True)
+                              #ngram_range=(1, 3)
+                             #)
+#vectorizer = HashingVectorizer(non_negative=True)
+print(vectorizer)
+#svd = TruncatedSVD(n_components=200, random_state=42, n_iter=20)
+X = vectorizer.fit_transform(X)
+#X = svd.fit_transform(X)
+
+#X_train, X_test, y_train, y_test = splitt(X, y, test_size=0.3, random_state=42)
+
+#from sklearn.feature_selection import chi2, SelectKBest
+#ch2 = SelectKBest(chi2, k=200)
+#X_train = ch2.fit_transform(X_train, y_train)
+#X_test = ch2.transform(X_test)
+
+#clf = MultinomialNB(alpha=.01)
+#clf = Classifier(n_jobs=-1, n_iter=100)
+#st()
+clf.fit(X, y, scoring='f1', n_jobs=-1)
+
+#pred = clf.predict(X_test)
+#print(metrics.f1_score(y_test, pred, average='macro'))
+print(clf.score_summary(sort_by='min_score'))