HW7: Comparing MNB & SVM with Kaggle Sentiment Data

OVERVIEW


VECTORIZERS USED:

CountVectorizer
TfidfVectorizer

MODELS USED:

Multinomial Naive Bayes (MNB)
Support Vector Machines (SVM)


VECTORIZATION PARAMS:

Binary
Stopwords
Unigrams, Bigrams
Min & Max df

TODO:

Stemming?
Vadar + TextBlob

FUNCTION & PACKAGE PARTY

In [1]:
## =======================================================
## TOKENIZING
## =======================================================
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize

## =======================================================
## VECTORIZING
## =======================================================
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

## ----- VECTORIZORS
unigram_bool_cv_v1 = CountVectorizer(encoding='latin-1', binary=True, min_df=5, stop_words='english')
unigram_bool_cv_v2 = CountVectorizer(encoding='latin-1', binary=True, min_df=5, stop_words='english', 
                                     token_pattern=r'(?u)\b[a-zA-Z]{2,}\b' )

unigram_cv = CountVectorizer(encoding='latin-1', binary=False, min_df=5, stop_words='english', 
                             token_pattern=r'(?u)\b[a-zA-Z]{2,}\b' )

bigram_cv = CountVectorizer(encoding='latin-1', ngram_range=(1,2), min_df=5, stop_words='english')
bigram_cv_v2 = CountVectorizer(encoding='latin-1', ngram_range=(1,2), min_df=5, stop_words='english', 
                               token_pattern=r'(?u)\b[a-zA-Z]{2,}\b')

unigram_tv = TfidfVectorizer(encoding='latin-1', use_idf=True, min_df=5, stop_words='english')
unigram_tv_v2 = TfidfVectorizer(encoding='latin-1', use_idf=True, min_df=5, stop_words='english', 
                                token_pattern=r'(?u)\b[a-zA-Z]{2,}\b')

bigram_tv = TfidfVectorizer(encoding='latin-1', use_idf=True, ngram_range=(1,2), min_df=5, stop_words='english')
bigram_tv_v2 = TfidfVectorizer(encoding='latin-1', use_idf=True, ngram_range=(1,2), min_df=5, stop_words='english', 
                               token_pattern=r'(?u)\b[a-zA-Z]{2,}\b')

## =======================================================
## MODELING
## =======================================================
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import BernoulliNB, MultinomialNB

## ----- CLASSIFIERS
mnb = MultinomialNB()
svm = LinearSVC(C=1)

def get_test_train_vec(X,y,vectorizer):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)
    return X_train_vec, X_test_vec, y_train, y_test

def run_classifier(X_train_vec, X_test_vec, y_train, y_test, labels, target_names, classifier):
    clf = classifier
    clf.fit(X_train_vec,y_train)
    y_pred = clf.predict(X_test_vec)
    report = classification_report(y_test, y_pred, target_names=target_names,output_dict=True)
    score = clf.score(X_test_vec,y_test)
    return clf, score, report
    
def get_model(X, y, labels, target_names, classifier, vec):
    X_train_vec, X_test_vec, y_train, y_test = get_test_train_vec(X,y,vec)
    model, score, report = run_classifier(X_train_vec, X_test_vec, y_train, y_test, labels, target_names, classifier)
    return model, score, report
    
## =======================================================
## VISUALIZING
## =======================================================
from tabulate import tabulate
import pandas as pd

def return_features(vec, model):
    for i,feature_probability in enumerate(model.coef_):
        print('============ Sentiment Score: ', i)
        df1 = pd.DataFrame(sorted(zip(feature_probability, vec.get_feature_names()))[:10])
        df2 = pd.DataFrame(sorted(zip(feature_probability, vec.get_feature_names()))[-10:])
        df3 = pd.concat([df1, df2], axis=1)
        print(tabulate(df3, tablefmt="fancy_grid", headers=["Most","Likely","Least","Likely"], floatfmt=".2f"))

def update_big_df(big_df, new_row):
    big_df.append(new_row)
    df = pd.DataFrame(big_df)
    df = df.drop_duplicates()
    return df

DATA GOES HERE:

In [2]:
# import pandas as pd
train=pd.read_csv("kaggle-sentiment/train.tsv", delimiter='\t')
y=train['Sentiment'].values
X=train['Phrase'].values

TASK 1

TEST 1 -- MNB & SVM with Vectorizer 1

In [3]:
big_df = []
In [4]:
vec = unigram_bool_cv_v1
classifier = mnb

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V1', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤══════════╤═════════╤════════════╕
│    │   Most │ Likely   │   Least │ Likely     │
╞════╪════════╪══════════╪═════════╪════════════╡
│  0 │ -10.48 │ 102      │   -5.95 │ time       │
├────┼────────┼──────────┼─────────┼────────────┤
│  1 │ -10.48 │ 10th     │   -5.94 │ minutes    │
├────┼────────┼──────────┼─────────┼────────────┤
│  2 │ -10.48 │ 127      │   -5.93 │ characters │
├────┼────────┼──────────┼─────────┼────────────┤
│  3 │ -10.48 │ 13th     │   -5.93 │ story      │
├────┼────────┼──────────┼─────────┼────────────┤
│  4 │ -10.48 │ 14       │   -5.90 │ comedy     │
├────┼────────┼──────────┼─────────┼────────────┤
│  5 │ -10.48 │ 16       │   -5.70 │ just       │
├────┼────────┼──────────┼─────────┼────────────┤
│  6 │ -10.48 │ 163      │   -5.20 │ like       │
├────┼────────┼──────────┼─────────┼────────────┤
│  7 │ -10.48 │ 168      │   -5.07 │ bad        │
├────┼────────┼──────────┼─────────┼────────────┤
│  8 │ -10.48 │ 170      │   -4.85 │ film       │
├────┼────────┼──────────┼─────────┼────────────┤
│  9 │ -10.48 │ 1790     │   -4.32 │ movie      │
╘════╧════════╧══════════╧═════════╧════════════╛
============ Sentiment Score:  1
╒════╤════════╤══════════╤═════════╤════════════╕
│    │   Most │ Likely   │   Least │ Likely     │
╞════╪════════╪══════════╪═════════╪════════════╡
│  0 │ -11.33 │ 000      │   -5.74 │ characters │
├────┼────────┼──────────┼─────────┼────────────┤
│  1 │ -11.33 │ 10th     │   -5.73 │ bad        │
├────┼────────┼──────────┼─────────┼────────────┤
│  2 │ -11.33 │ 127      │   -5.66 │ rrb        │
├────┼────────┼──────────┼─────────┼────────────┤
│  3 │ -11.33 │ 14       │   -5.64 │ little     │
├────┼────────┼──────────┼─────────┼────────────┤
│  4 │ -11.33 │ 168      │   -5.48 │ story      │
├────┼────────┼──────────┼─────────┼────────────┤
│  5 │ -11.33 │ 1790     │   -5.44 │ just       │
├────┼────────┼──────────┼─────────┼────────────┤
│  6 │ -11.33 │ 1915     │   -5.43 │ does       │
├────┼────────┼──────────┼─────────┼────────────┤
│  7 │ -11.33 │ 1920     │   -5.05 │ like       │
├────┼────────┼──────────┼─────────┼────────────┤
│  8 │ -11.33 │ 1933     │   -4.69 │ film       │
├────┼────────┼──────────┼─────────┼────────────┤
│  9 │ -11.33 │ 1937     │   -4.58 │ movie      │
╘════╧════════╧══════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.84 │ abroad      │   -5.95 │ movies     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.84 │ acclaim     │   -5.90 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.84 │ acumen      │   -5.79 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.84 │ adding      │   -5.79 │ life       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.84 │ admirers    │   -5.59 │ lrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.84 │ affirms     │   -5.49 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.84 │ aggravating │   -5.34 │ rrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.84 │ aimlessly   │   -5.30 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.84 │ amaze       │   -4.75 │ movie      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.84 │ ambiguities │   -4.68 │ film       │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤══════════╤═════════╤══════════╕
│    │   Most │   Likely │   Least │ Likely   │
╞════╪════════╪══════════╪═════════╪══════════╡
│  0 │ -11.47 │      102 │   -5.77 │ lrb      │
├────┼────────┼──────────┼─────────┼──────────┤
│  1 │ -11.47 │      104 │   -5.76 │ love     │
├────┼────────┼──────────┼─────────┼──────────┤
│  2 │ -11.47 │      105 │   -5.68 │ rrb      │
├────┼────────┼──────────┼─────────┼──────────┤
│  3 │ -11.47 │      110 │   -5.67 │ life     │
├────┼────────┼──────────┼─────────┼──────────┤
│  4 │ -11.47 │      120 │   -5.57 │ like     │
├────┼────────┼──────────┼─────────┼──────────┤
│  5 │ -11.47 │      127 │   -5.50 │ story    │
├────┼────────┼──────────┼─────────┼──────────┤
│  6 │ -11.47 │      140 │   -5.49 │ funny    │
├────┼────────┼──────────┼─────────┼──────────┤
│  7 │ -11.47 │      146 │   -5.10 │ good     │
├────┼────────┼──────────┼─────────┼──────────┤
│  8 │ -11.47 │     1915 │   -4.80 │ movie    │
├────┼────────┼──────────┼─────────┼──────────┤
│  9 │ -11.47 │     1959 │   -4.49 │ film     │
╘════╧════════╧══════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤══════════╤═════════╤══════════════╕
│    │   Most │ Likely   │   Least │ Likely       │
╞════╪════════╪══════════╪═════════╪══════════════╡
│  0 │ -10.63 │ 000      │   -5.81 │ performance  │
├────┼────────┼──────────┼─────────┼──────────────┤
│  1 │ -10.63 │ 101      │   -5.77 │ comedy       │
├────┼────────┼──────────┼─────────┼──────────────┤
│  2 │ -10.63 │ 102      │   -5.73 │ great        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  3 │ -10.63 │ 103      │   -5.69 │ story        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  4 │ -10.63 │ 104      │   -5.64 │ performances │
├────┼────────┼──────────┼─────────┼──────────────┤
│  5 │ -10.63 │ 105      │   -5.47 │ good         │
├────┼────────┼──────────┼─────────┼──────────────┤
│  6 │ -10.63 │ 10th     │   -5.24 │ funny        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  7 │ -10.63 │ 110      │   -5.15 │ best         │
├────┼────────┼──────────┼─────────┼──────────────┤
│  8 │ -10.63 │ 112      │   -4.78 │ movie        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  9 │ -10.63 │ 12       │   -4.26 │ film         │
╘════╧════════╧══════════╧═════════╧══════════════╛
Out[4]:
classifier vectorizer score
0 mnb V1 0.606401
In [5]:
vec = unigram_bool_cv_v1
classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V1', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤═══════════╤═════════╤════════════════╕
│    │   Most │ Likely    │   Least │ Likely         │
╞════╪════════╪═══════════╪═════════╪════════════════╡
│  0 │  -1.84 │ hawke     │    1.63 │ cesspool       │
├────┼────────┼───────────┼─────────┼────────────────┤
│  1 │  -1.70 │ collar    │    1.66 │ pompous        │
├────┼────────┼───────────┼─────────┼────────────────┤
│  2 │  -1.70 │ giddy     │    1.69 │ stinks         │
├────┼────────┼───────────┼─────────┼────────────────┤
│  3 │  -1.59 │ swimfan   │    1.70 │ distasteful    │
├────┼────────┼───────────┼─────────┼────────────────┤
│  4 │  -1.57 │ blue      │    1.71 │ unwatchable    │
├────┼────────┼───────────┼─────────┼────────────────┤
│  5 │  -1.49 │ dogtown   │    1.73 │ disappointment │
├────┼────────┼───────────┼─────────┼────────────────┤
│  6 │  -1.43 │ victim    │    1.76 │ unbearable     │
├────┼────────┼───────────┼─────────┼────────────────┤
│  7 │  -1.42 │ joan      │    1.81 │ stinker        │
├────┼────────┼───────────┼─────────┼────────────────┤
│  8 │  -1.41 │ won       │    1.83 │ worthless      │
├────┼────────┼───────────┼─────────┼────────────────┤
│  9 │  -1.40 │ innocence │    1.83 │ disgusting     │
╘════╧════════╧═══════════╧═════════╧════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════╤═════════╤════════════╕
│    │   Most │ Likely          │   Least │ Likely     │
╞════╪════════╪═════════════════╪═════════╪════════════╡
│  0 │  -2.23 │ hunk            │    1.66 │ clunkiness │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  1 │  -2.14 │ odor            │    1.67 │ activity   │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  2 │  -2.10 │ efficient       │    1.70 │ squanders  │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  3 │  -2.06 │ indescribably   │    1.71 │ razzie     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  4 │  -2.03 │ norton          │    1.75 │ slimed     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  5 │  -1.84 │ metropolis      │    1.78 │ muddy      │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  6 │  -1.80 │ unimaginatively │    1.79 │ padded     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  7 │  -1.78 │ heels           │    1.81 │ charitable │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  8 │  -1.77 │ italicizes      │    2.02 │ outshined  │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  9 │  -1.76 │ penetrating     │    2.05 │ flatfooted │
╘════╧════════╧═════════════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════╤═════════╤════════════╕
│    │   Most │ Likely        │   Least │ Likely     │
╞════╪════════╪═══════════════╪═════════╪════════════╡
│  0 │  -2.82 │ flatfooted    │    1.82 │ handy      │
├────┼────────┼───────────────┼─────────┼────────────┤
│  1 │  -2.05 │ freshly       │    1.95 │ fashioning │
├────┼────────┼───────────────┼─────────┼────────────┤
│  2 │  -1.86 │ dimness       │    2.00 │ cunning    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  3 │  -1.85 │ magnificent   │    2.04 │ nouvelle   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  4 │  -1.83 │ insensitivity │    2.19 │ batch      │
├────┼────────┼───────────────┼─────────┼────────────┤
│  5 │  -1.83 │ elegantly     │    2.20 │ tidings    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  6 │  -1.75 │ irresistibly  │    2.38 │ unseemly   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  7 │  -1.73 │ clenching     │    2.45 │ pint       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  8 │  -1.70 │ lagging       │    2.57 │ warren     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  9 │  -1.69 │ strongest     │    2.57 │ spades     │
╘════╧════════╧═══════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤════════════╤═════════╤═══════════════╕
│    │   Most │ Likely     │   Least │ Likely        │
╞════╪════════╪════════════╪═════════╪═══════════════╡
│  0 │  -2.32 │ mib        │    1.60 │ serb          │
├────┼────────┼────────────┼─────────┼───────────────┤
│  1 │  -2.13 │ facts      │    1.64 │ clenching     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  2 │  -2.07 │ strung     │    1.70 │ pulpiness     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  3 │  -2.03 │ brutality  │    1.70 │ companionable │
├────┼────────┼────────────┼─────────┼───────────────┤
│  4 │  -1.97 │ ghost      │    1.70 │ cheerfully    │
├────┼────────┼────────────┼─────────┼───────────────┤
│  5 │  -1.95 │ wider      │    1.88 │ efficient     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  6 │  -1.94 │ agenda     │    1.89 │ knotting      │
├────┼────────┼────────────┼─────────┼───────────────┤
│  7 │  -1.89 │ mud        │    1.98 │ ideally       │
├────┼────────┼────────────┼─────────┼───────────────┤
│  8 │  -1.79 │ mid        │    1.99 │ irresistibly  │
├────┼────────┼────────────┼─────────┼───────────────┤
│  9 │  -1.77 │ concession │    2.14 │ marveled      │
╘════╧════════╧════════════╧═════════╧═══════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -2.31 │ sacrifices     │    1.56 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.86 │ maintained     │    1.58 │ flawless    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.77 │ argue          │    1.59 │ refreshes   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.69 │ 19             │    1.61 │ astonish    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.65 │ failure        │    1.64 │ phenomenal  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.64 │ homage         │    1.65 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.61 │ breezy         │    1.68 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.61 │ bore           │    1.88 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.54 │ clone          │    1.97 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.54 │ nonchallenging │    2.02 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
Out[5]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183

NOTES: Very interesting!! MNB is very cluttered with numbers. SVM is not.

TEST 2 -- MNB & SVM with Vectorizer 2

In [6]:
vec = unigram_bool_cv_v2
classifier = mnb


model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V2', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -10.47 │ aaliyah     │   -5.94 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -10.47 │ abagnale    │   -5.93 │ minutes    │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -10.47 │ abandoned   │   -5.92 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -10.47 │ abbreviated │   -5.92 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -10.47 │ abel        │   -5.90 │ comedy     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -10.47 │ abhors      │   -5.69 │ just       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -10.47 │ abiding     │   -5.19 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -10.47 │ ably        │   -5.06 │ bad        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -10.47 │ aborted     │   -4.84 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -10.47 │ abrahams    │   -4.31 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════╤═════════╤════════════╕
│    │   Most │ Likely    │   Least │ Likely     │
╞════╪════════╪═══════════╪═════════╪════════════╡
│  0 │ -11.32 │ abagnale  │   -5.73 │ characters │
├────┼────────┼───────────┼─────────┼────────────┤
│  1 │ -11.32 │ abbott    │   -5.73 │ bad        │
├────┼────────┼───────────┼─────────┼────────────┤
│  2 │ -11.32 │ abdul     │   -5.65 │ rrb        │
├────┼────────┼───────────┼─────────┼────────────┤
│  3 │ -11.32 │ abel      │   -5.63 │ little     │
├────┼────────┼───────────┼─────────┼────────────┤
│  4 │ -11.32 │ abilities │   -5.48 │ story      │
├────┼────────┼───────────┼─────────┼────────────┤
│  5 │ -11.32 │ ably      │   -5.44 │ just       │
├────┼────────┼───────────┼─────────┼────────────┤
│  6 │ -11.32 │ abrahams  │   -5.42 │ does       │
├────┼────────┼───────────┼─────────┼────────────┤
│  7 │ -11.32 │ abroad    │   -5.05 │ like       │
├────┼────────┼───────────┼─────────┼────────────┤
│  8 │ -11.32 │ access    │   -4.68 │ film       │
├────┼────────┼───────────┼─────────┼────────────┤
│  9 │ -11.32 │ acclaim   │   -4.57 │ movie      │
╘════╧════════╧═══════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.83 │ abroad      │   -5.95 │ movies     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.83 │ acclaim     │   -5.90 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.83 │ acumen      │   -5.78 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.83 │ adding      │   -5.78 │ life       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.83 │ admirers    │   -5.59 │ lrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.83 │ affirms     │   -5.49 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.83 │ aggravating │   -5.33 │ rrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.83 │ aimlessly   │   -5.29 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.83 │ amaze       │   -4.74 │ movie      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.83 │ ambiguities │   -4.68 │ film       │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -11.47 │ aaliyah     │   -5.77 │ lrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -11.47 │ abbreviated │   -5.75 │ love     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -11.47 │ abc         │   -5.68 │ rrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -11.47 │ abhorrent   │   -5.67 │ life     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -11.47 │ abhors      │   -5.57 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -11.47 │ abomination │   -5.50 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -11.47 │ aborted     │   -5.49 │ funny    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -11.47 │ abrupt      │   -5.10 │ good     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -11.47 │ absent      │   -4.80 │ movie    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -11.47 │ absurdities │   -4.48 │ film     │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════╤═════════╤══════════════╕
│    │   Most │ Likely      │   Least │ Likely       │
╞════╪════════╪═════════════╪═════════╪══════════════╡
│  0 │ -10.62 │ aaliyah     │   -5.81 │ performance  │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  1 │ -10.62 │ abagnale    │   -5.77 │ comedy       │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  2 │ -10.62 │ abandoned   │   -5.72 │ great        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  3 │ -10.62 │ abbott      │   -5.69 │ story        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  4 │ -10.62 │ abbreviated │   -5.64 │ performances │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  5 │ -10.62 │ abc         │   -5.46 │ good         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  6 │ -10.62 │ abdul       │   -5.23 │ funny        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  7 │ -10.62 │ abhorrent   │   -5.14 │ best         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  8 │ -10.62 │ abhors      │   -4.77 │ movie        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  9 │ -10.62 │ abiding     │   -4.25 │ film         │
╘════╧════════╧═════════════╧═════════╧══════════════╛
Out[6]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
In [7]:
vec = unigram_bool_cv_v2
classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V2', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤═══════════╤═════════╤════════════════╕
│    │   Most │ Likely    │   Least │ Likely         │
╞════╪════════╪═══════════╪═════════╪════════════════╡
│  0 │  -1.81 │ hawke     │    1.63 │ cesspool       │
├────┼────────┼───────────┼─────────┼────────────────┤
│  1 │  -1.71 │ collar    │    1.66 │ pompous        │
├────┼────────┼───────────┼─────────┼────────────────┤
│  2 │  -1.69 │ giddy     │    1.69 │ stinks         │
├────┼────────┼───────────┼─────────┼────────────────┤
│  3 │  -1.59 │ swimfan   │    1.70 │ distasteful    │
├────┼────────┼───────────┼─────────┼────────────────┤
│  4 │  -1.57 │ blue      │    1.71 │ unwatchable    │
├────┼────────┼───────────┼─────────┼────────────────┤
│  5 │  -1.45 │ dogtown   │    1.72 │ disappointment │
├────┼────────┼───────────┼─────────┼────────────────┤
│  6 │  -1.41 │ victim    │    1.76 │ unbearable     │
├────┼────────┼───────────┼─────────┼────────────────┤
│  7 │  -1.41 │ joan      │    1.81 │ disgusting     │
├────┼────────┼───────────┼─────────┼────────────────┤
│  8 │  -1.41 │ won       │    1.81 │ stinker        │
├────┼────────┼───────────┼─────────┼────────────────┤
│  9 │  -1.40 │ innocence │    1.82 │ worthless      │
╘════╧════════╧═══════════╧═════════╧════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════╤═════════╤════════════╕
│    │   Most │ Likely          │   Least │ Likely     │
╞════╪════════╪═════════════════╪═════════╪════════════╡
│  0 │  -2.22 │ hunk            │    1.67 │ activity   │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  1 │  -2.14 │ odor            │    1.67 │ clunkiness │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  2 │  -2.11 │ efficient       │    1.70 │ razzie     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  3 │  -2.05 │ indescribably   │    1.70 │ squanders  │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  4 │  -2.05 │ norton          │    1.75 │ slimed     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  5 │  -1.85 │ metropolis      │    1.77 │ muddy      │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  6 │  -1.79 │ unimaginatively │    1.79 │ padded     │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  7 │  -1.79 │ heels           │    1.81 │ charitable │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  8 │  -1.77 │ italicizes      │    1.96 │ outshined  │
├────┼────────┼─────────────────┼─────────┼────────────┤
│  9 │  -1.77 │ penetrating     │    2.04 │ flatfooted │
╘════╧════════╧═════════════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════╤═════════╤════════════╕
│    │   Most │ Likely        │   Least │ Likely     │
╞════╪════════╪═══════════════╪═════════╪════════════╡
│  0 │  -2.80 │ flatfooted    │    1.83 │ handy      │
├────┼────────┼───────────────┼─────────┼────────────┤
│  1 │  -2.04 │ freshly       │    1.98 │ cunning    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  2 │  -1.88 │ dimness       │    1.99 │ fashioning │
├────┼────────┼───────────────┼─────────┼────────────┤
│  3 │  -1.85 │ magnificent   │    2.02 │ nouvelle   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  4 │  -1.82 │ insensitivity │    2.18 │ batch      │
├────┼────────┼───────────────┼─────────┼────────────┤
│  5 │  -1.81 │ elegantly     │    2.19 │ tidings    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  6 │  -1.75 │ irresistibly  │    2.37 │ unseemly   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  7 │  -1.72 │ clenching     │    2.49 │ pint       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  8 │  -1.71 │ lagging       │    2.56 │ warren     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  9 │  -1.70 │ strongest     │    2.57 │ spades     │
╘════╧════════╧═══════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤════════════╤═════════╤═══════════════╕
│    │   Most │ Likely     │   Least │ Likely        │
╞════╪════════╪════════════╪═════════╪═══════════════╡
│  0 │  -2.32 │ mib        │    1.59 │ serb          │
├────┼────────┼────────────┼─────────┼───────────────┤
│  1 │  -2.13 │ facts      │    1.60 │ compels       │
├────┼────────┼────────────┼─────────┼───────────────┤
│  2 │  -2.08 │ strung     │    1.64 │ clenching     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  3 │  -2.03 │ brutality  │    1.70 │ companionable │
├────┼────────┼────────────┼─────────┼───────────────┤
│  4 │  -1.95 │ ghost      │    1.70 │ pulpiness     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  5 │  -1.95 │ wider      │    1.88 │ efficient     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  6 │  -1.94 │ agenda     │    1.90 │ knotting      │
├────┼────────┼────────────┼─────────┼───────────────┤
│  7 │  -1.89 │ mud        │    1.98 │ ideally       │
├────┼────────┼────────────┼─────────┼───────────────┤
│  8 │  -1.78 │ mid        │    1.99 │ irresistibly  │
├────┼────────┼────────────┼─────────┼───────────────┤
│  9 │  -1.77 │ concession │    2.12 │ marveled      │
╘════╧════════╧════════════╧═════════╧═══════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -2.32 │ sacrifices     │    1.57 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.86 │ maintained     │    1.58 │ flawless    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.77 │ argue          │    1.59 │ refreshes   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.66 │ failure        │    1.61 │ astonish    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.61 │ bore           │    1.63 │ phenomenal  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.55 │ nonchallenging │    1.65 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.53 │ clone          │    1.68 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.53 │ forcefully     │    1.91 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.52 │ lame           │    1.96 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.47 │ homage         │    2.02 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
Out[7]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503

TEST 3 -- MNB & SVM with Vectorizer 3

In [8]:
vec = unigram_cv
classifier = mnb


model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V3', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -10.48 │ aaliyah     │   -5.93 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -10.48 │ abagnale    │   -5.92 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -10.48 │ abandoned   │   -5.91 │ minutes    │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -10.48 │ abbreviated │   -5.91 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -10.48 │ abel        │   -5.90 │ comedy     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -10.48 │ abhors      │   -5.68 │ just       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -10.48 │ abiding     │   -5.13 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -10.48 │ ably        │   -4.97 │ bad        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -10.48 │ aborted     │   -4.82 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -10.48 │ abrahams    │   -4.31 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════╤═════════╤══════════╕
│    │   Most │ Likely    │   Least │ Likely   │
╞════╪════════╪═══════════╪═════════╪══════════╡
│  0 │ -11.33 │ abagnale  │   -5.73 │ lrb      │
├────┼────────┼───────────┼─────────┼──────────┤
│  1 │ -11.33 │ abbott    │   -5.69 │ bad      │
├────┼────────┼───────────┼─────────┼──────────┤
│  2 │ -11.33 │ abdul     │   -5.64 │ rrb      │
├────┼────────┼───────────┼─────────┼──────────┤
│  3 │ -11.33 │ abel      │   -5.63 │ little   │
├────┼────────┼───────────┼─────────┼──────────┤
│  4 │ -11.33 │ abilities │   -5.48 │ story    │
├────┼────────┼───────────┼─────────┼──────────┤
│  5 │ -11.33 │ ably      │   -5.44 │ just     │
├────┼────────┼───────────┼─────────┼──────────┤
│  6 │ -11.33 │ abrahams  │   -5.43 │ does     │
├────┼────────┼───────────┼─────────┼──────────┤
│  7 │ -11.33 │ abroad    │   -5.03 │ like     │
├────┼────────┼───────────┼─────────┼──────────┤
│  8 │ -11.33 │ access    │   -4.68 │ film     │
├────┼────────┼───────────┼─────────┼──────────┤
│  9 │ -11.33 │ acclaim   │   -4.56 │ movie    │
╘════╧════════╧═══════════╧═════════╧══════════╛
============ Sentiment Score:  2
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.83 │ abroad      │   -5.93 │ movies     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.83 │ acclaim     │   -5.90 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.83 │ acumen      │   -5.77 │ life       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.83 │ adding      │   -5.77 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.83 │ admirers    │   -5.56 │ lrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.83 │ affirms     │   -5.48 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.83 │ aggravating │   -5.31 │ rrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.83 │ aimlessly   │   -5.28 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.83 │ amaze       │   -4.73 │ movie      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.83 │ ambiguities │   -4.68 │ film       │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -11.47 │ aaliyah     │   -5.75 │ love     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -11.47 │ abbreviated │   -5.75 │ lrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -11.47 │ abc         │   -5.66 │ life     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -11.47 │ abhorrent   │   -5.66 │ rrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -11.47 │ abhors      │   -5.56 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -11.47 │ abomination │   -5.49 │ funny    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -11.47 │ aborted     │   -5.49 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -11.47 │ abrupt      │   -5.09 │ good     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -11.47 │ absent      │   -4.77 │ movie    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -11.47 │ absurdities │   -4.48 │ film     │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════╤═════════╤══════════════╕
│    │   Most │ Likely      │   Least │ Likely       │
╞════╪════════╪═════════════╪═════════╪══════════════╡
│  0 │ -10.63 │ aaliyah     │   -5.81 │ performance  │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  1 │ -10.63 │ abagnale    │   -5.77 │ comedy       │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  2 │ -10.63 │ abandoned   │   -5.72 │ great        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  3 │ -10.63 │ abbott      │   -5.69 │ story        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  4 │ -10.63 │ abbreviated │   -5.64 │ performances │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  5 │ -10.63 │ abc         │   -5.37 │ good         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  6 │ -10.63 │ abdul       │   -5.23 │ funny        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  7 │ -10.63 │ abhorrent   │   -5.13 │ best         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  8 │ -10.63 │ abhors      │   -4.76 │ movie        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  9 │ -10.63 │ abiding     │   -4.25 │ film         │
╘════╧════════╧═════════════╧═════════╧══════════════╛
Out[8]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
In [9]:
vec = unigram_cv
classifier = svm


model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)

df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V3', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤══════════════╤═════════╤════════════════╕
│    │   Most │ Likely       │   Least │ Likely         │
╞════╪════════╪══════════════╪═════════╪════════════════╡
│  0 │  -1.80 │ hawke        │    1.63 │ cesspool       │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  1 │  -1.73 │ giddy        │    1.65 │ disappointment │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  2 │  -1.70 │ collar       │    1.66 │ pompous        │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  3 │  -1.58 │ swimfan      │    1.67 │ stinks         │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  4 │  -1.57 │ blue         │    1.69 │ unwatchable    │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  5 │  -1.45 │ dogtown      │    1.70 │ distasteful    │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  6 │  -1.40 │ clamoring    │    1.75 │ unbearable     │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  7 │  -1.40 │ joan         │    1.79 │ stinker        │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  8 │  -1.37 │ victim       │    1.80 │ disgusting     │
├────┼────────┼──────────────┼─────────┼────────────────┤
│  9 │  -1.34 │ compulsively │    1.82 │ worthless      │
╘════╧════════╧══════════════╧═════════╧════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════╤═════════╤═══════════════╕
│    │   Most │ Likely          │   Least │ Likely        │
╞════╪════════╪═════════════════╪═════════╪═══════════════╡
│  0 │  -2.23 │ hunk            │    1.69 │ squanders     │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  1 │  -2.15 │ odor            │    1.70 │ razzie        │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  2 │  -2.06 │ efficient       │    1.71 │ activity      │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  3 │  -2.05 │ norton          │    1.73 │ insensitivity │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  4 │  -2.03 │ indescribably   │    1.74 │ slimed        │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  5 │  -1.85 │ metropolis      │    1.77 │ muddy         │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  6 │  -1.79 │ penetrating     │    1.81 │ padded        │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  7 │  -1.79 │ italicizes      │    1.84 │ charitable    │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  8 │  -1.79 │ heels           │    1.97 │ outshined     │
├────┼────────┼─────────────────┼─────────┼───────────────┤
│  9 │  -1.79 │ unimaginatively │    2.04 │ flatfooted    │
╘════╧════════╧═════════════════╧═════════╧═══════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════╤═════════╤════════════╕
│    │   Most │ Likely        │   Least │ Likely     │
╞════╪════════╪═══════════════╪═════════╪════════════╡
│  0 │  -2.80 │ flatfooted    │    1.77 │ guei       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  1 │  -2.03 │ freshly       │    1.98 │ cunning    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  2 │  -1.88 │ dimness       │    1.98 │ fashioning │
├────┼────────┼───────────────┼─────────┼────────────┤
│  3 │  -1.86 │ insensitivity │    2.03 │ nouvelle   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  4 │  -1.85 │ magnificent   │    2.14 │ batch      │
├────┼────────┼───────────────┼─────────┼────────────┤
│  5 │  -1.80 │ elegantly     │    2.21 │ tidings    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  6 │  -1.74 │ irresistibly  │    2.36 │ unseemly   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  7 │  -1.72 │ clenching     │    2.46 │ pint       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  8 │  -1.71 │ strongest     │    2.53 │ spades     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  9 │  -1.69 │ lagging       │    2.56 │ warren     │
╘════╧════════╧═══════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤════════════╤═════════╤═══════════════╕
│    │   Most │ Likely     │   Least │ Likely        │
╞════╪════════╪════════════╪═════════╪═══════════════╡
│  0 │  -2.33 │ mib        │    1.60 │ serb          │
├────┼────────┼────────────┼─────────┼───────────────┤
│  1 │  -2.13 │ facts      │    1.65 │ clenching     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  2 │  -2.08 │ strung     │    1.65 │ embraced      │
├────┼────────┼────────────┼─────────┼───────────────┤
│  3 │  -1.97 │ brutality  │    1.68 │ pulpiness     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  4 │  -1.95 │ wider      │    1.70 │ companionable │
├────┼────────┼────────────┼─────────┼───────────────┤
│  5 │  -1.95 │ ghost      │    1.88 │ efficient     │
├────┼────────┼────────────┼─────────┼───────────────┤
│  6 │  -1.92 │ agenda     │    1.89 │ knotting      │
├────┼────────┼────────────┼─────────┼───────────────┤
│  7 │  -1.88 │ mud        │    1.99 │ irresistibly  │
├────┼────────┼────────────┼─────────┼───────────────┤
│  8 │  -1.76 │ concession │    1.99 │ ideally       │
├────┼────────┼────────────┼─────────┼───────────────┤
│  9 │  -1.73 │ unless     │    2.10 │ marveled      │
╘════╧════════╧════════════╧═════════╧═══════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -2.32 │ sacrifices     │    1.58 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.87 │ maintained     │    1.60 │ astonish    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.84 │ placed         │    1.61 │ refreshes   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.80 │ argue          │    1.61 │ flawless    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.63 │ failure        │    1.64 │ phenomenal  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.60 │ bore           │    1.65 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.54 │ forcefully     │    1.68 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.53 │ clone          │    1.91 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.53 │ nonchallenging │    1.97 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.47 │ homage         │    2.01 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
Out[9]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815

TEST 4 -- MNB & SVM with Vectorizer 4

In [10]:
vec = bigram_cv
classifier = mnb

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V4', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V4', 'score': score})
df
============ Sentiment Score:  0
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.17 │ 10 course   │   -6.63 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.17 │ 10 year     │   -6.62 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.17 │ 100 minute  │   -6.61 │ minutes    │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.17 │ 100 years   │   -6.61 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.17 │ 101 minutes │   -6.60 │ comedy     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.17 │ 101 premise │   -6.38 │ just       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.17 │ 102         │   -5.83 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.17 │ 102 minute  │   -5.66 │ bad        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.17 │ 10th        │   -5.52 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.17 │ 10th grade  │   -5.01 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -11.88 │ 000         │   -6.27 │ lrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -11.88 │ 10 course   │   -6.24 │ bad      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -11.88 │ 100 minutes │   -6.18 │ rrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -11.88 │ 10th        │   -6.17 │ little   │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -11.88 │ 10th grade  │   -6.02 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -11.88 │ 11 new      │   -5.98 │ just     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -11.88 │ 11 period   │   -5.97 │ does     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -11.88 │ 12 shot     │   -5.57 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -11.88 │ 127         │   -5.23 │ film     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -11.88 │ 127 years   │   -5.10 │ movie    │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════════╤═════════╤════════════╕
│    │   Most │ Likely            │   Least │ Likely     │
╞════╪════════╪═══════════════════╪═════════╪════════════╡
│  0 │ -12.30 │ 1937 breakthrough │   -6.40 │ movies     │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  1 │ -12.30 │ 1957 drama        │   -6.37 │ characters │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  2 │ -12.30 │ 86 minutes        │   -6.24 │ life       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  3 │ -12.30 │ 88 minute         │   -6.24 │ time       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  4 │ -12.30 │ abandon theater   │   -6.03 │ lrb        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  5 │ -12.30 │ ability shock     │   -5.95 │ story      │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  6 │ -12.30 │ ability think     │   -5.78 │ rrb        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  7 │ -12.30 │ able performances │   -5.75 │ like       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  8 │ -12.30 │ able project      │   -5.20 │ movie      │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  9 │ -12.30 │ abroad            │   -5.14 │ film       │
╘════╧════════╧═══════════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -12.00 │ 10 seconds  │   -6.27 │ love     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -12.00 │ 10 years    │   -6.27 │ lrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -12.00 │ 100 minute  │   -6.18 │ life     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -12.00 │ 102         │   -6.18 │ rrb      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -12.00 │ 102 minute  │   -6.08 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -12.00 │ 104         │   -6.02 │ funny    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -12.00 │ 104 minutes │   -6.01 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -12.00 │ 105         │   -5.61 │ good     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -12.00 │ 105 minutes │   -5.29 │ movie    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -12.00 │ 110         │   -5.00 │ film     │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════╤═════════╤══════════════╕
│    │   Most │ Likely      │   Least │ Likely       │
╞════╪════════╪═════════════╪═════════╪══════════════╡
│  0 │ -11.28 │ 000         │   -6.46 │ performance  │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  1 │ -11.28 │ 10 15       │   -6.42 │ comedy       │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  2 │ -11.28 │ 10 minutes  │   -6.37 │ great        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  3 │ -11.28 │ 10 seconds  │   -6.34 │ story        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  4 │ -11.28 │ 10 year     │   -6.29 │ performances │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  5 │ -11.28 │ 10 years    │   -6.02 │ good         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  6 │ -11.28 │ 100 minute  │   -5.88 │ funny        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  7 │ -11.28 │ 101         │   -5.78 │ best         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  8 │ -11.28 │ 101 minutes │   -5.41 │ movie        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  9 │ -11.28 │ 101 premise │   -4.90 │ film         │
╘════╧════════╧═════════════╧═════════╧══════════════╛
/Users/danielcaraway/anaconda3/lib/python3.7/site-packages/sklearn/svm/base.py:929: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
============ Sentiment Score:  0
╒════╤════════╤═════════════════╤═════════╤═════════════════════╕
│    │   Most │ Likely          │   Least │ Likely              │
╞════╪════════╪═════════════════╪═════════╪═════════════════════╡
│  0 │  -2.01 │ good good       │    1.74 │ charm laughs        │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  1 │  -1.99 │ director ca     │    1.75 │ unappealing         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  2 │  -1.82 │ variation       │    1.76 │ unwatchable         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  3 │  -1.73 │ bad cinema      │    1.80 │ unbearable          │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  4 │  -1.60 │ acting ensemble │    1.80 │ waste               │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  5 │  -1.57 │ swimfan         │    1.81 │ utterly incompetent │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  6 │  -1.43 │ payoff audience │    1.86 │ disgusting          │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  7 │  -1.41 │ luridly         │    1.92 │ distasteful         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  8 │  -1.38 │ wannabe comedy  │    1.96 │ pompous             │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  9 │  -1.37 │ took            │    1.96 │ garbage             │
╘════╧════════╧═════════════════╧═════════╧═════════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════════════╤═════════╤═════════════════════════╕
│    │   Most │ Likely                  │   Least │ Likely                  │
╞════╪════════╪═════════════════════════╪═════════╪═════════════════════════╡
│  0 │  -2.34 │ flat dialogue           │    1.69 │ dismay                  │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  1 │  -2.18 │ justice awfulness       │    1.73 │ wanes                   │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  2 │  -2.05 │ blarney                 │    1.74 │ interested entertaining │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  3 │  -2.02 │ say bear                │    1.75 │ muddy                   │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  4 │  -1.99 │ wo feel                 │    1.80 │ overbearing             │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  5 │  -1.99 │ shallow immature        │    1.91 │ forget monday           │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  6 │  -1.95 │ badly hard              │    1.94 │ flatfooted              │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  7 │  -1.94 │ unlikable uninteresting │    1.98 │ note performance        │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  8 │  -1.93 │ hunk                    │    1.98 │ word english            │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  9 │  -1.90 │ director clare          │    2.23 │ disappointingly slice   │
╘════╧════════╧═════════════════════════╧═════════╧═════════════════════════╛
============ Sentiment Score:  2
╒════╤════════╤══════════════════════╤═════════╤════════════════════════╕
│    │   Most │ Likely               │   Least │ Likely                 │
╞════╪════════╪══════════════════════╪═════════╪════════════════════════╡
│  0 │  -2.28 │ freshly              │    2.00 │ promise high           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  1 │  -2.16 │ flatfooted           │    2.01 │ oscar make             │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  2 │  -2.08 │ surprise plot        │    2.02 │ enjoy good             │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  3 │  -2.02 │ compare friday       │    2.02 │ performance consummate │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  4 │  -1.92 │ primitive technique  │    2.03 │ traditional thriller   │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  5 │  -1.92 │ alienating involving │    2.08 │ oscar season           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  6 │  -1.79 │ magnificent          │    2.11 │ ludicrous cult         │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  7 │  -1.79 │ slight called        │    2.11 │ budget movie           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  8 │  -1.76 │ delightful           │    2.15 │ age film               │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  9 │  -1.75 │ dimwits              │    2.44 │ enjoy mindless         │
╘════╧════════╧══════════════════════╧═════════╧════════════════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════════════╤═════════╤═══════════════════════╕
│    │   Most │ Likely              │   Least │ Likely                │
╞════╪════════╪═════════════════════╪═════════╪═══════════════════════╡
│  0 │  -2.74 │ gorgeous passionate │    1.61 │ joyous life           │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  1 │  -2.52 │ mid                 │    1.62 │ wo tapping            │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  2 │  -2.10 │ little emotional    │    1.64 │ action packed         │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  3 │  -2.08 │ art direction       │    1.66 │ amusing unpredictable │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  4 │  -2.08 │ really won          │    1.69 │ deeply concerned      │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  5 │  -2.07 │ energetic original  │    1.70 │ story horrifying      │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  6 │  -2.06 │ canny crowd         │    1.76 │ best case             │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  7 │  -2.03 │ puzzling            │    1.76 │ hand director         │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  8 │  -2.02 │ smart solid         │    1.85 │ far disappointing     │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  9 │  -2.01 │ unless              │    1.87 │ wo feel               │
╘════╧════════╧═════════════════════╧═════════╧═══════════════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -2.10 │ real star      │    1.65 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -2.08 │ thanks actors  │    1.66 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.92 │ american add   │    1.69 │ flawless    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.82 │ breezy         │    1.74 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.74 │ 19             │    1.74 │ gem         │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.70 │ bore           │    1.74 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.66 │ really pretty  │    1.81 │ cut rest    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.56 │ argue          │    1.86 │ amazing     │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.55 │ lovely amazing │    2.02 │ masterpiece │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.54 │ season picture │    2.13 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
Out[10]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
In [11]:
df
Out[11]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094

TEST 5 -- MNB & SVM with Vectorizer 5

In [12]:
vec = bigram_cv_v2
classifier = mnb


model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V5', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V5', 'score': score})
============ Sentiment Score:  0
╒════╤════════╤═══════════════════╤═════════╤════════════╕
│    │   Most │ Likely            │   Least │ Likely     │
╞════╪════════╪═══════════════════╪═════════╪════════════╡
│  0 │ -11.16 │ aaliyah           │   -6.62 │ time       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  1 │ -11.16 │ abagnale          │   -6.61 │ characters │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  2 │ -11.16 │ abagnale antics   │   -6.60 │ minutes    │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  3 │ -11.16 │ abandon political │   -6.60 │ story      │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  4 │ -11.16 │ abandoned         │   -6.59 │ comedy     │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  5 │ -11.16 │ abbreviated       │   -6.37 │ just       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  6 │ -11.16 │ abel              │   -5.82 │ like       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  7 │ -11.16 │ abel ferrara      │   -5.65 │ bad        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  8 │ -11.16 │ abhors            │   -5.51 │ film       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  9 │ -11.16 │ abiding           │   -5.00 │ movie      │
╘════╧════════╧═══════════════════╧═════════╧════════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════════════╤═════════╤══════════╕
│    │   Most │ Likely            │   Least │ Likely   │
╞════╪════════╪═══════════════════╪═════════╪══════════╡
│  0 │ -11.87 │ abagnale          │   -6.27 │ lrb      │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  1 │ -11.87 │ abagnale antics   │   -6.23 │ bad      │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  2 │ -11.87 │ abandon political │   -6.18 │ rrb      │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  3 │ -11.87 │ abbott            │   -6.17 │ little   │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  4 │ -11.87 │ abbott ernest     │   -6.02 │ story    │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  5 │ -11.87 │ abdul             │   -5.97 │ just     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  6 │ -11.87 │ abdul malik       │   -5.96 │ does     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  7 │ -11.87 │ abel              │   -5.57 │ like     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  8 │ -11.87 │ abel ferrara      │   -5.22 │ film     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  9 │ -11.87 │ abilities         │   -5.09 │ movie    │
╘════╧════════╧═══════════════════╧═════════╧══════════╛
============ Sentiment Score:  2
╒════╤════════╤════════════════════════╤═════════╤════════════╕
│    │   Most │ Likely                 │   Least │ Likely     │
╞════╪════════╪════════════════════════╪═════════╪════════════╡
│  0 │ -12.29 │ abandon theater        │   -6.39 │ movies     │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  1 │ -12.29 │ ability shock          │   -6.36 │ characters │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  2 │ -12.29 │ ability think          │   -6.24 │ life       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  3 │ -12.29 │ able performances      │   -6.24 │ time       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  4 │ -12.29 │ able project           │   -6.02 │ lrb        │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  5 │ -12.29 │ abroad                 │   -5.94 │ story      │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  6 │ -12.29 │ absolutely earned      │   -5.77 │ rrb        │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  7 │ -12.29 │ absolutely inescapably │   -5.74 │ like       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  8 │ -12.29 │ absorbing characters   │   -5.19 │ movie      │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  9 │ -12.29 │ absorbing look         │   -5.14 │ film       │
╘════╧════════╧════════════════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════════╤═════════╤══════════╕
│    │   Most │ Likely          │   Least │ Likely   │
╞════╪════════╪═════════════════╪═════════╪══════════╡
│  0 │ -11.99 │ aaliyah         │   -6.26 │ love     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  1 │ -11.99 │ abandon theater │   -6.26 │ lrb      │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  2 │ -11.99 │ abbreviated     │   -6.18 │ life     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  3 │ -11.99 │ abc             │   -6.18 │ rrb      │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  4 │ -11.99 │ abhorrent       │   -6.07 │ like     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  5 │ -11.99 │ abhors          │   -6.01 │ funny    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  6 │ -11.99 │ ability shock   │   -6.01 │ story    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  7 │ -11.99 │ able accomplish │   -5.61 │ good     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  8 │ -11.99 │ able better     │   -5.29 │ movie    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  9 │ -11.99 │ able project    │   -4.99 │ film     │
╘════╧════════╧═════════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════════╤═════════╤══════════════╕
│    │   Most │ Likely          │   Least │ Likely       │
╞════╪════════╪═════════════════╪═════════╪══════════════╡
│  0 │ -11.27 │ aaliyah         │   -6.46 │ performance  │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  1 │ -11.27 │ abagnale        │   -6.41 │ comedy       │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  2 │ -11.27 │ abagnale antics │   -6.36 │ great        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  3 │ -11.27 │ abandon scripts │   -6.34 │ story        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  4 │ -11.27 │ abandon theater │   -6.29 │ performances │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  5 │ -11.27 │ abandoned       │   -6.01 │ good         │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  6 │ -11.27 │ abbott          │   -5.87 │ funny        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  7 │ -11.27 │ abbott ernest   │   -5.78 │ best         │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  8 │ -11.27 │ abbreviated     │   -5.40 │ movie        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  9 │ -11.27 │ abc             │   -4.89 │ film         │
╘════╧════════╧═════════════════╧═════════╧══════════════╛
/Users/danielcaraway/anaconda3/lib/python3.7/site-packages/sklearn/svm/base.py:929: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
============ Sentiment Score:  0
╒════╤════════╤═════════════════╤═════════╤═════════════════════╕
│    │   Most │ Likely          │   Least │ Likely              │
╞════╪════════╪═════════════════╪═════════╪═════════════════════╡
│  0 │  -2.02 │ director ca     │    1.75 │ unappealing         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  1 │  -1.98 │ good good       │    1.75 │ charm laughs        │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  2 │  -1.83 │ variation       │    1.76 │ unwatchable         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  3 │  -1.73 │ bad cinema      │    1.80 │ unbearable          │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  4 │  -1.59 │ acting ensemble │    1.81 │ utterly incompetent │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  5 │  -1.57 │ swimfan         │    1.81 │ waste               │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  6 │  -1.44 │ took            │    1.86 │ disgusting          │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  7 │  -1.42 │ luridly         │    1.92 │ distasteful         │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  8 │  -1.39 │ payoff audience │    1.96 │ pompous             │
├────┼────────┼─────────────────┼─────────┼─────────────────────┤
│  9 │  -1.38 │ wannabe comedy  │    1.96 │ garbage             │
╘════╧════════╧═════════════════╧═════════╧═════════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════════════╤═════════╤═════════════════════════╕
│    │   Most │ Likely                  │   Least │ Likely                  │
╞════╪════════╪═════════════════════════╪═════════╪═════════════════════════╡
│  0 │  -2.34 │ flat dialogue           │    1.70 │ funny entertaining      │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  1 │  -2.20 │ justice awfulness       │    1.75 │ muddy                   │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  2 │  -2.05 │ blarney                 │    1.75 │ interested entertaining │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  3 │  -2.03 │ say bear                │    1.75 │ wanes                   │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  4 │  -2.00 │ wo feel                 │    1.79 │ overbearing             │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  5 │  -2.00 │ shallow immature        │    1.91 │ forget monday           │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  6 │  -1.95 │ badly hard              │    1.94 │ flatfooted              │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  7 │  -1.94 │ unlikable uninteresting │    1.98 │ word english            │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  8 │  -1.93 │ hunk                    │    1.98 │ note performance        │
├────┼────────┼─────────────────────────┼─────────┼─────────────────────────┤
│  9 │  -1.90 │ director clare          │    2.22 │ disappointingly slice   │
╘════╧════════╧═════════════════════════╧═════════╧═════════════════════════╛
============ Sentiment Score:  2
╒════╤════════╤══════════════════════╤═════════╤════════════════════════╕
│    │   Most │ Likely               │   Least │ Likely                 │
╞════╪════════╪══════════════════════╪═════════╪════════════════════════╡
│  0 │  -2.28 │ freshly              │    2.00 │ promise high           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  1 │  -2.16 │ flatfooted           │    2.01 │ oscar make             │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  2 │  -2.07 │ surprise plot        │    2.02 │ enjoy good             │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  3 │  -2.01 │ compare friday       │    2.04 │ performance consummate │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  4 │  -1.93 │ primitive technique  │    2.04 │ traditional thriller   │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  5 │  -1.92 │ korean film          │    2.06 │ oscar season           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  6 │  -1.92 │ alienating involving │    2.11 │ ludicrous cult         │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  7 │  -1.79 │ magnificent          │    2.15 │ age film               │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  8 │  -1.79 │ slight called        │    2.16 │ budget movie           │
├────┼────────┼──────────────────────┼─────────┼────────────────────────┤
│  9 │  -1.76 │ delightful           │    2.44 │ enjoy mindless         │
╘════╧════════╧══════════════════════╧═════════╧════════════════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════════════╤═════════╤═══════════════════════╕
│    │   Most │ Likely              │   Least │ Likely                │
╞════╪════════╪═════════════════════╪═════════╪═══════════════════════╡
│  0 │  -2.74 │ gorgeous passionate │    1.62 │ joyous life           │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  1 │  -2.51 │ mid                 │    1.62 │ wo tapping            │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  2 │  -2.10 │ little emotional    │    1.64 │ action packed         │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  3 │  -2.08 │ really won          │    1.66 │ amusing unpredictable │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  4 │  -2.08 │ art direction       │    1.70 │ deeply concerned      │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  5 │  -2.07 │ energetic original  │    1.70 │ story horrifying      │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  6 │  -2.06 │ canny crowd         │    1.76 │ best case             │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  7 │  -2.03 │ puzzling            │    1.76 │ hand director         │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  8 │  -2.02 │ smart solid         │    1.85 │ far disappointing     │
├────┼────────┼─────────────────────┼─────────┼───────────────────────┤
│  9 │  -2.01 │ unless              │    1.87 │ wo feel               │
╘════╧════════╧═════════════════════╧═════════╧═══════════════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -2.09 │ real star      │    1.65 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -2.08 │ thanks actors  │    1.68 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.92 │ american add   │    1.69 │ flawless    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.82 │ breezy         │    1.74 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.70 │ bore           │    1.74 │ gem         │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.66 │ really pretty  │    1.75 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.56 │ argue          │    1.80 │ cut rest    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.55 │ lovely amazing │    1.85 │ amazing     │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.54 │ season picture │    2.02 │ masterpiece │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.54 │ say unburdened │    2.13 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
In [13]:
df
Out[13]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
8 mnb V5 0.598151
9 svm V5 0.630334

TEST 6 -- MNB & SVM with Vectorizer 6

In [14]:
vec = unigram_tv
classifier = mnb


model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V6', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V6', 'score': score})
============ Sentiment Score:  0
╒════╤════════╤══════════╤═════════╤══════════╕
│    │   Most │ Likely   │   Least │ Likely   │
╞════╪════════╪══════════╪═════════╪══════════╡
│  0 │  -9.96 │ 102      │   -6.65 │ time     │
├────┼────────┼──────────┼─────────┼──────────┤
│  1 │  -9.96 │ 10th     │   -6.62 │ does     │
├────┼────────┼──────────┼─────────┼──────────┤
│  2 │  -9.96 │ 127      │   -6.60 │ minutes  │
├────┼────────┼──────────┼─────────┼──────────┤
│  3 │  -9.96 │ 13th     │   -6.52 │ dull     │
├────┼────────┼──────────┼─────────┼──────────┤
│  4 │  -9.96 │ 14       │   -6.36 │ just     │
├────┼────────┼──────────┼─────────┼──────────┤
│  5 │  -9.96 │ 16       │   -6.13 │ worst    │
├────┼────────┼──────────┼─────────┼──────────┤
│  6 │  -9.96 │ 163      │   -6.03 │ like     │
├────┼────────┼──────────┼─────────┼──────────┤
│  7 │  -9.96 │ 168      │   -5.79 │ film     │
├────┼────────┼──────────┼─────────┼──────────┤
│  8 │  -9.96 │ 170      │   -5.41 │ bad      │
├────┼────────┼──────────┼─────────┼──────────┤
│  9 │  -9.96 │ 1790     │   -5.19 │ movie    │
╘════╧════════╧══════════╧═════════╧══════════╛
============ Sentiment Score:  1
╒════╤════════╤══════════╤═════════╤════════════╕
│    │   Most │ Likely   │   Least │ Likely     │
╞════╪════════╪══════════╪═════════╪════════════╡
│  0 │ -10.67 │ 000      │   -6.25 │ way        │
├────┼────────┼──────────┼─────────┼────────────┤
│  1 │ -10.67 │ 10th     │   -6.22 │ characters │
├────┼────────┼──────────┼─────────┼────────────┤
│  2 │ -10.67 │ 127      │   -6.02 │ story      │
├────┼────────┼──────────┼─────────┼────────────┤
│  3 │ -10.67 │ 14       │   -5.98 │ little     │
├────┼────────┼──────────┼─────────┼────────────┤
│  4 │ -10.67 │ 168      │   -5.93 │ just       │
├────┼────────┼──────────┼─────────┼────────────┤
│  5 │ -10.67 │ 1790     │   -5.91 │ bad        │
├────┼────────┼──────────┼─────────┼────────────┤
│  6 │ -10.67 │ 1915     │   -5.88 │ does       │
├────┼────────┼──────────┼─────────┼────────────┤
│  7 │ -10.67 │ 1920     │   -5.77 │ like       │
├────┼────────┼──────────┼─────────┼────────────┤
│  8 │ -10.67 │ 1933     │   -5.46 │ film       │
├────┼────────┼──────────┼─────────┼────────────┤
│  9 │ -10.67 │ 1937     │   -5.21 │ movie      │
╘════╧════════╧══════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.31 │ abroad      │   -6.20 │ movies     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.31 │ acclaim     │   -6.18 │ lrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.31 │ acumen      │   -6.17 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.31 │ adding      │   -6.14 │ life       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.31 │ admirers    │   -6.04 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.31 │ affirms     │   -5.89 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.31 │ aggravating │   -5.86 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.31 │ aimlessly   │   -5.84 │ rrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.31 │ amaze       │   -5.23 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.31 │ ambiguities │   -5.20 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤══════════╤═════════╤══════════╕
│    │   Most │   Likely │   Least │ Likely   │
╞════╪════════╪══════════╪═════════╪══════════╡
│  0 │ -10.81 │      102 │   -6.16 │ fun      │
├────┼────────┼──────────┼─────────┼──────────┤
│  1 │ -10.81 │      104 │   -6.15 │ comedy   │
├────┼────────┼──────────┼─────────┼──────────┤
│  2 │ -10.81 │      105 │   -6.15 │ like     │
├────┼────────┼──────────┼─────────┼──────────┤
│  3 │ -10.81 │      110 │   -6.14 │ best     │
├────┼────────┼──────────┼─────────┼──────────┤
│  4 │ -10.81 │      120 │   -6.07 │ love     │
├────┼────────┼──────────┼─────────┼──────────┤
│  5 │ -10.81 │      127 │   -6.02 │ story    │
├────┼────────┼──────────┼─────────┼──────────┤
│  6 │ -10.81 │      140 │   -5.62 │ funny    │
├────┼────────┼──────────┼─────────┼──────────┤
│  7 │ -10.81 │      146 │   -5.36 │ good     │
├────┼────────┼──────────┼─────────┼──────────┤
│  8 │ -10.81 │     1915 │   -5.35 │ movie    │
├────┼────────┼──────────┼─────────┼──────────┤
│  9 │ -10.81 │     1959 │   -5.17 │ film     │
╘════╧════════╧══════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤══════════╤═════════╤══════════════╕
│    │   Most │ Likely   │   Least │ Likely       │
╞════╪════════╪══════════╪═════════╪══════════════╡
│  0 │ -10.07 │ 000      │   -6.30 │ fun          │
├────┼────────┼──────────┼─────────┼──────────────┤
│  1 │ -10.07 │ 101      │   -6.17 │ entertaining │
├────┼────────┼──────────┼─────────┼──────────────┤
│  2 │ -10.07 │ 102      │   -6.12 │ performance  │
├────┼────────┼──────────┼─────────┼──────────────┤
│  3 │ -10.07 │ 103      │   -6.04 │ performances │
├────┼────────┼──────────┼─────────┼──────────────┤
│  4 │ -10.07 │ 104      │   -5.95 │ great        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  5 │ -10.07 │ 105      │   -5.81 │ good         │
├────┼────────┼──────────┼─────────┼──────────────┤
│  6 │ -10.07 │ 10th     │   -5.65 │ funny        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  7 │ -10.07 │ 110      │   -5.49 │ movie        │
├────┼────────┼──────────┼─────────┼──────────────┤
│  8 │ -10.07 │ 112      │   -5.44 │ best         │
├────┼────────┼──────────┼─────────┼──────────────┤
│  9 │ -10.07 │ 12       │   -5.06 │ film         │
╘════╧════════╧══════════╧═════════╧══════════════╛
============ Sentiment Score:  0
╒════╤════════╤════════════╤═════════╤════════════════╕
│    │   Most │ Likely     │   Least │ Likely         │
╞════╪════════╪════════════╪═════════╪════════════════╡
│  0 │  -1.54 │ giddy      │    2.10 │ stinks         │
├────┼────────┼────────────┼─────────┼────────────────┤
│  1 │  -1.32 │ collar     │    2.17 │ worthless      │
├────┼────────┼────────────┼─────────┼────────────────┤
│  2 │  -1.15 │ victim     │    2.18 │ worst          │
├────┼────────┼────────────┼─────────┼────────────────┤
│  3 │  -1.14 │ activity   │    2.18 │ distasteful    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  4 │  -1.10 │ innocence  │    2.20 │ unwatchable    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  5 │  -1.09 │ loving     │    2.21 │ unbearable     │
├────┼────────┼────────────┼─────────┼────────────────┤
│  6 │  -1.08 │ rehashes   │    2.24 │ meaningless    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  7 │  -1.06 │ engrossing │    2.46 │ stinker        │
├────┼────────┼────────────┼─────────┼────────────────┤
│  8 │  -1.05 │ modern     │    2.54 │ disappointment │
├────┼────────┼────────────┼─────────┼────────────────┤
│  9 │  -1.03 │ morlocks   │    2.56 │ disgusting     │
╘════╧════════╧════════════╧═════════╧════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════════╤═════════╤═══════════════╕
│    │   Most │ Likely        │   Least │ Likely        │
╞════╪════════╪═══════════════╪═════════╪═══════════════╡
│  0 │  -2.18 │ mikes         │    2.19 │ flatfooted    │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  1 │  -2.01 │ populated     │    2.19 │ slimed        │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  2 │  -1.81 │ indescribably │    2.19 │ muddy         │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  3 │  -1.79 │ heels         │    2.21 │ insults       │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  4 │  -1.69 │ hunk          │    2.25 │ lacks         │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  5 │  -1.64 │ puddle        │    2.27 │ cram          │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  6 │  -1.63 │ objectivity   │    2.31 │ insensitivity │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  7 │  -1.63 │ metropolis    │    2.44 │ padded        │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  8 │  -1.58 │ pays          │    2.81 │ outshined     │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  9 │  -1.58 │ meaningless   │    2.82 │ squanders     │
╘════╧════════╧═══════════════╧═════════╧═══════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════╤═════════╤════════════╕
│    │   Most │ Likely        │   Least │ Likely     │
╞════╪════════╪═══════════════╪═════════╪════════════╡
│  0 │  -2.50 │ flatfooted    │    1.65 │ sunday     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  1 │  -2.42 │ insensitivity │    1.70 │ stammers   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  2 │  -2.42 │ magnificent   │    1.76 │ iris       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  3 │  -2.32 │ delightful    │    1.79 │ fashioning │
├────┼────────┼───────────────┼─────────┼────────────┤
│  4 │  -2.26 │ elegantly     │    2.07 │ unseemly   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  5 │  -2.24 │ pretend       │    2.07 │ pint       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  6 │  -2.23 │ terrific      │    2.16 │ cunning    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  7 │  -2.21 │ household     │    2.32 │ tidings    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  8 │  -2.18 │ masterfully   │    2.43 │ warren     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  9 │  -2.18 │ vibrant       │    2.54 │ enveloped  │
╘════╧════════╧═══════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤═══════════════╕
│    │   Most │ Likely      │   Least │ Likely        │
╞════╪════════╪═════════════╪═════════╪═══════════════╡
│  0 │  -2.03 │ loses       │    1.97 │ undertones    │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  1 │  -1.94 │ pretentious │    2.00 │ virtuous      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  2 │  -1.90 │ agenda      │    2.02 │ heartening    │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  3 │  -1.87 │ strung      │    2.04 │ clenching     │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  4 │  -1.81 │ wider       │    2.09 │ efficient     │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  5 │  -1.80 │ mud         │    2.12 │ realistically │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  6 │  -1.79 │ distinction │    2.19 │ marveled      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  7 │  -1.73 │ enveloped   │    2.24 │ grounded      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  8 │  -1.73 │ bother      │    2.35 │ companionable │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  9 │  -1.73 │ calamity    │    2.54 │ knotting      │
╘════╧════════╧═════════════╧═════════╧═══════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -1.61 │ maintained     │    2.25 │ phenomenal  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.55 │ sacrifices     │    2.28 │ masterpiece │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.49 │ treated        │    2.34 │ magnificent │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.46 │ 12             │    2.35 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.44 │ argue          │    2.35 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.38 │ lame           │    2.37 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.37 │ falls          │    2.38 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.30 │ sketch         │    2.38 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.27 │ bore           │    2.39 │ zings       │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.24 │ nonchallenging │    2.47 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
In [15]:
df
Out[15]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
8 mnb V5 0.598151
9 svm V5 0.630334
10 mnb V6 0.583606
11 svm V6 0.625433

TEST 7 -- MNB & SVM with Vectorizer 7

In [16]:
vec = unigram_tv_v2
classifier = mnb

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V7', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V7', 'score': score})
============ Sentiment Score:  0
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │  -9.95 │ aaliyah     │   -6.61 │ long     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │  -9.95 │ abagnale    │   -6.61 │ does     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │  -9.95 │ abandoned   │   -6.51 │ dull     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │  -9.95 │ abbreviated │   -6.46 │ minutes  │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │  -9.95 │ abel        │   -6.35 │ just     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │  -9.95 │ abhors      │   -6.10 │ worst    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │  -9.95 │ abiding     │   -6.00 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │  -9.95 │ ably        │   -5.78 │ film     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │  -9.95 │ aborted     │   -5.40 │ bad      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │  -9.95 │ abrahams    │   -5.17 │ movie    │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════╤═════════╤════════════╕
│    │   Most │ Likely    │   Least │ Likely     │
╞════╪════════╪═══════════╪═════════╪════════════╡
│  0 │ -10.67 │ abagnale  │   -6.25 │ way        │
├────┼────────┼───────────┼─────────┼────────────┤
│  1 │ -10.67 │ abbott    │   -6.21 │ characters │
├────┼────────┼───────────┼─────────┼────────────┤
│  2 │ -10.67 │ abdul     │   -6.01 │ story      │
├────┼────────┼───────────┼─────────┼────────────┤
│  3 │ -10.67 │ abel      │   -5.98 │ little     │
├────┼────────┼───────────┼─────────┼────────────┤
│  4 │ -10.67 │ abilities │   -5.92 │ just       │
├────┼────────┼───────────┼─────────┼────────────┤
│  5 │ -10.67 │ ably      │   -5.91 │ bad        │
├────┼────────┼───────────┼─────────┼────────────┤
│  6 │ -10.67 │ abrahams  │   -5.88 │ does       │
├────┼────────┼───────────┼─────────┼────────────┤
│  7 │ -10.67 │ abroad    │   -5.76 │ like       │
├────┼────────┼───────────┼─────────┼────────────┤
│  8 │ -10.67 │ access    │   -5.45 │ film       │
├────┼────────┼───────────┼─────────┼────────────┤
│  9 │ -10.67 │ acclaim   │   -5.20 │ movie      │
╘════╧════════╧═══════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.30 │ abroad      │   -6.18 │ movies     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.30 │ acclaim     │   -6.17 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.30 │ acumen      │   -6.16 │ lrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.30 │ adding      │   -6.13 │ life       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.30 │ admirers    │   -6.03 │ time       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.30 │ affirms     │   -5.88 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.30 │ aggravating │   -5.84 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.30 │ aimlessly   │   -5.82 │ rrb        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.30 │ amaze       │   -5.21 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.30 │ ambiguities │   -5.18 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -10.80 │ aaliyah     │   -6.16 │ fun      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -10.80 │ abbreviated │   -6.15 │ comedy   │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -10.80 │ abc         │   -6.14 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -10.80 │ abhorrent   │   -6.13 │ best     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -10.80 │ abhors      │   -6.06 │ love     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -10.80 │ abomination │   -6.01 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -10.80 │ aborted     │   -5.62 │ funny    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -10.80 │ abrupt      │   -5.35 │ good     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -10.80 │ absent      │   -5.35 │ movie    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -10.80 │ absurdities │   -5.16 │ film     │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════╤═════════╤══════════════╕
│    │   Most │ Likely      │   Least │ Likely       │
╞════╪════════╪═════════════╪═════════╪══════════════╡
│  0 │ -10.07 │ aaliyah     │   -6.29 │ fun          │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  1 │ -10.07 │ abagnale    │   -6.16 │ entertaining │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  2 │ -10.07 │ abandoned   │   -6.12 │ performance  │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  3 │ -10.07 │ abbott      │   -6.03 │ performances │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  4 │ -10.07 │ abbreviated │   -5.93 │ great        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  5 │ -10.07 │ abc         │   -5.80 │ good         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  6 │ -10.07 │ abdul       │   -5.65 │ funny        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  7 │ -10.07 │ abhorrent   │   -5.48 │ movie        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  8 │ -10.07 │ abhors      │   -5.43 │ best         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  9 │ -10.07 │ abiding     │   -5.05 │ film         │
╘════╧════════╧═════════════╧═════════╧══════════════╛
============ Sentiment Score:  0
╒════╤════════╤════════════╤═════════╤════════════════╕
│    │   Most │ Likely     │   Least │ Likely         │
╞════╪════════╪════════════╪═════════╪════════════════╡
│  0 │  -1.54 │ giddy      │    2.13 │ worst          │
├────┼────────┼────────────┼─────────┼────────────────┤
│  1 │  -1.33 │ collar     │    2.15 │ pretend        │
├────┼────────┼────────────┼─────────┼────────────────┤
│  2 │  -1.14 │ victim     │    2.18 │ worthless      │
├────┼────────┼────────────┼─────────┼────────────────┤
│  3 │  -1.13 │ activity   │    2.18 │ distasteful    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  4 │  -1.10 │ innocence  │    2.20 │ unwatchable    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  5 │  -1.09 │ rehashes   │    2.21 │ unbearable     │
├────┼────────┼────────────┼─────────┼────────────────┤
│  6 │  -1.09 │ loving     │    2.23 │ meaningless    │
├────┼────────┼────────────┼─────────┼────────────────┤
│  7 │  -1.08 │ engrossing │    2.46 │ stinker        │
├────┼────────┼────────────┼─────────┼────────────────┤
│  8 │  -1.05 │ modern     │    2.54 │ disappointment │
├────┼────────┼────────────┼─────────┼────────────────┤
│  9 │  -1.04 │ wanted     │    2.55 │ disgusting     │
╘════╧════════╧════════════╧═════════╧════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════════╤═════════╤═══════════════╕
│    │   Most │ Likely        │   Least │ Likely        │
╞════╪════════╪═══════════════╪═════════╪═══════════════╡
│  0 │  -2.15 │ mikes         │    2.19 │ flatfooted    │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  1 │  -2.01 │ populated     │    2.19 │ slimed        │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  2 │  -1.81 │ indescribably │    2.19 │ muddy         │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  3 │  -1.80 │ heels         │    2.21 │ insults       │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  4 │  -1.69 │ hunk          │    2.23 │ cram          │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  5 │  -1.63 │ puddle        │    2.24 │ lacks         │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  6 │  -1.63 │ objectivity   │    2.31 │ insensitivity │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  7 │  -1.63 │ metropolis    │    2.45 │ padded        │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  8 │  -1.58 │ meaningless   │    2.78 │ outshined     │
├────┼────────┼───────────────┼─────────┼───────────────┤
│  9 │  -1.57 │ pays          │    2.82 │ squanders     │
╘════╧════════╧═══════════════╧═════════╧═══════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════╤═════════╤════════════╕
│    │   Most │ Likely        │   Least │ Likely     │
╞════╪════════╪═══════════════╪═════════╪════════════╡
│  0 │  -2.50 │ flatfooted    │    1.65 │ sunday     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  1 │  -2.42 │ magnificent   │    1.69 │ stammers   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  2 │  -2.41 │ insensitivity │    1.76 │ iris       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  3 │  -2.32 │ delightful    │    1.82 │ fashioning │
├────┼────────┼───────────────┼─────────┼────────────┤
│  4 │  -2.26 │ elegantly     │    2.06 │ unseemly   │
├────┼────────┼───────────────┼─────────┼────────────┤
│  5 │  -2.20 │ terrific      │    2.08 │ pint       │
├────┼────────┼───────────────┼─────────┼────────────┤
│  6 │  -2.20 │ household     │    2.16 │ cunning    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  7 │  -2.18 │ masterfully   │    2.31 │ tidings    │
├────┼────────┼───────────────┼─────────┼────────────┤
│  8 │  -2.18 │ vibrant       │    2.43 │ warren     │
├────┼────────┼───────────────┼─────────┼────────────┤
│  9 │  -2.17 │ strongest     │    2.52 │ enveloped  │
╘════╧════════╧═══════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤═══════════════╕
│    │   Most │ Likely      │   Least │ Likely        │
╞════╪════════╪═════════════╪═════════╪═══════════════╡
│  0 │  -2.03 │ loses       │    1.97 │ undertones    │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  1 │  -1.94 │ pretentious │    2.00 │ virtuous      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  2 │  -1.90 │ agenda      │    2.03 │ heartening    │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  3 │  -1.88 │ strung      │    2.04 │ clenching     │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  4 │  -1.81 │ wider       │    2.08 │ efficient     │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  5 │  -1.79 │ distinction │    2.11 │ realistically │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  6 │  -1.75 │ mud         │    2.19 │ marveled      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  7 │  -1.75 │ enveloped   │    2.24 │ grounded      │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  8 │  -1.74 │ bother      │    2.36 │ companionable │
├────┼────────┼─────────────┼─────────┼───────────────┤
│  9 │  -1.73 │ implausible │    2.54 │ knotting      │
╘════╧════════╧═════════════╧═════════╧═══════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -1.61 │ maintained     │    2.25 │ phenomenal  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.56 │ sacrifices     │    2.28 │ masterpiece │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.46 │ treated        │    2.34 │ magnificent │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.45 │ argue          │    2.35 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.37 │ lame           │    2.35 │ miraculous  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.35 │ falls          │    2.38 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.31 │ sketch         │    2.38 │ zings       │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.27 │ bore           │    2.38 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.24 │ nonchallenging │    2.39 │ glorious    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.22 │ showcase       │    2.47 │ perfection  │
╘════╧════════╧════════════════╧═════════╧═════════════╛
In [17]:
df
Out[17]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
8 mnb V5 0.598151
9 svm V5 0.630334
10 mnb V6 0.583606
11 svm V6 0.625433
12 mnb V7 0.583606
13 svm V7 0.625208

TEST 8 -- MNB & SVM with Vectorizer 8

In [18]:
vec = bigram_tv
classifier = mnb

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V8', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V8', 'score': score})
============ Sentiment Score:  0
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -10.73 │ 10 course   │   -7.67 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -10.73 │ 10 year     │   -7.65 │ stupid   │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -10.73 │ 100 minute  │   -7.62 │ mess     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -10.73 │ 100 years   │   -7.50 │ dull     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -10.73 │ 101 minutes │   -7.39 │ just     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -10.73 │ 101 premise │   -7.21 │ worst    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -10.73 │ 102         │   -7.11 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -10.73 │ 102 minute  │   -6.85 │ film     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -10.73 │ 10th        │   -6.46 │ bad      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -10.73 │ 10th grade  │   -6.24 │ movie    │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════╤═════════╤════════════╕
│    │   Most │ Likely      │   Least │ Likely     │
╞════╪════════╪═════════════╪═════════╪════════════╡
│  0 │ -11.19 │ 000         │   -7.04 │ way        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  1 │ -11.19 │ 10 course   │   -6.98 │ characters │
├────┼────────┼─────────────┼─────────┼────────────┤
│  2 │ -11.19 │ 100 minutes │   -6.81 │ story      │
├────┼────────┼─────────────┼─────────┼────────────┤
│  3 │ -11.19 │ 10th        │   -6.74 │ little     │
├────┼────────┼─────────────┼─────────┼────────────┤
│  4 │ -11.19 │ 10th grade  │   -6.72 │ just       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  5 │ -11.19 │ 11 new      │   -6.70 │ bad        │
├────┼────────┼─────────────┼─────────┼────────────┤
│  6 │ -11.19 │ 11 period   │   -6.70 │ does       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  7 │ -11.19 │ 12 shot     │   -6.58 │ like       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  8 │ -11.19 │ 127         │   -6.24 │ film       │
├────┼────────┼─────────────┼─────────┼────────────┤
│  9 │ -11.19 │ 127 years   │   -6.00 │ movie      │
╘════╧════════╧═════════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤═══════════════════╤═════════╤════════════╕
│    │   Most │ Likely            │   Least │ Likely     │
╞════╪════════╪═══════════════════╪═════════╪════════════╡
│  0 │ -11.66 │ 1937 breakthrough │   -6.80 │ way        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  1 │ -11.66 │ 1957 drama        │   -6.78 │ movies     │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  2 │ -11.66 │ 86 minutes        │   -6.75 │ characters │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  3 │ -11.66 │ 88 minute         │   -6.74 │ life       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  4 │ -11.66 │ abandon theater   │   -6.64 │ time       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  5 │ -11.66 │ ability shock     │   -6.50 │ story      │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  6 │ -11.66 │ ability think     │   -6.48 │ like       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  7 │ -11.66 │ able performances │   -6.45 │ rrb        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  8 │ -11.66 │ able project      │   -5.81 │ film       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  9 │ -11.66 │ abroad            │   -5.79 │ movie      │
╘════╧════════╧═══════════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════╤═════════╤══════════╕
│    │   Most │ Likely      │   Least │ Likely   │
╞════╪════════╪═════════════╪═════════╪══════════╡
│  0 │ -11.28 │ 10 seconds  │   -6.93 │ like     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  1 │ -11.28 │ 10 years    │   -6.88 │ comedy   │
├────┼────────┼─────────────┼─────────┼──────────┤
│  2 │ -11.28 │ 100 minute  │   -6.86 │ best     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  3 │ -11.28 │ 102         │   -6.84 │ fun      │
├────┼────────┼─────────────┼─────────┼──────────┤
│  4 │ -11.28 │ 102 minute  │   -6.81 │ love     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  5 │ -11.28 │ 104         │   -6.80 │ story    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  6 │ -11.28 │ 104 minutes │   -6.32 │ funny    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  7 │ -11.28 │ 105         │   -6.12 │ movie    │
├────┼────────┼─────────────┼─────────┼──────────┤
│  8 │ -11.28 │ 105 minutes │   -6.11 │ good     │
├────┼────────┼─────────────┼─────────┼──────────┤
│  9 │ -11.28 │ 110         │   -5.93 │ film     │
╘════╧════════╧═════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════╤═════════╤══════════════╕
│    │   Most │ Likely      │   Least │ Likely       │
╞════╪════════╪═════════════╪═════════╪══════════════╡
│  0 │ -10.79 │ 000         │   -7.23 │ fun          │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  1 │ -10.79 │ 10 15       │   -7.08 │ entertaining │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  2 │ -10.79 │ 10 minutes  │   -7.03 │ performance  │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  3 │ -10.79 │ 10 seconds  │   -6.98 │ great        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  4 │ -10.79 │ 10 year     │   -6.96 │ performances │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  5 │ -10.79 │ 10 years    │   -6.82 │ good         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  6 │ -10.79 │ 100 minute  │   -6.66 │ funny        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  7 │ -10.79 │ 101         │   -6.51 │ movie        │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  8 │ -10.79 │ 101 minutes │   -6.50 │ best         │
├────┼────────┼─────────────┼─────────┼──────────────┤
│  9 │ -10.79 │ 101 premise │   -6.07 │ film         │
╘════╧════════╧═════════════╧═════════╧══════════════╛
============ Sentiment Score:  0
╒════╤════════╤══════════════╤═════════╤══════════════════╕
│    │   Most │ Likely       │   Least │ Likely           │
╞════╪════════╪══════════════╪═════════╪══════════════════╡
│  0 │  -1.34 │ good good    │    2.09 │ awful            │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  1 │  -1.29 │ variation    │    2.11 │ unwatchable      │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  2 │  -1.10 │ just like    │    2.13 │ unbearable       │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  3 │  -1.08 │ going really │    2.14 │ entirely witless │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  4 │  -1.07 │ man garbage  │    2.17 │ distasteful      │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  5 │  -1.07 │ lightness    │    2.27 │ disgusting       │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  6 │  -1.06 │ awful lot    │    2.31 │ garbage          │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  7 │  -1.04 │ loving       │    2.33 │ charm laughs     │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  8 │  -1.03 │ appear       │    2.44 │ waste            │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  9 │  -1.00 │ movie way    │    2.68 │ disappointment   │
╘════╧════════╧══════════════╧═════════╧══════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════════════╤═════════╤══════════════════╕
│    │   Most │ Likely                  │   Least │ Likely           │
╞════╪════════╪═════════════════════════╪═════════╪══════════════════╡
│  0 │  -2.21 │ wo feel                 │    2.14 │ delivered mr     │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  1 │  -2.01 │ unlikable uninteresting │    2.17 │ sadly            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  2 │  -1.76 │ way does                │    2.19 │ want think       │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  3 │  -1.76 │ contrived overblown     │    2.20 │ overbearing      │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  4 │  -1.69 │ willing claustrophobic  │    2.21 │ padded           │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  5 │  -1.63 │ justice awfulness       │    2.25 │ muddy            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  6 │  -1.60 │ whiny pathetic          │    2.25 │ does live        │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  7 │  -1.58 │ uniquely                │    2.37 │ note performance │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  8 │  -1.55 │ badly hard              │    2.41 │ lacks            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  9 │  -1.52 │ fascinating wo          │    2.48 │ squanders        │
╘════╧════════╧═════════════════════════╧═════════╧══════════════════╛
============ Sentiment Score:  2
╒════╤════════╤══════════════╤═════════╤════════════════════════╕
│    │   Most │ Likely       │   Least │ Likely                 │
╞════╪════════╪══════════════╪═════════╪════════════════════════╡
│  0 │  -2.81 │ remarkable   │    1.63 │ like big               │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  1 │  -2.75 │ perfect      │    1.64 │ dramatic constructs    │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  2 │  -2.73 │ beautifully  │    1.64 │ oscar make             │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  3 │  -2.64 │ delightful   │    1.67 │ age film               │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  4 │  -2.59 │ terrific     │    1.71 │ awful lot              │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  5 │  -2.51 │ stunning     │    1.75 │ cunning                │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  6 │  -2.42 │ hilarious    │    1.84 │ willing claustrophobic │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  7 │  -2.36 │ magnificent  │    1.93 │ ludicrous cult         │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  8 │  -2.33 │ worthwhile   │    2.03 │ budget movie           │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  9 │  -2.29 │ disappointed │    2.19 │ enjoy mindless         │
╘════╧════════╧══════════════╧═════════╧════════════════════════╛
============ Sentiment Score:  3
╒════╤════════╤════════════════════╤═════════╤═══════════════════╕
│    │   Most │ Likely             │   Least │ Likely            │
╞════╪════════╪════════════════════╪═════════╪═══════════════════╡
│  0 │  -2.12 │ energetic original │    1.97 │ thanks presence   │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  1 │  -2.09 │ lacks              │    1.99 │ best case         │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  2 │  -2.02 │ intelligent life   │    2.01 │ lives count       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  3 │  -1.98 │ loses              │    2.05 │ heartening        │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  4 │  -1.93 │ wanting mention    │    2.07 │ realistically     │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  5 │  -1.80 │ zings              │    2.09 │ little film       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  6 │  -1.80 │ mid                │    2.10 │ wo tapping        │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  7 │  -1.76 │ art direction      │    2.14 │ larger life       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  8 │  -1.74 │ lacking            │    2.17 │ hard resist       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  9 │  -1.71 │ canny crowd        │    2.19 │ far disappointing │
╘════╧════════╧════════════════════╧═════════╧═══════════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -1.62 │ thanks actors  │    2.15 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.42 │ argue          │    2.16 │ best war    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.28 │ real star      │    2.22 │ brilliant   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.23 │ naipaul        │    2.23 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.18 │ lovely amazing │    2.29 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.17 │ convinced      │    2.36 │ magnificent │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.14 │ huge cut       │    2.40 │ perfection  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.12 │ bore           │    2.42 │ zings       │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.12 │ does succeed   │    2.48 │ amazing     │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.11 │ say unburdened │    2.50 │ masterpiece │
╘════╧════════╧════════════════╧═════════╧═════════════╛
In [19]:
df
Out[19]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
8 mnb V5 0.598151
9 svm V5 0.630334
10 mnb V6 0.583606
11 svm V6 0.625433
12 mnb V7 0.583606
13 svm V7 0.625208
14 mnb V8 0.594899
15 svm V8 0.630126

TEST 9 -- MNB & SVM with Vectorizer 9

In [20]:
vec = bigram_tv_v2
classifier = mnb

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'mnb', 'vectorizer': 'V9', 'score': score})

classifier = svm

model, score, report = get_model(X,y,[0,1,2,3,4],['0','1','2','3','4'], classifier, vec)
return_features(vec, model)
df = update_big_df(big_df,{ 'classifier': 'svm', 'vectorizer': 'V9', 'score': score})
============ Sentiment Score:  0
╒════╤════════╤═══════════════════╤═════════╤══════════╕
│    │   Most │ Likely            │   Least │ Likely   │
╞════╪════════╪═══════════════════╪═════════╪══════════╡
│  0 │ -10.72 │ aaliyah           │   -7.65 │ stupid   │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  1 │ -10.72 │ abagnale          │   -7.62 │ mess     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  2 │ -10.72 │ abagnale antics   │   -7.55 │ minutes  │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  3 │ -10.72 │ abandon political │   -7.49 │ dull     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  4 │ -10.72 │ abandoned         │   -7.38 │ just     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  5 │ -10.72 │ abbreviated       │   -7.19 │ worst    │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  6 │ -10.72 │ abel              │   -7.09 │ like     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  7 │ -10.72 │ abel ferrara      │   -6.84 │ film     │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  8 │ -10.72 │ abhors            │   -6.46 │ bad      │
├────┼────────┼───────────────────┼─────────┼──────────┤
│  9 │ -10.72 │ abiding           │   -6.23 │ movie    │
╘════╧════════╧═══════════════════╧═════════╧══════════╛
============ Sentiment Score:  1
╒════╤════════╤═══════════════════╤═════════╤════════════╕
│    │   Most │ Likely            │   Least │ Likely     │
╞════╪════════╪═══════════════════╪═════════╪════════════╡
│  0 │ -11.18 │ abagnale          │   -7.03 │ way        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  1 │ -11.18 │ abagnale antics   │   -6.97 │ characters │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  2 │ -11.18 │ abandon political │   -6.80 │ story      │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  3 │ -11.18 │ abbott            │   -6.74 │ little     │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  4 │ -11.18 │ abbott ernest     │   -6.72 │ just       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  5 │ -11.18 │ abdul             │   -6.70 │ bad        │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  6 │ -11.18 │ abdul malik       │   -6.69 │ does       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  7 │ -11.18 │ abel              │   -6.56 │ like       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  8 │ -11.18 │ abel ferrara      │   -6.24 │ film       │
├────┼────────┼───────────────────┼─────────┼────────────┤
│  9 │ -11.18 │ abilities         │   -6.00 │ movie      │
╘════╧════════╧═══════════════════╧═════════╧════════════╛
============ Sentiment Score:  2
╒════╤════════╤════════════════════════╤═════════╤════════════╕
│    │   Most │ Likely                 │   Least │ Likely     │
╞════╪════════╪════════════════════════╪═════════╪════════════╡
│  0 │ -11.65 │ abandon theater        │   -6.80 │ way        │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  1 │ -11.65 │ ability shock          │   -6.76 │ movies     │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  2 │ -11.65 │ ability think          │   -6.74 │ characters │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  3 │ -11.65 │ able performances      │   -6.73 │ life       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  4 │ -11.65 │ able project           │   -6.63 │ time       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  5 │ -11.65 │ abroad                 │   -6.49 │ story      │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  6 │ -11.65 │ absolutely earned      │   -6.45 │ like       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  7 │ -11.65 │ absolutely inescapably │   -6.44 │ rrb        │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  8 │ -11.65 │ absorbing characters   │   -5.80 │ film       │
├────┼────────┼────────────────────────┼─────────┼────────────┤
│  9 │ -11.65 │ absorbing look         │   -5.78 │ movie      │
╘════╧════════╧════════════════════════╧═════════╧════════════╛
============ Sentiment Score:  3
╒════╤════════╤═════════════════╤═════════╤══════════╕
│    │   Most │ Likely          │   Least │ Likely   │
╞════╪════════╪═════════════════╪═════════╪══════════╡
│  0 │ -11.28 │ aaliyah         │   -6.92 │ like     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  1 │ -11.28 │ abandon theater │   -6.88 │ comedy   │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  2 │ -11.28 │ abbreviated     │   -6.85 │ best     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  3 │ -11.28 │ abc             │   -6.83 │ fun      │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  4 │ -11.28 │ abhorrent       │   -6.80 │ love     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  5 │ -11.28 │ abhors          │   -6.79 │ story    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  6 │ -11.28 │ ability shock   │   -6.32 │ funny    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  7 │ -11.28 │ able accomplish │   -6.11 │ movie    │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  8 │ -11.28 │ able better     │   -6.11 │ good     │
├────┼────────┼─────────────────┼─────────┼──────────┤
│  9 │ -11.28 │ able project    │   -5.92 │ film     │
╘════╧════════╧═════════════════╧═════════╧══════════╛
============ Sentiment Score:  4
╒════╤════════╤═════════════════╤═════════╤══════════════╕
│    │   Most │ Likely          │   Least │ Likely       │
╞════╪════════╪═════════════════╪═════════╪══════════════╡
│  0 │ -10.79 │ aaliyah         │   -7.23 │ fun          │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  1 │ -10.79 │ abagnale        │   -7.07 │ entertaining │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  2 │ -10.79 │ abagnale antics │   -7.02 │ performance  │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  3 │ -10.79 │ abandon scripts │   -6.97 │ great        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  4 │ -10.79 │ abandon theater │   -6.95 │ performances │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  5 │ -10.79 │ abandoned       │   -6.81 │ good         │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  6 │ -10.79 │ abbott          │   -6.65 │ funny        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  7 │ -10.79 │ abbott ernest   │   -6.50 │ movie        │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  8 │ -10.79 │ abbreviated     │   -6.48 │ best         │
├────┼────────┼─────────────────┼─────────┼──────────────┤
│  9 │ -10.79 │ abc             │   -6.06 │ film         │
╘════╧════════╧═════════════════╧═════════╧══════════════╛
============ Sentiment Score:  0
╒════╤════════╤══════════════╤═════════╤══════════════════╕
│    │   Most │ Likely       │   Least │ Likely           │
╞════╪════════╪══════════════╪═════════╪══════════════════╡
│  0 │  -1.32 │ good good    │    2.09 │ awful            │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  1 │  -1.29 │ variation    │    2.11 │ unwatchable      │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  2 │  -1.10 │ just like    │    2.13 │ unbearable       │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  3 │  -1.08 │ going really │    2.14 │ entirely witless │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  4 │  -1.07 │ man garbage  │    2.17 │ distasteful      │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  5 │  -1.07 │ lightness    │    2.27 │ disgusting       │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  6 │  -1.06 │ awful lot    │    2.31 │ garbage          │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  7 │  -1.05 │ appear       │    2.33 │ charm laughs     │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  8 │  -1.04 │ loving       │    2.45 │ waste            │
├────┼────────┼──────────────┼─────────┼──────────────────┤
│  9 │  -1.00 │ movie way    │    2.68 │ disappointment   │
╘════╧════════╧══════════════╧═════════╧══════════════════╛
============ Sentiment Score:  1
╒════╤════════╤═════════════════════════╤═════════╤══════════════════╕
│    │   Most │ Likely                  │   Least │ Likely           │
╞════╪════════╪═════════════════════════╪═════════╪══════════════════╡
│  0 │  -2.21 │ wo feel                 │    2.14 │ delivered mr     │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  1 │  -2.01 │ unlikable uninteresting │    2.17 │ sadly            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  2 │  -1.76 │ way does                │    2.19 │ want think       │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  3 │  -1.76 │ contrived overblown     │    2.20 │ overbearing      │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  4 │  -1.64 │ justice awfulness       │    2.21 │ padded           │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  5 │  -1.64 │ willing claustrophobic  │    2.25 │ muddy            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  6 │  -1.60 │ whiny pathetic          │    2.26 │ does live        │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  7 │  -1.58 │ uniquely                │    2.37 │ note performance │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  8 │  -1.55 │ badly hard              │    2.41 │ lacks            │
├────┼────────┼─────────────────────────┼─────────┼──────────────────┤
│  9 │  -1.52 │ fascinating wo          │    2.48 │ squanders        │
╘════╧════════╧═════════════════════════╧═════════╧══════════════════╛
============ Sentiment Score:  2
╒════╤════════╤══════════════╤═════════╤════════════════════════╕
│    │   Most │ Likely       │   Least │ Likely                 │
╞════╪════════╪══════════════╪═════════╪════════════════════════╡
│  0 │  -2.79 │ remarkable   │    1.62 │ redeeming features     │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  1 │  -2.74 │ perfect      │    1.64 │ dramatic constructs    │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  2 │  -2.74 │ beautifully  │    1.64 │ oscar make             │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  3 │  -2.64 │ delightful   │    1.67 │ age film               │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  4 │  -2.58 │ terrific     │    1.71 │ awful lot              │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  5 │  -2.50 │ stunning     │    1.75 │ cunning                │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  6 │  -2.37 │ hilarious    │    1.79 │ willing claustrophobic │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  7 │  -2.37 │ magnificent  │    1.93 │ ludicrous cult         │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  8 │  -2.33 │ worthwhile   │    2.08 │ budget movie           │
├────┼────────┼──────────────┼─────────┼────────────────────────┤
│  9 │  -2.29 │ disappointed │    2.19 │ enjoy mindless         │
╘════╧════════╧══════════════╧═════════╧════════════════════════╛
============ Sentiment Score:  3
╒════╤════════╤════════════════════╤═════════╤═══════════════════╕
│    │   Most │ Likely             │   Least │ Likely            │
╞════╪════════╪════════════════════╪═════════╪═══════════════════╡
│  0 │  -2.12 │ energetic original │    1.97 │ thanks presence   │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  1 │  -2.09 │ lacks              │    1.99 │ best case         │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  2 │  -2.02 │ intelligent life   │    2.01 │ lives count       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  3 │  -1.98 │ loses              │    2.05 │ heartening        │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  4 │  -1.93 │ wanting mention    │    2.07 │ realistically     │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  5 │  -1.81 │ zings              │    2.10 │ little film       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  6 │  -1.80 │ mid                │    2.10 │ wo tapping        │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  7 │  -1.76 │ art direction      │    2.14 │ larger life       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  8 │  -1.73 │ lacking            │    2.18 │ hard resist       │
├────┼────────┼────────────────────┼─────────┼───────────────────┤
│  9 │  -1.70 │ canny crowd        │    2.18 │ far disappointing │
╘════╧════════╧════════════════════╧═════════╧═══════════════════╛
============ Sentiment Score:  4
╒════╤════════╤════════════════╤═════════╤═════════════╕
│    │   Most │ Likely         │   Least │ Likely      │
╞════╪════════╪════════════════╪═════════╪═════════════╡
│  0 │  -1.62 │ thanks actors  │    2.15 │ masterful   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  1 │  -1.42 │ argue          │    2.15 │ best war    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  2 │  -1.28 │ real star      │    2.22 │ brilliant   │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  3 │  -1.22 │ naipaul        │    2.24 │ stunning    │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  4 │  -1.17 │ lovely amazing │    2.29 │ masterfully │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  5 │  -1.17 │ convinced      │    2.36 │ magnificent │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  6 │  -1.13 │ huge cut       │    2.40 │ perfection  │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  7 │  -1.12 │ bore           │    2.41 │ zings       │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  8 │  -1.12 │ does succeed   │    2.47 │ amazing     │
├────┼────────┼────────────────┼─────────┼─────────────┤
│  9 │  -1.11 │ say unburdened │    2.50 │ masterpiece │
╘════╧════════╧════════════════╧═════════╧═════════════╛
In [21]:
df
Out[21]:
classifier vectorizer score
0 mnb V1 0.606401
1 svm V1 0.624183
2 mnb V2 0.606978
3 svm V2 0.624503
4 mnb V3 0.606658
5 svm V3 0.623815
6 mnb V4 0.597382
7 svm V4 0.630094
8 mnb V5 0.598151
9 svm V5 0.630334
10 mnb V6 0.583606
11 svm V6 0.625433
12 mnb V7 0.583606
13 svm V7 0.625208
14 mnb V8 0.594899
15 svm V8 0.630126
16 mnb V9 0.594707
17 svm V9 0.630270
In [22]:
pred_vec = bigram_cv_v2

test = pd.read_csv("kaggle-sentiment/test.tsv", delimiter='\t')
k_id = test['PhraseId'].values
k_text = test['Phrase'].values

k_vec = bigram_cv_v2.transform(k_text)
k_vec

def get_kaggle_test_train_vec(X,y,vectorizer):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=None, random_state=0)
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)
    return X_train_vec, X_test_vec, y_train, y_test

def do_the_kaggle(X,y,vec):
    X_train_vec, X_test_vec, y_train, y_test = get_kaggle_test_train_vec(X,y,vec)
    svm_clf = LinearSVC(C=1)
    prediction = svm_clf.fit(X_train_vec,y_train).predict(k_vec)
    kaggle_submission = zip(k_id, prediction)
    outf=open('kaggle_submission_linearSVC_v5.csv', 'w')
    outf.write('PhraseId,Sentiment\n')
    for x, value in enumerate(kaggle_submission): outf.write(str(value[0]) + ',' + str(value[1]) + '\n')
    outf.close()
    print('prediction complete')

do_the_kaggle(X,y,bigram_cv_v2)
/Users/danielcaraway/anaconda3/lib/python3.7/site-packages/sklearn/svm/base.py:929: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-22-3564a5098f6a> in <module>
     25     print('prediction complete')
     26 
---> 27 do_the_kaggle(X,y,bigram_cv_v2)

<ipython-input-22-3564a5098f6a> in do_the_kaggle(X, y, vec)
     17     X_train_vec, X_test_vec, y_train, y_test = get_kaggle_test_train_vec(X,y,vec)
     18     svm_clf = LinearSVC(C=1)
---> 19     prediction = svm_clf.fit(X_train_vec,y_train).predict(k_vec)
     20     kaggle_submission = zip(k_id, prediction)
     21     outf=open('kaggle_submission_linearSVC_v5.csv', 'w')

~/anaconda3/lib/python3.7/site-packages/sklearn/linear_model/base.py in predict(self, X)
    287             Predicted class label per sample.
    288         """
--> 289         scores = self.decision_function(X)
    290         if len(scores.shape) == 1:
    291             indices = (scores > 0).astype(np.int)

~/anaconda3/lib/python3.7/site-packages/sklearn/linear_model/base.py in decision_function(self, X)
    268         if X.shape[1] != n_features:
    269             raise ValueError("X has %d features per sample; expecting %d"
--> 270                              % (X.shape[1], n_features))
    271 
    272         scores = safe_sparse_dot(X, self.coef_.T,

ValueError: X has 34279 features per sample; expecting 43432
In [ ]:
df
In [ ]:
 
In [ ]: