data_loader.py

# *_*coding:utf-8 *_* 
# Author:Aleck_
# @Time: 18-3-22 &#19979;&#21320;8:37
import torch
import torch.autograd as autograd
import codecs
import random
import torch.utils.data as Data

SEED = 1


# input: a sequence of tokens, and a token_to_index dictionary
# output: a LongTensor variable to encode the sequence of idxs
def prepare_sequence(seq, to_ix, cuda=False):
    # torch.LongTensor() &#26159;&#19968;&#31181;&#21253;&#21547;&#21333;&#19968;&#25968;&#25454;&#31867;&#22411;&#20803;&#32032;&#30340;&#22810;&#32500;&#30697;&#38453;
    # &#19968;&#20010;&#24352;&#37327;tensor&#21487;&#20197;&#20174;Python&#30340;list&#25110;&#24207;&#21015;&#26500;&#24314;
    # &#27492;&#22788;&#65292;&#23558;&#36825;&#20010;&#21477;&#23376;&#20013;&#30340;&#25152;&#26377;&#35789;&#65292;&#22312;&#35789;&#20856;&#20013;&#30340;&#32534;&#21495;&#32452;&#25104;&#30340;list&#20316;&#20026;&#21442;&#25968;&#65292;&#26368;&#32456;&#36820;&#22238;&#36825;&#21477;&#35805;&#35789;&#30340;&#32534;&#21495;&#21015;&#34920;&#30340;&#24352;&#37327;
    var = autograd.Variable(torch.LongTensor([to_ix[w] for w in seq.split(' ')]))
    return var


def prepare_label(label, label_to_ix, cuda=False):
    var = autograd.Variable(torch.LongTensor([label_to_ix[label]]))
    return var


def build_token_to_ix(sentences):
    # &#23545;&#24212;&#25968;&#25454;&#38598;&#30340;&#35789;&#24211;&#65306;&#23384;&#20648;&#25968;&#25454;&#38598;&#20013;&#30340;&#25152;&#26377;&#20986;&#29616;&#30340;&#19981;&#37325;&#22797;&#30340;&#35789;&#65292;&#19988;&#32534;&#21495;&#12290;
    token_to_ix = dict()
    print(len(sentences))
    for sent in sentences:
        for token in sent.split(' '):
            if token not in token_to_ix:
                token_to_ix[token] = len(token_to_ix)
    token_to_ix['<pad>'] = len(token_to_ix)
    return token_to_ix


def build_label_to_ix(labels):
    label_to_ix = dict()
    for label in labels:
        if label not in label_to_ix:
            label_to_ix[label] = len(label_to_ix)


def load_MR_data():
    # already tokenized and there is no standard split
    # the size follow the Mou et al. 2016 instead
    file_pos = './datasets/MR/rt-polarity.pos'
    file_neg = './datasets/MR/rt-polarity.neg'
    print('loading MR datasets from', file_pos, 'and', file_neg)

    # codecs.open() :&#35835;&#20837;&#25968;&#25454;&#26102;&#65292;&#30452;&#25509;&#35299;&#30721;&#25805;&#20316;&#12290;&#38450;&#27490;&#32534;&#30721;&#26684;&#24335;&#38382;&#39064;&#12290;
    # .read()&#65292;.randlines(),.readline()&#36825;&#20123;&#26041;&#27861;&#21306;&#21035;&#26159;&#65306;
    # rand()&#35835;&#21462;&#25972;&#20010;&#25991;&#20214;&#25104;&#19968;&#20010;&#23383;&#31526;&#20018;
    # randlines()&#35835;&#21462;&#25972;&#20010;&#25991;&#20214;&#65292;&#33258;&#21160;&#23558;&#25991;&#20214;&#20998;&#25104;&#34892;&#30340;&#21015;&#34920;&#65292;&#20849;for line in fh.readlines():&#35843;&#29992;
    # randline() &#35835;&#21462;&#19968;&#34892;&#25968;&#25454;&#65292;&#36895;&#24230;&#24930;&#12290;&#36890;&#24120;&#22312;&#20869;&#23384;&#19981;&#22815;&#30340;&#24773;&#20917;&#19979;&#20351;&#29992;
    # split()&#20998;&#21106;&#23383;&#31526;&#20018;&#65292;&#36820;&#22238;&#20998;&#21106;&#21518;&#30340;&#23383;&#31526;&#20018;&#21015;&#34920;
    pos_sents = codecs.open(file_pos, 'r', 'utf8').read().split('\n')
    neg_sents = codecs.open(file_neg, 'r', 'utf8').read().split('\n')

    # seed()&#35774;&#32622;&#38543;&#26426;&#25968;&#31181;&#23376;&#65292;&#22914;&#26524;&#19981;&#20102;&#35299;&#21407;&#29702;&#21487;&#20197;&#19981;&#35774;&#32622;&#65292;python&#20250;&#33258;&#21160;&#35774;&#32622;&#22909;
    random.seed(SEED)
    random.shuffle(pos_sents)  # &#38543;&#26426;&#27927;&#29260;&#65292;&#25171;&#20081;&#39034;&#24207;
    random.shuffle(neg_sents)

    print(len(pos_sents))
    print(len(neg_sents))

    # &#23558;&#36817;80%&#30340;&#25968;&#25454;&#20316;&#20026;&#35757;&#32451;&#38598;&#65292;&#27491;&#21521;&#21644;&#36127;&#21521;&#21508;&#36873;&#21462;80%&#30340;&#25968;&#25454;&#38598;&#20316;&#20026;&#35757;&#32451;&#38598;
    train_data = [(sent, 1) for sent in pos_sents[:4250]] + [(sent, 0) for sent in neg_sents[:4250]]
    # &#32422;10%&#30340;&#25968;&#25454;&#20316;&#20026;&#39564;&#35777;&#38598;
    dev_data = [(sent, 1) for sent in pos_sents[4250:4800]] + [(sent, 0) for sent in neg_sents[4250:4800]]
    # &#32422;10%&#30340;&#25968;&#25454;&#20316;&#20026;&#27979;&#35797;&#38598;
    test_data = [(sent, 1) for sent in pos_sents[4800:]] + [(sent, 0) for sent in neg_sents[4800:]]

    # &#38543;&#26426;&#27927;&#29260;&#65292;&#25171;&#20081;&#39034;&#24207;
    random.shuffle(train_data)
    random.shuffle(dev_data)
    random.shuffle(test_data)

    print('train:', len(train_data), 'dev:', len(dev_data), 'test:', len(test_data))

    # [s ...]&#20026;&#25152;&#26377;&#35780;&#35770;&#21477;&#23376;&#32452;&#25104;&#30340;list
    word_to_ix = build_token_to_ix([s for s, _ in train_data + dev_data + test_data])
    label_to_ix = {0: 0, 1: 1}
    print('vocab size:', len(word_to_ix), 'label size:', len(label_to_ix))
    print('loading datasets done!')
    return train_data, dev_data, test_data, word_to_ix, label_to_ix


def load_MR_data_batch():
    pass


# train_data, dev_data, test_data, word_to_ix, label_to_ix = load_MR_data()
#
# var = prepare_sequence(train_data[0][0],word_to_ix)
# print(var)