start implement CopyCNN

supercoderhawk · supercoderhawk · commit e85515caf51c · 2020-05-12T12:47:03.000+08:00
diff --git a/deep_keyphrase/copy_cnn/beam_search.py b/deep_keyphrase/copy_cnn/beam_search.py
@@ -1 +1,12 @@
-# -*- coding: UTF-8 -*-
+# -*- coding: UTF-8 -*-
+
+
+class CopyCnnBeamSearch(object):
+    def __init__(self):
+        pass
+
+    def beam_search(self):
+        pass
+
+    def greedy_search(self):
+        pass
diff --git a/deep_keyphrase/copy_cnn/model.py b/deep_keyphrase/copy_cnn/model.py
@@ -1,27 +1,121 @@
 # -*- coding: UTF-8 -*-
 import torch
 import torch.nn as nn
+import torch.nn.functional as F
+from deep_keyphrase.dataloader import (TOKENS, TOKENS_LENS, TARGET)
 
 
-class CopyCnnModel(nn.Module):
-    def __init__(self):
+class Attention(nn.Module):
+    """
+
+    """
+
+    def __init__(self, dim_size):
         super().__init__()
+        self.in_proj = nn.Linear(dim_size, dim_size)
 
-    def forward(self):
+    def forward(self, x, target_embedding, encoder_input, encoder_output, encoder_mask):
         pass
 
 
+class CopyCnn(nn.Module):
+    def __init__(self, args, vocab2id):
+        super().__init__()
+        self.args = args
+        self.vocab2id = vocab2id
+        self.embedding = nn.Embedding(len(vocab2id), args.dim_size)
+        self.encoder = CopyCnnEncoder(vocab2id=vocab2id, embedding=self.embedding, args=args)
+        self.decoder = CopyCnnDecoder(vocab2id=vocab2id, embedding=self.embedding, args=args)
+
+    def forward(self, src_dict, encoder_output):
+        if encoder_output is None:
+            encoder_output = self.encoder(src_dict)
+
+
 class CopyCnnEncoder(nn.Module):
-    def __init__(self):
+    def __init__(self, vocab2id, embedding, args):
         super().__init__()
+        self.vocab2id = vocab2id
+        self.embedding = embedding
+        self.args = args
+        self.dim_size = args.dim_size
+        self.kernel_size = (args.kernal_width, self.dim_size)
+        self.dropout = args.dropout
+        self.convolution_layers = []
+        for i in range(args.encoder_layer_num):
+            layer = nn.Conv2d(in_channels=1, out_channels=2 * self.dim_size,
+                              kernel_size=self.kernel_size, bias=True)
+            self.convolution_layers.append(layer)
 
     def forward(self, src_dict):
-        pass
+        tokens = src_dict[TOKENS]
+        x = self.embedding(tokens).unsqueeze(1)
+        # x = tokens.unsqueeze(1)
+        layer_output = [x]
+        for layer in self.convolution_layers:
+            x = F.dropout(x, p=self.dropout, training=self.training)
+            x = layer(x)
+            x = F.glu(x, dim=1) + layer_output[-1]
+            layer_output.append(x)
+        return x
 
 
 class CopyCnnDecoder(nn.Module):
-    def __init__(self):
+    def __init__(self, vocab2id, embedding, args):
         super().__init__()
+        self.vocab2id = vocab2id
+        self.embedding = embedding
+        self.args = args
+        self.vocab_size = self.args.vocab_size
+        self.max_oov_count = self.args.max_oov_count
+        self.total_vocab_size = self.vocab_size + self.max_oov_count
+        self.dim_size = args.dim_size
+        self.kernel_size = (args.kernal_width, self.dim_size)
+        self.dropout = args.dropout
+        self.convolution_layers = []
+        self.attn_linear_layers = []
+        self.decoder_layer_num = args.decoder_layer_num
+        for i in range(self.decoder_layer_num):
+            conv_layer = nn.Conv2d(in_channels=1, out_channels=2 * self.dim_size,
+                                   kernel_size=self.kernel_size, bias=True)
+            self.convolution_layers.append(conv_layer)
+            attn_linear_layer = nn.Linear(self.dim_size, self.dim_size, bias=True)
+            self.attn_linear_layers.append(attn_linear_layer)
+        self.generate_proj = nn.Linear(self.dim_size, self.vocab_size)
+        self.copy_proj = nn.Linear(self.dim_size, self.total_vocab_size)
+
+    def forward(self, src_dict, prev_tokens, encoder_output):
+        """
+
+        :param src_dict:
+        :param prev_tokens:
+        :param encoder_output:
+        :return:
+        """
+        src_tokens = src_dict[TOKENS]
+        tokens = src_dict[TARGET][:, :-1]
+        x = self.embedding(tokens).unsqueeze(1)
+        prev_x = self.embedding(prev_tokens)
+        src_x = self.embedding(src_tokens)
+        layer_output = [x]
+        for conv_layer, linear_layer in zip(self.convolution_layers, self.attn_linear_layers):
+            x = F.dropout(x, p=self.dropout, training=self.training)
+            x = conv_layer(x)
+            x = F.glu(x, dim=1) + layer_output[-1]
+            # attention
+            d = linear_layer(x) + prev_x
+            attn_weights = torch.softmax(torch.bmm(encoder_output, d.unsqueeze(2)), dim=1)
+            c = attn_weights * (encoder_output + src_x)
+            # residual connection
+            final_output = x + c.squeeze(2)
+            layer_output.append(final_output)
+        generate_logits = self.generate_proj(layer_output[-1])
+
+    def forward_one_pass(self):
+        pass
+
+    def forward_auto_regressive(self):
+        pass
 
-    def forward(self):
+    def get_attn_read(self, encoder_output, src_tokens_with_oov, decoder_output, encoder_output_mask):
         pass
diff --git a/deep_keyphrase/copy_cnn/predict.py b/deep_keyphrase/copy_cnn/predict.py
@@ -9,5 +9,6 @@ def __init__(self, model_info):
     def predict(self, input_list, batch_size, delimiter=''):
         pass
 
-    def eval_predict(self):
+    def eval_predict(self, src_filename, dest_filename, args,
+                     model=None, remove_existed=False):
         pass
diff --git a/deep_keyphrase/copy_cnn/train.py b/deep_keyphrase/copy_cnn/train.py
@@ -1,7 +1,13 @@
 # -*- coding: UTF-8 -*-
+import os
 import argparse
+import torch
+from collections import OrderedDict
+from munch import Munch
+from pysenal import read_json
 from deep_keyphrase.base_trainer import BaseTrainer
 from deep_keyphrase.utils.vocab_loader import load_vocab
+from deep_keyphrase.copy_cnn.model import CopyCnn
 
 
 class CopyCnnTrainer(BaseTrainer):
@@ -12,16 +18,85 @@ def __init__(self):
         super().__init__(self.args, model)
 
     def load_model(self):
-        pass
+        if not self.args.train_from:
+            model = CopyCnn(self.args, self.vocab2id)
+        else:
+            model_path = self.args.train_from
+            config_path = os.path.join(os.path.dirname(model_path),
+                                       self.get_basename(model_path) + '.json')
+
+            old_config = read_json(config_path)
+            old_config['train_from'] = model_path
+            old_config['step'] = int(model_path.rsplit('_', 1)[-1].split('.')[0])
+            self.args = Munch(old_config)
+            self.vocab2id = load_vocab(self.args.vocab_path, self.args.vocab_size)
+
+            model = CopyCnn(self.args, self.vocab2id)
+
+            if torch.cuda.is_available():
+                checkpoint = torch.load(model_path)
+            else:
+                checkpoint = torch.load(model_path, map_location=torch.device('cpu'))
+            state_dict = OrderedDict()
+            # avoid error when load parallel trained model
+            for k, v in checkpoint.items():
+                if k.startswith('module.'):
+                    k = k[7:]
+                state_dict[k] = v
+            model.load_state_dict(state_dict)
+
+        return model
 
     def train_batch(self, batch, step):
-        pass
+        self.model.train()
+        loss = 0
+        self.optimizer.zero_grad()
 
     def evaluate(self, step):
         pass
 
     def parse_args(self, args=None):
         parser = argparse.ArgumentParser()
-        # parser.add_argument()
+        parser.add_argument("-exp_name", required=True, type=str, help='')
+        parser.add_argument("-train_filename", required=True, type=str, help='')
+        parser.add_argument("-valid_filename", required=True, type=str, help='')
+        parser.add_argument("-test_filename", required=True, type=str, help='')
+        parser.add_argument("-dest_base_dir", required=True, type=str, help='')
+        parser.add_argument("-vocab_path", required=True, type=str, help='')
+        parser.add_argument("-vocab_size", type=int, default=500000, help='')
+        parser.add_argument("-train_from", default='', type=str, help='')
+        parser.add_argument("-token_field", default='tokens', type=str, help='')
+        parser.add_argument("-keyphrase_field", default='keyphrases', type=str, help='')
+        # parser.add_argument("-auto_regressive", action='store_true', help='')
+        parser.add_argument("-epochs", type=int, default=10, help='')
+        parser.add_argument("-batch_size", type=int, default=64, help='')
+        parser.add_argument("-learning_rate", type=float, default=1e-4, help='')
+        parser.add_argument("-eval_batch_size", type=int, default=50, help='')
+        parser.add_argument("-dropout", type=float, default=0.0, help='')
+        parser.add_argument("-grad_norm", type=float, default=0.0, help='')
+        parser.add_argument("-max_grad", type=float, default=5.0, help='')
+        parser.add_argument("-shuffle", action='store_true', help='')
+        # parser.add_argument("-teacher_forcing", action='store_true', help='')
+        parser.add_argument("-beam_size", type=float, default=50, help='')
+        parser.add_argument('-tensorboard_dir', type=str, default='', help='')
+        parser.add_argument('-logfile', type=str, default='train_log.log', help='')
+        parser.add_argument('-save_model_step', type=int, default=5000, help='')
+        parser.add_argument('-early_stop_tolerance', type=int, default=100, help='')
+        parser.add_argument('-train_parallel', action='store_true', help='')
+        # parser.add_argument('-schedule_lr', action='store_true', help='')
+        # parser.add_argument('-schedule_step', type=int, default=100000, help='')
+        # parser.add_argument('-schedule_gamma', type=float, default=0.5, help='')
+        # parser.add_argument('-processed', action='store_true', help='')
+        parser.add_argument('-prefetch', action='store_true', help='')
+
+        parser.add_argument('-dim_size', type=int, default=100, help='')
+        parser.add_argument('-kernel_width', type=int, default=5, help='')
+        parser.add_argument('-encoder_layer_num', type=int, default=6, help='')
+        parser.add_argument('-decoder_layer_num', type=int, default=6, help='')
+
         args = parser.parse_args(args)
         return args
+
+
+if __name__ == '__main__':
+    CopyCnnTrainer().train()