examples/basic_language_model_cpm_lm.py

#! -*- coding: utf-8 -*-
# &#22522;&#26412;&#27979;&#35797;&#65306;&#28165;&#21326;&#24320;&#28304;&#30340;&#20013;&#25991;GPT2&#27169;&#22411;&#65288;26&#20159;&#21442;&#25968;&#65289;
# &#39033;&#30446;&#38142;&#25509;&#65306;https://github.com/TsinghuaAI/CPM-Generate
# &#21338;&#23458;&#20171;&#32461;&#65306;https://kexue.fm/archives/7912

import numpy as np
from bert4keras.models import build_transformer_model
from bert4keras.tokenizers import SpTokenizer
from bert4keras.snippets import AutoRegressiveDecoder
from bert4keras.snippets import uniout
import jieba
jieba.initialize()

# &#27169;&#22411;&#36335;&#24452;
config_path = '/root/kg/bert/CPM_LM_2.6B_TF/config.json'
checkpoint_path = '/root/kg/bert/CPM_LM_2.6B_TF/model.ckpt'
spm_path = '/root/kg/bert/CPM_LM_2.6B_TF/chinese_vocab.model'


def pre_tokenize(text):
    """&#20998;&#35789;&#21069;&#22788;&#29702;&#20989;&#25968;
    """
    return [
        w.replace(' ', u'\u2582').replace('\n', u'\u2583')
        for w in jieba.cut(text, cut_all=False)
    ]


tokenizer = SpTokenizer(
    spm_path,
    token_start=None,
    token_end=None,
    pre_tokenize=pre_tokenize,
    token_translate={u'\u2583': '<cls>'}
)  # &#24314;&#31435;&#20998;&#35789;&#22120;

model = build_transformer_model(
    config_path=config_path, checkpoint_path=checkpoint_path, model='gpt2'
)  # &#24314;&#31435;&#27169;&#22411;&#65292;&#21152;&#36733;&#26435;&#37325;


class TextExpansion(AutoRegressiveDecoder):
    """&#22522;&#20110;&#38543;&#26426;&#37319;&#26679;&#30340;&#25991;&#26412;&#32493;&#20889;
    """
    @AutoRegressiveDecoder.wraps(default_rtype='probas')
    def predict(self, inputs, output_ids, states):
        token_ids = np.concatenate([inputs[0], output_ids], 1)
        return self.last_token(model).predict(token_ids)

    def generate(self, text, n=1, topp=0.95, temperature=1):
        """&#36755;&#20986;&#32467;&#26524;&#20250;&#26377;&#19968;&#23450;&#30340;&#38543;&#26426;&#24615;&#65292;&#22914;&#26524;&#21482;&#20851;&#24515;Few Shot&#25928;&#26524;&#65292;
        &#21487;&#20197;&#32771;&#34385;&#23558;&#35299;&#30721;&#26041;&#24335;&#25442;&#20026;beam search&#12290;
        """
        token_ids, _ = tokenizer.encode(text)
        results = self.random_sample([token_ids],
                                     n,
                                     topp=topp,
                                     temperature=temperature)  # &#22522;&#20110;&#38543;&#26426;&#37319;&#26679;
        results = [token_ids + [int(i) for i in ids] for ids in results]
        texts = [tokenizer.decode(ids) for ids in results]
        return [self.post_replace(text) for text in texts]

    def post_replace(self, text):
        for s, t in [(' ', ''), (u'\u2582', ' '), (u'\u2583', '\n')]:
            text = text.replace(s, t)
        return text


text_expansion = TextExpansion(
    start_id=None,
    end_id=3,  # 3&#26159;<cls>&#65292;&#20063;&#26159;&#25442;&#34892;&#31526;
    maxlen=16,
)

# &#24120;&#35782;&#25512;&#29702;
# &#26412;&#20363;&#36755;&#20986;&#65306;&#21271;&#20140;
query = u"""
&#32654;&#22269;&#30340;&#39318;&#37117;&#26159;&#21326;&#30427;&#39039;
&#27861;&#22269;&#30340;&#39318;&#37117;&#26159;&#24052;&#40654;
&#26085;&#26412;&#30340;&#39318;&#37117;&#26159;&#19996;&#20140;
&#20013;&#22269;&#30340;&#39318;&#37117;&#26159;
"""
print(text_expansion.generate(query[1:-1], 1)[0])

# &#21333;&#35789;&#32763;&#35793;
# &#26412;&#20363;&#36755;&#20986;&#65306;bird
query = u"""
&#29399; dog
&#29483; cat
&#29482; pig
&#40479; 
"""
print(text_expansion.generate(query[1:-1], 1)[0])

# &#20027;&#35821;&#25277;&#21462;
# &#26412;&#20363;&#36755;&#20986;&#65306;&#26472;&#25391;&#23425;
query = u"""
&#20174;1931&#24180;&#36215;&#65292;&#21326;&#32599;&#24218;&#22312;&#28165;&#21326;&#22823;&#23398;&#36793;&#23398;&#20064;&#36793;&#24037;&#20316; &#21326;&#32599;&#24218;
&#22312;&#19968;&#38388;&#31616;&#38475;&#30340;&#25151;&#38388;&#37324;&#65292;&#38472;&#26223;&#28070;&#25915;&#20811;&#20102;&ldquo;&#21733;&#24503;&#24052;&#36203;&#29468;&#24819;&rdquo; &#38472;&#26223;&#28070;
&#22312;&#36825;&#37324;&#65292;&#19992;&#25104;&#26704;&#24471;&#21040;IBM&#22870;&#23398;&#37329; &#19992;&#25104;&#26704;
&#26472;&#25391;&#23425;&#22312;&#31890;&#23376;&#29289;&#29702;&#23398;&#12289;&#32479;&#35745;&#21147;&#23398;&#21644;&#20957;&#32858;&#24577;&#29289;&#29702;&#31561;&#39046;&#22495;&#20316;&#20986;&#37324;&#31243;&#30865;&#24615;&#36129;&#29486; 
"""
print(text_expansion.generate(query[1:-1], 1)[0])

# &#19977;&#20803;&#32452;&#25277;&#21462;
# &#26412;&#20363;&#36755;&#20986;&#65306;&#24352;&#32418;,&#20307;&#37325;,140&#26020;
query = u"""
&#23002;&#26126;&#30340;&#36523;&#39640;&#26159;211cm&#65292;&#26159;&#24456;&#22810;&#20154;&#24515;&#30446;&#20013;&#30340;&#20598;&#20687;&#12290; ->&#23002;&#26126;&#65292;&#36523;&#39640;&#65292;211cm
&#27611;&#27901;&#19996;&#26159;&#32461;&#20852;&#20154;&#65292;&#26089;&#24180;&#22312;&#38271;&#27801;&#35835;&#20070;&#12290;->&#27611;&#27901;&#19996;&#65292;&#20986;&#29983;&#22320;&#65292;&#32461;&#20852;
&#34429;&#28982;&#21608;&#26480;&#20262;&#22312;&#27431;&#27954;&#21150;&#30340;&#23130;&#31036;&#65292;&#20294;&#26159;&#20182;&#26159;&#22303;&#29983;&#22303;&#38271;&#30340;&#20013;&#22269;&#20154;->&#21608;&#26480;&#20262;&#65292;&#22269;&#31821;&#65292;&#20013;&#22269;
&#23567;&#26126;&#20986;&#29983;&#20110;&#27494;&#27721;&#65292;&#20294;&#26159;&#21364;&#19981;&#21916;&#27426;&#22312;&#27494;&#27721;&#29983;&#25104;&#65292;&#38271;&#22823;&#21518;&#21435;&#20102;&#21271;&#20140;&#12290;->&#23567;&#26126;&#65292;&#20986;&#29983;&#22320;&#65292;&#27494;&#27721;
&#21556;&#20134;&#20961;&#26159;&#24456;&#22810;&#20154;&#30340;&#20598;&#20687;&#65292;&#20294;&#26159;&#20182;&#21364;&#26159;&#21152;&#25343;&#22823;&#20154;&#65292;&#21478;&#24456;&#22810;&#20154;&#22833;&#26395;->&#21556;&#20134;&#20961;&#65292;&#22269;&#31821;&#65292;&#21152;&#25343;&#22823;
&#27494;&#32768;&#30340;&#29983;&#26085;&#22312;5&#26376;8&#21495;&#65292;&#36825;&#19968;&#22825;&#65292;&#22823;&#23478;&#37117;&#20026;&#20182;&#24198;&#31069;&#20102;&#29983;&#26085;->&#27494;&#32768;&#65292;&#29983;&#26085;&#65292;5&#26376;8&#21495;
&#12298;&#38738;&#33457;&#29943;&#12299;&#26159;&#21608;&#26480;&#20262;&#26368;&#24471;&#24847;&#30340;&#19968;&#39318;&#27468;&#12290;->&#21608;&#26480;&#20262;&#65292;&#20316;&#21697;&#65292;&#12298;&#38738;&#33457;&#29943;&#12299;
&#21271;&#20140;&#26159;&#20013;&#22269;&#30340;&#39318;&#37117;&#12290;->&#20013;&#22269;&#65292;&#39318;&#37117;&#65292;&#21271;&#20140;
&#33931;&#30887;&#30340;&#23478;&#20065;&#22312;&#30424;&#40857;&#22478;&#65292;&#27605;&#19994;&#21518;&#21435;&#20102;&#28145;&#22323;&#24037;&#20316;&#12290;->&#33931;&#30887;&#65292;&#31821;&#36143;&#65292;&#30424;&#40857;&#22478;
&#19978;&#21608;&#25105;&#20204;&#21644;&#29579;&#31435;&#19968;&#36215;&#21435;&#20102;&#20182;&#30340;&#23478;&#20065;&#20113;&#21335;&#29609;&#26152;&#22825;&#25165;&#22238;&#21040;&#20102;&#27494;&#27721;&#12290;->&#29579;&#31435;&#65292;&#31821;&#36143;&#65292;&#20113;&#21335;
&#26152;&#22825;11&#26376;17&#21495;&#65292;&#25105;&#21644;&#26379;&#21451;&#19968;&#36215;&#21435;&#20102;&#28023;&#24213;&#25438;&#65292;&#26399;&#38388;&#26381;&#21153;&#21592;&#20026;&#25105;&#30340;&#26379;&#21451;&#21016;&#31456;&#24198;&#31069;&#20102;&#29983;&#26085;&#12290;->&#21016;&#31456;&#65292;&#29983;&#26085;&#65292;11&#26376;17&#21495;
&#24352;&#32418;&#30340;&#20307;&#37325;&#36798;&#21040;&#20102;140&#26020;&#65292;&#22905;&#24456;&#33510;&#24700;&#12290;->
"""
print(text_expansion.generate(query[1:-1], 1)[0])