Run ASRT on smartphones.

&#25105;&#24076;&#26395;&#22312;android & IOS&#19978;&#36939;&#34892;ASRT&#65292;&#25105;&#20351;&#29992;python&#36914;&#34892;&#24460;&#32396;&#30340;&#28204;&#35430;
&#39318;&#20808;&#25105;&#23559;&#38899;&#27284;&#35712;&#20837;&#26159;&#20351;&#29992;:  
```
import librosa
wav_signal, sample_rate = librosa.load(audio_path, sr=None)
```
&#25509;&#19979;&#20358;&#25105;&#35712;&#21462;ASRT&#30340;&#27169;&#22411;&#21443;&#25976;(&#36889;&#20491;&#27169;&#22411;&#38500;&#20102;&#21407;&#22987;&#25976;&#25818;&#22806;&#65292;&#36996;&#21152;&#20837;&#20102;CV&#30340;TW&#25976;&#25818;&#12290;    
```
from model_zoo.speech_model.keras_backend import SpeechModel251BN
def load_tf_model(model_path):
	AUDIO_LENGTH = 1600
	AUDIO_FEATURE_LENGTH = 200
	CHANNELS = 1
	# &#21407;&#22987;&#25340;&#38899;=1427&#12289;cv-TW=3&#12289;&#31354;&#30333;=1
	OUTPUT_SIZE = 1431
	sm251bn = SpeechModel251BN(
		input_shape=(AUDIO_LENGTH, AUDIO_FEATURE_LENGTH, CHANNELS),
		output_size=OUTPUT_SIZE
    )
	sm251bn.load_weights('./save_models/SpeechModel251bn/SpeechModel251bn_epoch40.model.h5')
	trained_model, base_model = sm251bn.get_model()
	return trained_model, base_model
```

&#25105;&#36879;&#36942;&#19978;&#36848;&#30340;&#20195;&#30908;&#21462;&#24471;&#27442;&#35347;&#32244;&#30340;&#27169;&#22411;&#65292;trained_model&#26159;&#21253;&#21547;CTC loss&#30340;&#65292;&#22240;&#27492;&#25105;&#20351;&#29992;base_model &#36914;&#34892;&#36681;&#25563;&#12290;&#25105;&#20849;&#20351;&#29992;&#20102;ONNX&#33287;TF_lite&#36914;&#34892;&#28204;&#35430;:
TF_lite:  
```
def convert_tf_lite(tf_model, save_path):
	# &#36681;&#25563;&#20026; TensorFlow Lite &#27169;&#22411;
	converter = tf.lite.TFLiteConverter.from_keras_model(tf_model)
	tflite_model = converter.convert()
	# &#20445;&#23384; TensorFlow Lite &#27169;&#22411;
	with open(save_path, 'wb') as f:
		f.write(tflite_model)
	return os.path.isfile(save_path)
```

ONNX:  
```
def convert_tf_onnx(tf_model, save_path, opset):
	import tensorflow as tf
	import tf2onnx
	# &#36681;&#25563;&#28858; ONNX &#26684;&#24335;
	onnx_model, _ = tf2onnx.convert.from_keras(tf_model, opset=opset)

	# &#20445;&#23384; ONNX &#27169;&#22411;
	with open(save_path, 'wb') as f:
		f.write(onnx_model.SerializeToString())
	return os.path.isfile(save_path)
```
&#25509;&#19979;&#20358;&#25105;&#20351;&#29992;&#20102;&#20462;&#25913;&#36942;&#30340;Spectrogram&#36914;&#34892;&#29305;&#24501;&#25552;&#21462;
```
from speech_features import Spectrogram
data_pre = Spectrogram()
audio_features = data_pre.onnx_run(wavsignal=wav_signal, fs=sample_rate)
audio_features = adaptive_padding(input_data=audio_features, target_length=1600)
```
&#25105;&#22312;&#21407;&#22987;&#30340;Spectrogram&#39006;&#21443;&#32771;run&#21109;&#24314;&#20102;onnx_run&#65292;&#23526;&#38555;&#19978;&#21482;&#26159;&#21305;&#37197;&#36664;&#20837;&#21443;&#25976;&#30340;&#32173;&#24230;&#31561;&#36039;&#35338;&#12290;
```
def onnx_run(self, wavsignal, fs=16000):
	if fs != 16000:
		raise ValueError(
			f"[Error] ASRT currently only supports wav audio files with a sampling rate of 16000 Hz, but this "
			f"audio is {fs} Hz.")

	# wav&#27874;&#24418; &#21152;&#26102;&#38388;&#31383;&#20197;&#21450;&#26102;&#31227;10ms
	time_window = 25  # &#21333;&#20301;ms
	window_length = int(fs / 1000 * time_window)  # &#35745;&#31639;&#31383;&#38271;&#24230;&#30340;&#20844;&#24335;&#65292;&#30446;&#21069;&#20840;&#37096;&#20026;400&#22266;&#23450;&#20540;

	wav_arr = np.array(wavsignal)

	range0_end = int(len(wavsignal) / fs * 1000 - time_window) // 10 + 1  # &#35745;&#31639;&#24490;&#29615;&#32456;&#27490;&#30340;&#20301;&#32622;&#65292;&#20063;&#23601;&#26159;&#26368;&#32456;&#29983;&#25104;&#30340;&#31383;&#25968;
	data_input = np.zeros((range0_end, window_length // 2), dtype=np.float64)  # &#29992;&#20110;&#23384;&#25918;&#26368;&#32456;&#30340;&#39057;&#29575;&#29305;&#24449;&#25968;&#25454;
	data_line = np.zeros((1, window_length), dtype=np.float64)

	for i in range(0, range0_end):
		p_start = i * 160
		p_end = p_start + 400

		data_line = wav_arr[p_start:p_end]
		data_line = data_line * self.w  # &#21152;&#31383;
		data_line = np.abs(fft(data_line))

		data_input[i] = data_line[0: window_length // 2]  # &#35774;&#32622;&#20026;400&#38500;&#20197;2&#30340;&#20540;&#65288;&#21363;200&#65289;&#26159;&#21462;&#19968;&#21322;&#25968;&#25454;&#65292;&#22240;&#20026;&#26159;&#23545;&#31216;&#30340;

	data_input = np.log(data_input + 1)
	return data_input
```
&#25509;&#19979;&#20358;&#36879;&#36942;adaptive_padding&#23559;&#36664;&#20837;&#30340;&#29305;&#24501;&#36681;&#25563;&#25104;&#36319;&#21407;&#22987;&#36664;&#20837;&#30456;&#21516;&#30340;&#23610;&#23544;
```
def adaptive_padding(input_data, target_length=1600):
	input_data = input_data.astype(np.float32)

	input_data = np.expand_dims(input_data, axis=0)  # &#28155;&#21152;&#25209;&#37327;&#32500;&#24230;
	input_data = np.expand_dims(input_data, axis=-1)  # &#28155;&#21152;&#36890;&#36947;&#32500;&#24230;
	# &#35745;&#31639;&#38656;&#35201;&#22635;&#20805;&#30340;&#38271;&#24230;
	current_length = input_data.shape[1]
	padding_length = max(0, target_length - current_length)

	# &#35745;&#31639;&#22635;&#20805;&#23485;&#24230;
	left_padding = padding_length // 2
	right_padding = padding_length - left_padding
	pad_width = [(0, 0), (left_padding, right_padding), (0, 0), (0, 0)]

	# &#36827;&#34892;&#22635;&#20805;
	padded_data = np.pad(input_data, pad_width, mode='constant').astype(np.float32)

 	return padded_data
```
&#32147;&#30001;&#19978;&#36848;&#36681;&#25563;&#24460;&#30340;&#27169;&#22411;&#36664;&#20986;&#32080;&#26524;&#65292;&#37117;&#26159;&#31354;&#30333;&#22602;&#20998;&#25976;&#26368;&#39640;&#65292;&#24460;&#32396;&#35519;&#29992;tf.nn.ctc_beam_search_decoder&#33287;K.ctc_decode&#23601;&#27794;&#26377;&#24847;&#32681;&#20102;&#12290;

&#24819;&#35531;&#21839;&#26159;&#21542;&#26377;&#30456;&#38364;&#30340;&#30740;&#31350;&#25110;&#23526;&#36368;&#26041;&#27861;&#21487;&#20197;&#25512;&#34214;?&#21448;&#25110;&#32773;&#25105;&#38656;&#35201;&#25552;&#20379;&#26356;&#22810;&#30340;&#28204;&#35430;&#25110;&#29305;&#23450;&#25991;&#20214;?

&#24863;&#35613;


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Run ASRT on smartphones. #328

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Run ASRT on smartphones. #328

Description

Activity

Evanston0624 commented on May 6, 2024

Evanston0624 commented on May 6, 2024

nl8590687 commented on May 6, 2024

nl8590687 commented on May 6, 2024

Evanston0624 commented on May 6, 2024

nl8590687 commented on May 6, 2024

Evanston0624 commented on May 16, 2024

Evanston0624 commented on Jun 13, 2024

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions