Skip to content

howl-anderson/four_corner_method

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

中文「四角号码」数据与工具

四角号码,汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。

四角号码最重要的特点之一是字形相似的字具有相同或者相似的编码。比如 (37001)和 (37101)字形相似,编码也接近。

这种特性可以被深度学习模型用来作为字的特征之一:字形的特征。

安装

pip install four_corner_method

使用

from four_corner_method import FourCornerMethod

fcm = FourCornerMethod()
print(fcm.query('民'))  # 77747
print(fcm.query('名'))  # 27602

开发

参见 DEVELOP.md

致谢

四角号码数据来自于 wangyanhan @ 资料共享——最全的《四角号码检字表》chm

About

中文「四角号码」数据与工具,可以将汉字拆解成和字形相关的编码,在机器学习中作为汉字的字形特征

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages