基于Trie树查找和非关键词消除的中文机构名称归一化

doi:10.11871/jfdc.issn.2096-742X.2025.02.014

数据与计算发展前沿 ›› 2025, Vol. 7 ›› Issue (2): 141-148.

CSTR: 32002.14.jfdc.CN10-1649/TP.2025.02.014

doi: 10.11871/jfdc.issn.2096-742X.2025.02.014

基于Trie树查找和非关键词消除的中文机构名称归一化

赵静¹(),姜树明^2,^*(),马启云¹

1.齐鲁工业大学（山东省科学院）计算机科学与技术学部，山东济南 250000
2.齐鲁工业大学（山东省科学院）山东省科学院情报研究所，山东济南 250000

收稿日期:2024-11-01 出版日期:2025-04-20 发布日期:2025-04-23
通讯作者: 姜树明
作者简介:赵静，齐鲁工业大学（山东省科学院），硕士研究生，主要研究方向为数据挖掘应用，数据处理。
本文承担工作为：算法设计与实现。
Zhao Jing is a master’s student at Qilu University of Technology (Shandong Academy of Sciences). Her main research interests include data mining applications and data processing.
In this paper, she is mainly responsible for algorithm design and implementation.
E-mail: zhaoj_0321@163.com|姜树明，齐鲁工业大学（山东省科学院）山东省科学院情报研究所，硕士生导师，主要研究方向为多媒体数据处理、数据挖掘应用研究等。
本文承担工作为：指导算法设计和优化。
Jiang Shuming is a master’s supervisor at the Information Research Institute of Shandong Academy of Sciences, Qilu University of Technology (Shandong Academy of Sciences). His main researcj interests include multimedia data processing and data mining application research.
In this paper, he is mainly responsible for guiding algorithm design and optimization.
E-mail: jsm@qlu.edu.cn
基金资助:
山东省科技型中小企业创新能力提升工程(2023TSGC0135)

Normalization of Chinese Institutional Names Based on Trie Tree Search and Unessential Words Elimination

ZHAO Jing¹(),JIANG Shuming^2,^*(),MA Qiyun¹

1. School of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan, Shandong 250000, China
2. Information Research Institute of Shandong Academy of Sciences, Qilu University of Technology (Shandong Academy of Sciences), Jinan, Shandong 250000, China

Received:2024-11-01 Online:2025-04-20 Published:2025-04-23
Contact: JIANG Shuming

摘要/Abstract

摘要：

【应用背景】在处理机构名称数据时，经常遇到机构名称不一致的问题。由于个体间的认知差异和主观偏好，同一机构可能会被赋予多个非规范名称。这些非规范名称通常基于普遍的认知常识、能够被广泛理解和接受，并且通常不会出现一个非规范名称对应多个规范名称的情况。【方法】基于此，提出了一种基于Trie树查找和非关键词消除的中文机构名称归一化算法。通过非关键词消除、Trie树模糊匹配和复核取优等步骤，实现了中文机构名称的自动归一化，提升了数据整合的准确性和效率。【结论】实验结果表明，该方法在提高机构名称归一化准确率和匹配效率方面表现较好。

关键词: 归一化, 非消除, 数据清洗, Trie树, 编辑距离查找, 复核取优

Abstract:

[Background] When processing institution name data, we often encounter the problem of inconsistent institution names. Due to cognitive differences and subjective preferences among individuals, the same institution may be assigned multiple non-standard names. These non-standard names are usually based on common cognitive knowledge, widely understood and accepted, and there is usually no situation where one non-standard name corresponds to multiple standardized names. [Methods] Based on this, this article proposes a Chinese institution name normalization algorithm based on Trie tree search and unessential words elimination. The automatic normalization of Chinese institution names has been achieved through unessential words elimination, Trie tree fuzzy matching, and review to obtain superior results, improving the accuracy and efficiency of data integration. [Conclusions] Experimental results show that this method performs well in improving the accuracy of institution name normalization and matching efficiency.

Key words: normalization, unessential words elimination, data cleaning, Trie tree, edit distance, review for optimization

赵静,姜树明,马启云. 基于Trie树查找和非关键词消除的中文机构名称归一化[J]. 数据与计算发展前沿, 2025, 7(2): 141-148.

ZHAO Jing,JIANG Shuming,MA Qiyun. Normalization of Chinese Institutional Names Based on Trie Tree Search and Unessential Words Elimination[J]. Frontiers of Data and Computing, 2025, 7(2): 141-148, https://cstr.cn/32002.14.jfdc.CN10-1649/TP.2025.02.014.

图/表 9

表1

表2

表3

图1

图2

图3

表4

表5

图4

参考文献 15

[1]	赵军. 科研实体识别及归一化的研究与系统实现[D]. 北京: 北京邮电大学, 2018.
[2]	胡潜, 吴茜, 董寒宇, 等. 基于作者和研究主题的科研机构名称演化关系识别研究[J]. 情报学报, 2023, 42(11): 1289-1299.
[3]	亓杰星, 彭金波, 傅洛伊, 等. 基于LEAM模型的机构命名实体归一化方法和系统[P]. 上海: CN2020 11141040. X, 2022-09-23.
[4]	BO Y, JUNWEI Y, SULAN Y. Research on rule-based normalization of institution name[J]. Data Analysis and Knowledge Discovery, 2015, 31(6): 57-63.
[5]	JIA Z, FANG Z, ZHANG H. Normalization of Web of Science Institution Names Based on Deep Learning[J]. Algorithms, 2024, 17(7): 312.
[6]	YIFEI C, XIAOYING L, AIHUA L, et al. A Deep Learning Model for the Normalization of Institution Names by Multisource Literature Feature Fusion: Algorithm Development Study.[J]. JMIR formative research, 2023, 7: e47434.
[7]	孙海霞, 李军莲, 吴英杰. 基于K-means的机构归一化研究[J]. 医学信息学杂志, 2013, 34(7): 41-44.
[8]	贾君枝, 曾建勋, 李捷佳, 等. 科研机构名称归一化实现[J]. 图书情报工作, 2018, 62(13): 103-110.
[9]	杨昭. 基于元路径的机构名称归一化研究[J]. 情报学报, 2020, 39(10): 1069-1080.
[10]	沈沛, 毛海涛, 胡文林, 等. 基于分段加权相似度匹配算法的中文科研机构名称归一化[J]. 信息技术与信息化, 2022(9): 59-62.
[11]	DONOHUE J C. Understanding Scientific Literatures: A Bibliometric Approach[J]. 1973.
[12]	KUMAR K M, SANKAR M D, MANISH G, et al. Trie-nlg: trie context augmentation to improve personalized query auto-completion for short and unseen prefixes[J]. Data Mining and Knowledge Discovery, 2023, 37(6): 2306-2329.
[13]	肖英, 赵林洁, 张宇, 等. 支持快速索引的高效大数据存储结构[J]. 计算机应用与软件, 2024, 41(3): 28-33.
[14]	张胜楠. 基于编辑距离的字符串相似度算法研究[J]. 现代计算机, 2023, 29(14): 23-26.
[15]	胡万亭, 杨燕, 尹红风, 等. 一种基于字频统计的组织机构名识别方法[J]. 计算机应用研究, 2013, 30(7): 2014-2016.

非关键词	出现次数
有限公司	12,279
股份	12,125
支行	10,033
分理处	2,958
分社	2,143
营业所	1,429
储蓄所	788
分行	686
集团	105
公司	94
支局	89
有限责任	73

简化后的银行机构名称（key）	银行机构全称（value）
招商银行临沂	招商银行股份有限公司临沂支行
山东商河农村商业银行展家	山东商河农村商业银行股份有限公司展家支行
山东莘县农村商业银行朝城	山东莘县农村商业银行股份有限公司朝城支行
山东莘县农村商业银行古云	山东莘县农村商业银行股份有限公司古云支行
山东莘县农村商业银行河店	山东莘县农村商业银行股份有限公司河店支行
......	......

清洗前	清洗后	简化后
建设银行历城支行山钢分理处	建设银行历城支行山钢分理处	建设银行历城山钢
建設銀行歷城支行山鋼分理處	建设银行历城支行山钢分理处	建设银行历城山钢
广发银行股份有限公司济南山大路支行	广发银行股份有限公司济南山大路支行	广发银行济南山大路
建行-0531-济南明湖东路支行	建行济南明湖东路支行	建行济南明湖东路
000000741003100018843
......	......	......

规范银行名称（简化后）	编辑距离
东营农村商业银行	5
山东章丘农村商业银行	5
临商银行费县	5
济宁农村商业银行	5
...	...

方法	准确率(%)	召回率(%)	F1值(%)
编辑距离算法	25.67	30.43	24.84
非关键词剔除的编辑距离算法	42.5	46.38	44.45
分段加权相似度匹配算法	56.37	57.42	56.80
基于Trie树和非关键词剔除的复核取优算法	94.16	97.41	95.76

基于Trie树查找和非关键词消除的中文机构名称归一化

Normalization of Chinese Institutional Names Based on Trie Tree Search and Unessential Words Elimination

RichHTML

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表 9

参考文献 15

相关文章 0

编辑推荐

Metrics

本文评价