基于句子向量表示和模糊C均值的电子政务文档自动摘要技术
祁荣苓,焦文彬,汪洋

Automatic Summarization of e-Government Documents Based on Sentence Vector Representation and Fuzzy C-Means
QI Rongling,JIAO Wenbin,WANG Yang
表1 结合Doc2Vec与模糊C均值算法流程
Table 1 Combining Doc2Vec with fuzzy-c mean algorithm flow
输入:要生成摘要的文章
输出:文章摘要
Step l:将文档分解为句子,采用 Doc2Vec 模型对文档进行句子的向量化训练得到句子的向量化表示
Step 2:根据句子的相关特征对句子进行加权,得到每个句子的权重
Step 3:将句子向量采用模糊 C 均值聚类算法进行聚类,确定 k 个簇,对于句子随机初始化权重(隶属度)U = [uij],U(0)
Step 4:根据隶属度矩阵,确定质心。通过 U(k) 计算类中心向量 C(k) = [cj]
$c_{j}=\frac{\sum_{i=1}^{N} u_{i j}^{m} \cdot x_{i}}{\sum_{i=1}^{N} u_{i j}^{m}}$
Step 5:根据权重和质心,计算隶属度矩阵U(k),U(k+1)
$u_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|x_{i}-c_{j}\right\|}{\left\|x_{i}-c_{k}\right\|}\right)^{\frac{2}{m-1}}}$
Step 6:重复步骤 4,5 不断迭代隶属度矩阵和簇中心,直到他们达到最优。目标函数为:
Step 7:根据得到的隶属度矩阵,确定每个句子属于哪一类
Step 8:对于 k 个类,根据聚类中心抽取每个类的中心句,中心句选取与聚类中心的距离要小且权重大的句子。最终得到k个句子作为文章摘要