基于句子向量表示和模糊C均值的电子政务文档自动摘要技术

祁荣苓,焦文彬,汪洋

Automatic Summarization of e-Government Documents Based on Sentence Vector Representation and Fuzzy C-Means

QI Rongling,JIAO Wenbin,WANG Yang

表1 结合Doc2Vec与模糊C均值算法流程

Table 1 Combining Doc2Vec with fuzzy-c mean algorithm flow

输入：要生成摘要的文章
输出：文章摘要

Step l：将文档分解为句子,采用 Doc2Vec 模型对文档进行句子的向量化训练得到句子的向量化表示
Step 2：根据句子的相关特征对句子进行加权,得到每个句子的权重
Step 3：将句子向量采用模糊 C 均值聚类算法进行聚类,确定 k 个簇,对于句子随机初始化权重（隶属度）U = [u_ij],U(0)
Step 4：根据隶属度矩阵,确定质心。通过 U(k) 计算类中心向量 C(k) = [c_j]
$c_{j}=\frac{\sum_{i=1}^{N} u_{i j}^{m} \cdot x_{i}}{\sum_{i=1}^{N} u_{i j}^{m}}$
Step 5：根据权重和质心,计算隶属度矩阵U(k),U(k+1)
$u_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|x_{i}-c_{j}\right\|}{\left\|x_{i}-c_{k}\right\|}\right)^{\frac{2}{m-1}}}$
Step 6：重复步骤 4,5 不断迭代隶属度矩阵和簇中心,直到他们达到最优。目标函数为：
Step 7：根据得到的隶属度矩阵,确定每个句子属于哪一类
Step 8：对于 k 个类,根据聚类中心抽取每个类的中心句,中心句选取与聚类中心的距离要小且权重大的句子。最终得到k个句子作为文章摘要