输入:要生成摘要的文章 输出:文章摘要 | Step l:将文档分解为句子,采用 Doc2Vec 模型对文档进行句子的向量化训练得到句子的向量化表示 Step 2:根据句子的相关特征对句子进行加权,得到每个句子的权重 Step 3:将句子向量采用模糊 C 均值聚类算法进行聚类,确定 k 个簇,对于句子随机初始化权重(隶属度)U = [uij],U(0) Step 4:根据隶属度矩阵,确定质心。通过 U(k) 计算类中心向量 C(k) = [cj] $c_{j}=\frac{\sum_{i=1}^{N} u_{i j}^{m} \cdot x_{i}}{\sum_{i=1}^{N} u_{i j}^{m}}$ Step 5:根据权重和质心,计算隶属度矩阵U(k),U(k+1) $u_{i j}=\frac{1}{\sum_{k=1}^{c}\left(\frac{\left\|x_{i}-c_{j}\right\|}{\left\|x_{i}-c_{k}\right\|}\right)^{\frac{2}{m-1}}}$ Step 6:重复步骤 4,5 不断迭代隶属度矩阵和簇中心,直到他们达到最优。目标函数为: Step 7:根据得到的隶属度矩阵,确定每个句子属于哪一类 Step 8:对于 k 个类,根据聚类中心抽取每个类的中心句,中心句选取与聚类中心的距离要小且权重大的句子。最终得到k个句子作为文章摘要 |
|