Frontiers of Data and Computing ›› 2023, Vol. 5 ›› Issue (2): 119-135.
CSTR: 32002.14.jfdc.CN10-1649/TP.2023.02.010
doi: 10.11871/jfdc.issn.2096-742X.2023.02.010
• Technology and Application • Previous Articles Next Articles
LI Yan1,2(),HE Hongbo1,*(
),WANG Runqiang1
HE Hongbo;
LI Yan,HE Hongbo,WANG Runqiang. A Survey of Research on Microblog Popularity Prediction[J]. Frontiers of Data and Computing, 2023, 5(2): 119-135,
Table 1
The classification of features affecting the popularity of microblog"
特征类别 | 常见子特征 |
发博用户特征 | 认证、地区、标签、生日、注册时长、年龄、粉丝数、关注数、发博数、近期活跃度、过往被转评赞数、影响力等 |
博文内容特征 | 信息量、主题、情感倾向、语义、外链/表情/图片数量、是否包含图片/视频/链接/长微博/表情、是否原创、是否含话题标签、是否涉及明星/名人/影响力用户等 |
信息传播特征 | 传播层级、出入度、传播速度、传播子网体量大小等 |
时间特征 | 发布日期、发布时刻、时间差等 |
其他 | 图片/视频的视觉特征、话题所在领域背景等 |
Table 2
Effectiveness comparison of multiple features"
文献编号 | 特征类别 | 关键子特征 | 有效性评估 |
[ | 发博用户特征 | 粉丝数(**)、过往转评赞数(**) | 特征综合>发博用户特征>博文内容特征 |
博文内容特征 | 词频(*)、是否包含图片/视频/长微博(*)、是否包含表情(*) | ||
[ | 发博用户特征 | 粉丝数(***)、关注数(***)、过往点赞数(**)、所属组群数(**) | 特征综合后有效 |
博文内容特征 | 是否包含图片(*) | ||
时间特征 | 发布时间(*) | ||
[ | 发博用户特征 | 粉丝数(***)、发博数(**)、过往转评赞数(*)、关注数(*) | 特征综合>发博用户特征>博文内容特征 |
博文内容特征 | 微博平均长度(***)、情感词数量(**)、标签数(*)、@的用户数(*) | ||
[ | 发博用户特征 | 粉丝数(**)、关注数(**)、发博数(*) | 特征综合>发博用户特征>博文内容特征 |
博文内容特征 | 是否被回复(***) | ||
[ | 发博用户特征 | 粉丝数(**)、关注数(**) | 特征综合>发博用户特征>其他>博文内容特征 |
博文内容特征 | 标签数(***)、概念(***)、标题(**)、子类别(**) | ||
其他 | 图像视觉特征(*) | ||
[ | 发博用户特征 | ID(***)、粉丝数(**)、过往总浏览量(**) | 特征综合>发博用户特征>博文内容特征 |
博文内容特征 | 标签数(***)、概念(***)、图片数(**)、标题长度(**) | ||
[ | 发博用户特征 | 过往平均浏览量(***)、所属组群数(*) | 特征综合>发博用户特征>博文内容特征>时间特征>其他 |
博文内容特征 | 标签数(**)、文本长度(**)、标题长度(**) | ||
时间特征 | 发布时间(*) | ||
其他 | 图像视觉特征(*) |
Table 3
Comparison of three popularity prediction methods"
热度预测方法 | 特点 | 优势 | 劣势 |
基于特征的热度预测方法 | 静态、从博文视角出发、热度多为传播效果进入终态/稳定态时的热度 | (1)研究成果较多,可参考性强; (2)针对性和定制性较强,可覆盖学者期望的所有特征。 | (1)特征模型需要人工构建,耗时耗力,且特征与热度之间的相关性决定了模型的预测效果; (2)静态特征易受到社交网络中突发事件的冲击; (3)预测结果为热度的宏观数值,没有关注微观上个人的行为干预。 |
基于时序的热度预测方法 | 动态、从事件发展视角出发、体现的是传播过程的变化规律 | (1)预测效果和精度普遍较好; (2)可针对未来某一时间节点进行预测,实用性强; (3)用过往观测数据预测未来时刻数据,可解释性较强。 | (1)对于前期时序数据观测记录与整合工作要求较高; (2)观测时间区间本身的局限性会影响预测模型的效果; (3)对于未来时序的预测中,短时效果会优于长时效果。 |
基于用户行为的热度预测方法 | 从传播底层实现视角出发,强调用户之间的交互影响和传播行为 | (1)具有较强的理论基础; (2)考虑用户行为的复杂性、动态性与多样性。 | (1)该方法中如信息级联和传染病模型过于强调“邻居”带来的影响,极易陷入理想的理论模型中,与现实观测效果偏差较大; (2)传播规模较大时,底层行为网络的构建与计算会增大模型开销; (3)以传播范围的形式体现热度水平,应用场景有限。 |
Table 5
Commonly used evaluation index for popularity prediction- classification problems"
指标名称 | 英文简称 | 作用 | 公式 |
准确率 | Accuracy | 表示正确预测的数量占总样本的百分比 | |
精确率 | Precision | 表示被正确地划分为正例的样本与预测结果为正例的样本数的比值 | |
召回率 | Recall | 表示有多少正例被判断为正例 | |
F1值 | F1 Score | 表示精确率和召回率的加权调和平均 | |
受试者工作特征曲线 | ROC | 以FP Rate为横轴,TP Rate为纵轴的曲线 | |
ROC曲线下面积 | AUC | ROC曲线对应的面积 |
Table 6
Comparison of popularity prediction algorithms"
算法性质 | 文献编号 | 算法模型 | 研究特点 | 研究方法 | 任务类别 | 评价指标 |
传统机器学习 | [56] | LR、SVM | 聚焦特定情感倾向下的热度预测问题 | 特征 | 分类 | ACC、F1 |
[57] | FWM | 引入特征加权机制 | 特征 | 分类 | P、R、F1 | |
深度学习 | [35] | DTCN | 将时间上下文和时间注意力结合 | 时序 | 回归 | MAE、 SRC |
[39] | PreNets | 创新的利用对抗模型寻找特征和时序点过程两种思维模式的平衡 | 特征、时序 | 回归 | MAPE、Kendall | |
[49] | RNe2Vec | 可用于解决潜在用户关系网络未知的信息扩散热度预测问题 | 特征、用户行为 | 分类 | ACC、P、R、F1 | |
[65] | DFTC | 适用于事件传播任何阶段的热度预测 | 特征、时序 | 分类 | ACC、F1 | |
[66] | BiLSTM | 首次实现仅采用标题信息完成热度预测 | 特征 | 分类 | ACC | |
集成学习 | [72] | XGBoost | 实现图片视觉特征、文本内容特征和用户特征的综合 | 特征 | 回归 | MAE、 SRC |
[79] | LDS | 用探测器根据特征性能自动设置集成模型深度 | 特征 | 回归 | MAE、MSE |
