no code implementations • CCL 2020 • Hengrui Guo, Zhongqing Wang, Peifeng Li, Qiaoming Zhu
面向社交媒体的事件聚类旨在根据事件特征对短文本聚类。目前, 事件聚类模型主要分为无监督模型和有监督模型。无监督模型聚类效果较差, 有监督模型依赖大量标注数据。基于此, 本文提出了一种半监督事件聚类模型(SemiEC), 该模型在小规模标注数据的基础上, 利用LSTM表征事件, 利用线性模型计算文本相似度, 进行增量聚类, 利用增量聚类产生的标注数据对模型再训练, 结束后对不确定样本再聚类。实验表明, SemiEC的性能相比其他模型均有所提高。