分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-12-05 合作期刊: 《数据分析与知识发现》
摘要: 【目的】针对官方微博数据存在大量不相关信息的问题, 过滤博文进而检测事件。【方法】利用 Word2Vec 机器学习模型训练官方微博记录集, 并将博文影响力、词基础权重以及官微相关性相结合, 提出 官方微博突显词检测方法, 计算突显词博文的相似度, 利用层次聚类算法对突显词博文聚类后选取合适的 突显词描述事件, 从而实现事件检测。【结果】实验结果表明, 与TF-IDF 和TextRank 算法相比较, 本文的 突显词算法在准确率(63.5%)、召回率(85.5%)和F 值(73.0%)方面表现更好。【局限】官方微博历史记录太少, 初始的训练会存在数据冷启动问题。【结论】本文方法可以在官方微博博文中有效检测官方微博事件。