您当前的位置: > 详细浏览

Spark框架下利用分布式NBC的大数据文本分类方法

请选择邀稿期刊:
摘要: 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后,在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了本文方法的准确性。

版本历史

[V1] 2018-10-11 09:20:10 ChinaXiv:201810.00023V1 下载全文
点击下载全文
预览
许可声明
metrics指标
  •  点击量2001
  •  下载量1149
评论
分享