Spark框架下利用分布式NBC的大数据文本分类方法

作者： 臧艳辉 ¹ 赵雪章 ¹ 席运江 ²
作者单位：

1. 佛山职业技术学院

2. 华南理工大学
提交时间：2018-10-11 09:20:10

摘要: 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战，提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。提出的方法通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器（NBC），并研究了现有面向大数据的计算框架。首先，基于朴素贝叶斯文本分类模型将训练样本数据集分为m类。进一步在训练阶段中，将前一个MapReduce的输出作为后一个MapReduce的输入，采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势。最后，在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验，在所有五类新闻数据组上的分类都取得了99%以上的结果，并且均高于对比算法，证明了本文方法的准确性。

文本分类 MapReduce Spark框架分布式朴素贝叶斯分类器机器学习

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201810.00023 (或此版本 ChinaXiv:201810.00023V1)
DOI:10.12074/201810.00023V1
CSTR:32003.36.ChinaXiv.201810.00023.V1
推荐引用方式： 臧艳辉,赵雪章,席运江.(2018).Spark框架下利用分布式NBC的大数据文本分类方法.计算机应用研究.[ChinaXiv:201810.00023] (点此复制)

版本历史

[V1]

2018-10-11 09:20:10

ChinaXiv:201810.00023V1

下载全文

相关论文推荐

1. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
2. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
3. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
4. 引导大语言模型生成计算机可解析内容	2024-04-21
5. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
6. 大模型与标准文献知识库的融合应用探索	2024-04-10
7. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
8. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07
9. 引导大语言模型生成计算机可解析内容	2024-04-07
10. Terrain Point Cloud Inpainting via Signal Decomposition	2024-04-05


公开评论匿名评论仅发给作者