首页

数据分析与知识发现 [Data Analysis and Knowledge Discovery]

基本信息

  • ISSN:2096-3467
  • 语种: Chinese;
  • 出版格式:

出版信息

  • 出版时间:-
  • 出版者:中国科学院文献情报中心
  • 出版格式:
  • 总访问量:1169661次
  • 基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例

    关键词: 技术功效词抽取; 知识蒸馏; 微调大模型; 语义相似矩阵;

    DOI:10.12074/202402.00235V2

    提交时间: 2024-03-01

    摘要:目的 本文旨在提高专利技术功效自动化提取的准确度。 方法 使用ChatGPT作为教师模型(Teacher-model),ChatGLM3作为学生模型(Student-model),通过知识蒸馏,将ChatGPT生成的训练数据微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,并采用功效词抽取模型从技术功效语段中抽取功效词。 结果 微调后的多个技术词抽取模型和功效词抽取模型相较于ChatGPT,在抽取技术词和功效词时呈现准确率高、召回率低的特点,第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724。功效词抽取模型抽取的功效词的准确率为0.649,大于商业工具标注功效词的准确率0.53。 局限 本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则还有待于继续优化。 结论 本研究方案通过知识蒸馏操作,提升了大语言模型自动化抽取技术功效的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。

    点击量 231 下载量 63 评论 0
  • 面向多维应用的替代计量学“场景-问题-方法”研究框架

    关键词: 替代计量学; 应用场景; 研究问题; 关键方法;

    DOI:10.12074/T202402.00170V1

    提交时间: 2024-02-08

    摘要:【目的】替代计量分析已得到广泛认可和使用,但国内较多将其局限于科学评价视域,忽视了替代计量学广阔的应用场景。本文通过构建替代计量学“场景-问题-方法”研究框架,旨在丰富替代计量分析的研究设计,促进替代计量学健康可持续发展。【方法】通过借鉴科学学、信息计量学中的成熟框架,结合替代计量学的特征,构建起研究框架。【结果】替代计量学的应用场景可分为评价指标、科学传播、知识扩散三种。从研究问题视角构建替代计量分析的方向,面向评价指标场景提出指标应用、影响因素和指标构建三个方向的研究问题;面向科学传播场景提出传播策略、传播结构、传播趋势、科学与社会互动四个方向的研究问题;面向知识扩散场景提出扩散策略、扩散结构和扩散效果三个方向的研究问题。最后,结合因果推断、网络分析和机器学习三种关键分析方法,阐述每种研究问题相应的研究设计思路,对替代计量学的未来发展进行了展望。【结论】本研究提出的替代计量学框架有利于促进替代计量学进入内涵式发展阶段。

    点击量 518 下载量 90 评论 0
  • 基于数据立方体挖掘疾病 新关联*

    关键词: 疾病; 基因; 药物; 数据立方体; 关联规则 ; 关联网络 ;

    提交时间: 2017-12-05

    摘要:【目的】在海量文献中, 挖掘并预测生物医学实体之间的新关联, 构建关联网络。【方法】提出一种基于 数据立方体的新方法挖掘疾病–基因–药物间关联, 以糖尿病为例, 构建关联网络, 并使用关联规则量化实体关 联程度。【结果】由糖尿病相关疾病(14 种)、基因(23 种)和药物(24 种)构建三个 1-D 方体、三个 2-D 方体及其关 联网络和一个 3-D 方体关联网络, 共计存在 411 种关联, 同时得到 8 个关联子网。【局限】数据预处理存在主观 性, 可能会对挖掘结果产生影响。【结论】算法性能优于其他同类算法, 能够为糖尿病精准医疗提供更好的新研 究思路。

    点击量 40618 下载量 5952 评论 0
  • 基于 CSpace 的科技信息可配置化自动监测 功能设计与实现*

    关键词: Cspace; 机构知识库; 科技信息; 自动监测; 信息采集 ;

    提交时间: 2017-12-05

    摘要:【目的】实现对多源异构科技信息的长期监测、自动采集发布与存储管理, 以满足专题领域科技研究的需 求。【方法】结合 CSpace 的应用扩展需求, 设计开发了基于 CSpace 的可配置化的科技信息自动监测功能, 着重 研究和解决了多源异构科技信息采集内容规则的可配置化实现、与 CSpace 交互的自动采集发布接口的可配置化 实现等关键技术问题, 并以海洋科技信息的自动监测采集为例进行应用研究。【结果】能够实现对多源异构科技 信息的自动监测采集, 为科技平台建设提供良好支持。【局限】采集内容规则配置过程比较复杂; 不支持对一些 需要登录的复杂站点的自动监测。【结论】该功能方法较大程度上扩展了 CSpace 的数据采集集成功能, 且具有 一定的通用性、可配置性与松耦合性, 可应用于多个科技信息监测领域。

    点击量 10088 下载量 2145 评论 0
  • 关联数据中 owl:sameAs 网络分析*

    关键词: owl:sameAs; 数据集互联; 网络 ;

    提交时间: 2017-12-05

    摘要:【目的】调研 owl:sameAs 连接在真实数据网络中的配置和应用情况。【方法】从 BTC 2014 数据集中抽取 部分数据, 应用统计学方法对样本数据构成的 sameAs 网络进行结构分析、域名分析和实例类型分析。【结果】 数据分析结果表明, 真实数据网络中 sameAs 连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】 样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、 本体对齐、知识发现以及跨数据集查询等提供参考。

    点击量 8373 下载量 1431 评论 0
  • 基于任务展示示能性的众筹项目视频分析 ——以众筹网为例

    关键词: 众筹 ; 视频资源 ; 任务展示示能性; 内容特征; 形式特征; 内容分析 ;

    提交时间: 2017-12-05

    摘要:【目的】从发展现状、内容特征、形式特征三个方面分析我国不同类型众筹项目视频使用现状及其特点。 【方法】基于任务展示示能性理论, 构建视频内容特征和形式特征的二维视角(发起方视角和参与方视角)分析框 架, 并以众筹网为例进行实证探讨。【结果】研究表明: (1)视频资源能够显著促进众筹进度和成功率, 吸引用户关 注和支持, 但我国众筹项目介绍中使用视频的比例仍然较低; (2)不同类型的众筹项目其视频内容特征和形式特 征都有显著的相似性和差异性特点。【局限】分析框架粒度较大, 有待进一步扩展和细化。本研究选择综合性众 筹平台众筹网为研究对象, 样本具有一定的局限性。【结论】本文分析我国众筹项目中视频的现状和特点, 可以 为众筹平台的优化设计以及众筹项目的成功实施提供参考和建议。

    点击量 38487 下载量 5766 评论 0
  • 基于无标度网络模型和传染病模型的舆论 演化仿真研究*

    关键词: 无标度网络 ; 传染病模型; 舆情传播 ;

    提交时间: 2017-12-05

    摘要:【目的】精确地呈现网络社交中信息传播状态和传播过程, 从而更深入理解网络信息的传播机制。【方法】 在无标度网络模型和传染病模型基础上, 加入可调整参数, 构建改进的网络信息传播模型, 并在 NetLogo 平台上 进行舆情传播演化仿真。【结果】仿真实验结果表明: 在信息传播过程中, 不断变化的传播速率能够更好地描述 网络信息传播; 在集群度大的网络中对信息传播进行引导和控制的最佳时机是在传播速率增大阶段。【局限】模 型对人群分类仍然不够精细。【结论】模型不仅能够在设定条件下模拟不同类型信息的传播过程, 还可以为网络 舆情监测、引导和控制提供支持。

    点击量 8742 下载量 2129 评论 0
  • 基于维基百科的多种类型文献自动分类 研究*

    关键词: 多种类型文献; 文本分类; 特征选择 ; 特征扩展; 维基百科;

    提交时间: 2017-12-05

    摘要:【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分 类效果。【方法】在特征扩展之前, 对 TF-IDF 加以改进, 提出并使用一种新的特征选择方法 CDFmax-IDF 获得候 选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关 系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的 LDA 概率主题模 型 wLDA 模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN 和 SVM 三种分类器上实现分 类, 其 marco-F1 和 micro-F1 分别提升 1.6%-2.8%和 1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互 联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结 论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献 的自动分类效果。

    点击量 8487 下载量 1945 评论 0
  • 一种基于主流特征观点对的评论可信性 排序研究*

    关键词: 在线商品评论; 特征观点对 ; 可信度;

    提交时间: 2017-12-05

    摘要:【目的】从大量在线商品评论中筛选出可信的评论辅助消费者制定购买决策。【方法】提出一种基于大数 据思维的主流特征观点对的概念, 依据特征观点对在不同用户评论中的认可程度, 建立评论可信性排序模型。 【结果】淘宝、天猫和京东平台的商品评论的主流特征观点对是稳定的; 与已有模型相比, 使用本文模型排序过 的用户评论包含的产品特征范围更广, 评论有用性提升 7.5%, 更能够反映评论的真实情况。【局限】仅从评论包 含的特征观点对考虑评论可信性, 而未考虑评论的具体语义情况。【结论】包含主流特征观点对数量越多的评论, 其可信度则越大。

    点击量 7229 下载量 1123 评论 0
  • 中文科技论文图表摘要设计研究* ——以图书情报领域为例

    关键词: 图表标引 ; 中文摘要; 李克特量表 ;

    提交时间: 2017-12-05

    摘要:【目的】探究与设计基于图书情报领域、中文科技论文图表摘要构建的结构, 并制定构建规则。【方法】 通过调研的方法, 结合人工标注结果及图情领域中文科技论文、图表的特征, 设计摘要框架并规定构建规则, 最 终设计评测系统, 基于 SPSS 统计结果分析揭示该摘要系统的表现。【结果】本研究构建的图表摘要在图片信息 理解程度、效率、确信度等维度上的表现均优于现有图片–文本组合模式。【局限】图片信息覆盖率有待提高、 未考虑清楚图表类型所带来的差异、未完全实施自动化标引。【结论】依据本研究设计的中文科技论文图表摘要 构建结构与规则所形成的图表摘要能有效提高用户对文献主要内容的准确理解度。

    点击量 7228 下载量 1310 评论 0
更多>>