Results 11 to 20 of about 5,860 (123)
【目的】解决科技大数据数据源分散、质量不高、内容单薄等问题。【方法】采用数据清洗、实体对齐、实体字段融合、冲突检测等增值计算方法, 设计开发一套科技大数据增值丰富化的工具。【结果】通过本文研发的丰富化工具, 在人员、机构、会议、期刊实体及实体关系层面实现实体数据对齐, 实体字段内容增加5-10倍, 实体分析维度提升2-3倍。【局限】增值数据的及时性、规范性需要结合服务需求在实际应用中不断优化提升。【结论】研究成果提升了科技大数据知识发现平台以及相关情报智能分析系统的数据服务维度及深度。
吴振新 +4 more
core +1 more source
Multi-stage detection method for APT attack based on sample feature reinforcement [PDF]
Given the problems that the current APT attack detection methods were difficult to perceive the diversity of stage flow features and generally hard to detect the long duration APT attack sequences and potential APT attacks with different attack stages, a
Hongyu YANG +4 more
core +1 more source
Research and Improvement on String Similarity Search and Join based on Appgram [PDF]
在传统数据库中进行查询时,选择与连接被视为最重要的几个操作之一,而在实际情况中,由于可能的错误或由不同数据格式导致数据呈现不一致,如果使用精确的选择与连接操作,由于数据字段无法完全匹配,数据查询可能无法返回结果。针对上述情形,通过采用一定容错机制,近似选择与连接被引入查询处理中。然而字符串近似搜索与连接不仅仅可以用于数据库中,同时在许多领域都有着广泛的应用,例如DNA序列分析、时间序列处理、重复Web页面检测、拼写检查、数据清洗、数据集成以及搜索引擎中查询建议等等 ...
邓天智
core
Design and Implementation of Operation Risk Analysis and Supervision System for Commercial Bank [PDF]
全球的商业银行最近几年,都逐渐的开始管理及研究操作风险。其分析及监督管理,也已经成为当今在国内金融界所需要着手改善的问题,也是我们需要研究的课题。在近几年来,各家银行为了有效的防止操作风险的发生,都付出了巨额的金钱以及庞大的人力资源。本文在充分调研和理解了商业银行操作风险,并且对国内商业金融机构操作风险的管理模型进行了充分的分析,以及如何通过计算机的程序语言来完成对该管理系统设计和实现。接着在该管理系统软件的基础上分析得到的数据,来实时对商业银行操作风险的有效监督管理,最终达到对其的有效控制 ...
王敏
core
Design and Implementation of Data Cleaning System Based on Memcached [PDF]
目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重复)、引用完整性不统一等;对海量的数据进行清洗处理的时候需性能比较高的专业服务器,对于个人数据分析人员或企业都会增加额外的硬件开支。但是目前其实有大量的计算机节点(个人PC机或专用服务器)都处于性能过剩状态。 在数据挖掘和分析的过程中会搜集到大量的未分类、未格式转换及未清洗的数据文件,这些数据中蕴含着丰富的关联关系可以挖掘 ...
邱锋兴
core
Research of Duplicate Record Detection Algorithm in Data Mining [PDF]
随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量 数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况,这些统称为“脏 数据”。人们需要从数据集中获取真实可靠的数据就必须进行数据清洗。而重复 记录检测是数据清洗领域中的研究热点。本文首先介绍了数据仓库、数据清洗以 及重复记录检测的相关知识,包括数据清洗的原理、方法、基本流程和工具以及 重复记录检测匹配算法和重复记录检测清除算法。在此基础上,本文提出了三个 改进算法。分别是基于传递闭包的重复记录检测算法,基于属性分析的重复记录 ...
何玲
core
[目的/意义]面对多学科领域、多类型用户的专题情报服务需求,建立专题情报数据管理与智能分析平台。实现专题情报分析的流程化和智能化,同时对融入专家智慧的专题情报分析过程数据进行管理,丰富服务模式,提升服务需求响应速度。[方法/过程]在调研已有相关研究与实践分析基础上,提出平台设计思路、建设框架,对平台主要功能和关键技术进行剖析。[结果/结论]专题情报数据管理与智能分析平台已建设完成。平台集成了多来源多类型数据,打通了从数据到分析的服务链条。嵌入了多种情报分析方法和深度学习算法,实现了多维多层次分析服务 ...
于倩倩 +5 more
core
A Bibliometric and Visual Analysis of the Current Status and Trends of Forensic Mixed Stain Research [PDF]
Objective To explore the context and hotspot changes of forensic mixed stain research through bibliometric approach. Methods The literature of forensic mixed stain included in the core collection of Web of Science database from 2011 to 2022 were ...
Qing-wei FAN, Ling LI, Hui-ling YANG, Ting-ting DENG, Dong-dong XU, Yun WANG, Bing DU, Jiang-wei YAN
core +1 more source
Design and Implementation of Data Mining Subsystem Using in Early-warning Supervisory System of Taxpayers [PDF]
随着金税工程(二期)的实施,税务部门实现了业务数据省级集中,积累了大量分布在各个应用系统中的涉税信息,是税务部门进行税收分析的重要依据。对税务系统中积累的海量数据进行挖掘,从中提取有价值的信息,建设基于数据仓库的纳税人预警监控系统,成为税收数据分析的必然要求。 本文借助Weka平台,通过其提供的算法接入功能,初步实现了一个可供税务数据挖掘初步使用的子系统,具体功能包括数据预处理,DBSCAN聚类模块,EM聚类模块,和结果显示模块等。最后 ...
兰育平
core
[目的/意义]作者主题模型作为近年来计算机领域关注度较高的新型概率模型,在文本挖掘与自然语言处理等方向已有广泛应用。分析国内外作者主题模型及其改进的思路与应用,更好地把握其研究现状,以期为计算机、图书情报等相关领域科研人员提供参考。[方法/过程]本文选取Web of Science核心数据库、DBLP及中国知网(CNKI)数据库作为文献来源,通过制定检索规则、去重及人工判读等操作提炼出关于作者主题模型及其改进方法的文献集,从模型应用过程的视角,结合文献分析法对现有研究进行总结归纳。[结果/结论 ...
刘小平, 徐涵
core

