Results 11 to 20 of about 6,100 (127)

Research and Improvement on String Similarity Search and Join based on Appgram [PDF]

open access: yes, 2016
在传统数据库中进行查询时,选择与连接被视为最重要的几个操作之一,而在实际情况中,由于可能的错误或由不同数据格式导致数据呈现不一致,如果使用精确的选择与连接操作,由于数据字段无法完全匹配,数据查询可能无法返回结果。针对上述情形,通过采用一定容错机制,近似选择与连接被引入查询处理中。然而字符串近似搜索与连接不仅仅可以用于数据库中,同时在许多领域都有着广泛的应用,例如DNA序列分析、时间序列处理、重复Web页面检测、拼写检查、数据清洗、数据集成以及搜索引擎中查询建议等等 ...
邓天智
core  

Design and Implementation of Operation Risk Analysis and Supervision System for Commercial Bank [PDF]

open access: yes, 2015
全球的商业银行最近几年,都逐渐的开始管理及研究操作风险。其分析及监督管理,也已经成为当今在国内金融界所需要着手改善的问题,也是我们需要研究的课题。在近几年来,各家银行为了有效的防止操作风险的发生,都付出了巨额的金钱以及庞大的人力资源。本文在充分调研和理解了商业银行操作风险,并且对国内商业金融机构操作风险的管理模型进行了充分的分析,以及如何通过计算机的程序语言来完成对该管理系统设计和实现。接着在该管理系统软件的基础上分析得到的数据,来实时对商业银行操作风险的有效监督管理,最终达到对其的有效控制 ...
王敏
core  

基于改进bin算法的风电机组风速-功率数据清洗

open access: yes智能科学与技术学报, 2020
风速-功率是风电机组发电性能的重要指标,对风电场的运行管理具有重要意义。风速-功率数据是通过安装在风电场的监视控制与数据采集(SCADA)系统采集得到的,原始数据存在大量噪声,给后续应用研究带来了很大的挑战。基于风速-功率数据的空间分布特征,将风速-功率数据分为3类,并改进了数据预处理方法bin算法,提出了基于分区域(dbin)算法的异常数据识别清洗方法及流程。实验结果表明,dbin算法识别异常数据的效率比传统算法更高,具有较强的通用性。
王新, 王政霞
doaj  

Design and Implementation of Data Cleaning System Based on Memcached [PDF]

open access: yes, 2017
目前数据格式错误、不同来源的数据使用不同的标识等,脏数据大量存在,例如:字母拼写错误、打印格式不一致、数据值不合法、数据空值、简写大写不规范、同一实体的多种表示(重复)、引用完整性不统一等;对海量的数据进行清洗处理的时候需性能比较高的专业服务器,对于个人数据分析人员或企业都会增加额外的硬件开支。但是目前其实有大量的计算机节点(个人PC机或专用服务器)都处于性能过剩状态。 在数据挖掘和分析的过程中会搜集到大量的未分类、未格式转换及未清洗的数据文件,这些数据中蕴含着丰富的关联关系可以挖掘 ...
邱锋兴
core  

高灵敏电化学发光法检测人血清中FT4方法的建立

open access: yesZhongguo shiyan zhenduanxue, 2021
目的建立测定人血清游离甲状腺素(FT4)的电化学发光免疫分析方法。方法为检测人血清游离甲状腺素(FT4),将样本和生物素标记的FT4抗原竞争性结合三联吡啶钌标记的抗体,形成的免疫复合物和链霉亲和素包被的磁珠反应,形成了抗原抗体复合物,该免疫复合物通过磁珠吸附到电极上,未结合的物质被清洗掉,随即在三丙胺激发缓冲液的环境下,检测相对光子强度(relative light units,RLU)。根据标准品的RLU数值绘制标准曲线,从而检测出待测样品中的FT4浓度。结果本方法中,最低检测限为0.30pmol/L,
席杰   +7 more
doaj  

Research of Duplicate Record Detection Algorithm in Data Mining [PDF]

open access: yes, 2013
随着信息化的高速发展和客观上硬件技术的有效支撑,使得数据集中的海量 数据不免存在冗余、缺失、不确定数据和不一致数据等诸多情况,这些统称为“脏 数据”。人们需要从数据集中获取真实可靠的数据就必须进行数据清洗。而重复 记录检测是数据清洗领域中的研究热点。本文首先介绍了数据仓库、数据清洗以 及重复记录检测的相关知识,包括数据清洗的原理、方法、基本流程和工具以及 重复记录检测匹配算法和重复记录检测清除算法。在此基础上,本文提出了三个 改进算法。分别是基于传递闭包的重复记录检测算法,基于属性分析的重复记录 ...
何玲
core  

专题情报数据管理与智能分析平台的构建 [PDF]

open access: yes, 2020
[目的/意义]面对多学科领域、多类型用户的专题情报服务需求,建立专题情报数据管理与智能分析平台。实现专题情报分析的流程化和智能化,同时对融入专家智慧的专题情报分析过程数据进行管理,丰富服务模式,提升服务需求响应速度。[方法/过程]在调研已有相关研究与实践分析基础上,提出平台设计思路、建设框架,对平台主要功能和关键技术进行剖析。[结果/结论]专题情报数据管理与智能分析平台已建设完成。平台集成了多来源多类型数据,打通了从数据到分析的服务链条。嵌入了多种情报分析方法和深度学习算法,实现了多维多层次分析服务 ...
于倩倩   +5 more
core  

基于多维信息特征映射的电网风险区段路径匹配模型研究

open access: yesGaoya dianqi, 2020
受风险指标影响,现有方法电网路径匹配效果不佳,无法获得成本最佳路线,因此,设计基于多维信息特征映射的电网风险区段路径匹配模型。采集电网风险区段路径数据并对其进行预处理,采用SNM方法对数据实施二次排序与清洗。通过3D mine软件,根据路径数据与地理特征信息构建电网风险区段路径的地理模型,提取电网风险区段路径特征。根据获取的特征结果,建立多维信息特征映射模型,得出多维信息特征相斥度函数,并采用BPSO算法优化与映射函数相应的权重值,实现电网风险区段路径匹配。分析实验结果可知 ...
刘世涛, 杨凯, 伍弘, 何宁辉
doaj  

海量实测过电压数据智能自清洗方法

open access: yesGaoya dianqi, 2019
系统过电压及其造成的事故屡见不鲜,严重威胁电网稳定性与安全性,因此,电网过电压数据的高效,准确获取是电网暂态分析和安全运行的重要保障。虽然相关研究已捕获了一定数量的过电压数据,但针对过电压数据采集与传输过程中数据库掺入错误、无效波形导致数据质量降低而无法实现有效应用的问题尚未解决。文中以某变电站实测过电压在线监测数据为研究对象,研究错误波形与真实过电压波形间的差异性规律,提出基于稀疏自编码、主成分分析(PCA)以及基于密度峰快速搜寻的聚类(CFSFDP)的海量过电压自动清洗方法 ...
陈钦柱   +8 more
doaj  

Design and Implementation of Data Mining Subsystem Using in Early-warning Supervisory System of Taxpayers [PDF]

open access: yes, 2015
随着金税工程(二期)的实施,税务部门实现了业务数据省级集中,积累了大量分布在各个应用系统中的涉税信息,是税务部门进行税收分析的重要依据。对税务系统中积累的海量数据进行挖掘,从中提取有价值的信息,建设基于数据仓库的纳税人预警监控系统,成为税收数据分析的必然要求。 本文借助Weka平台,通过其提供的算法接入功能,初步实现了一个可供税务数据挖掘初步使用的子系统,具体功能包括数据预处理,DBSCAN聚类模块,EM聚类模块,和结果显示模块等。最后 ...
兰育平
core  

Home - About - Disclaimer - Privacy