首页>质量研究>期刊

基于Spark的序列数据质量评价

日期：2017.01.01 点击数：3

【类型】期刊

【基金项目】国家自然科学基金nos.61572332,51507084；中国博士后科学基金nos.2016t90850,2016m591890；中央高校基本科研业务费专项资金no.2016scu04a22

【作者】韩超段磊邓松王慧锋唐常杰

【关键词】概率后缀树数据质量 Spark 并行计算

【刊名】计算机科学与探索

【出版日期】2017-01-01

【ISSN】1673-9418

【页码】897-907

【期号】第6期

【作者单位】四川大学计算机学院；四川大学华西公共卫生学院；南京邮电大学先进技术研究院

【摘要】随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。

【全文挂接】获取全文

3 0

1、如何提高工程造价审计中的质量控制作者：邝梦珊年份：2017
2、影响口译质量的超音段音位因素研究综述作者：张梦蕾,杨晓峰,刘青年份：2017
3、43批市售制何首乌饮片的质量考察作者：马海春年份：2017
4、新建本科院校毕业生就业质量的提升策略作者：舒虹,张瑞年份：2017
5、新常态下广西耕地质量等别提升途径研究作者：麦启帆,贺斐年份：2017
6、热分析法在金属质量检测的有效运用研究作者：张文年份：2017

热点排行