全部 图书 报纸 期刊 视频 新闻 标准 学位论文 会议论文 图片

基于Spark的序列数据质量评价

日期:2017.01.01 点击数:3

【类型】期刊

【基金项目】国家自然科学基金nos.61572332,51507084;中国博士后科学基金nos.2016t90850,2016m591890;中央高校基本科研业务费专项资金no.2016scu04a22

【作者】韩超 段磊 邓松 王慧锋 唐常杰 

【关键词】 概率后缀树 数据质量 Spark 并行计算

【刊名】计算机科学与探索

【出版日期】2017-01-01

【ISSN】1673-9418

【页码】897-907

【期号】第6期

【作者单位】四川大学计算机学院;四川大学华西公共卫生学院;南京邮电大学先进技术研究院

【摘要】随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。

【全文挂接】 获取全文

3 0
Rss订阅