基于Spark的序列数据质量评价
日期:2017.01.01 点击数:3
【类型】期刊
【基金项目】国家自然科学基金nos.61572332,51507084;中国博士后科学基金nos.2016t90850,2016m591890;中央高校基本科研业务费专项资金no.2016scu04a22
【刊名】计算机科学与探索
【出版日期】2017-01-01
【ISSN】1673-9418
【页码】897-907
【期号】第6期
【作者单位】四川大学计算机学院;四川大学华西公共卫生学院;南京邮电大学先进技术研究院
【摘要】随着序列数据在实际中的广泛应用,序列数据质量评价成为学术、工业等众多领域的热门研究问题。目前主流的序列数据质量评价方法是基于概率后缀树模型进行数据质量评价,然而这种方法难以实现对大规模数据的处理。为解决此问题,提出了基于Spark的序列数据质量评价算法STALK(sequential data quality evaluation with Spark),并且采用了改进的剪枝策略来提高算法效率。具体地,在Spark平台下,利用大规模序列数据高效建立生成模型,并根据生成模型对查询序列的数据质量进行快速评价。
【全文挂接】 获取全文
相关文章
- 1、如何提高工程造价审计中的质量控制 作者:邝梦珊 年份:2017
- 2、影响口译质量的超音段音位因素研究综述 作者:张梦蕾,杨晓峰,刘青 年份:2017
- 3、43批市售制何首乌饮片的质量考察 作者:马海春 年份:2017
- 4、新建本科院校毕业生就业质量的提升策略 作者:舒虹,张瑞 年份:2017
- 5、新常态下广西耕地质量等别提升途径研究 作者:麦启帆,贺斐 年份:2017
- 6、热分析法在金属质量检测的有效运用研究 作者:张文 年份:2017
热点排行