摘 要:大数据集群环境中,随机访问的低效性使得基于行级别抽样的近似查询处理方法在构建样本时效率低下。该文将利用集群环境中数据分块存储的特性,以分块级别来进行抽样。在基准测试数据集和真实数据集上的实(试读)...