如何改进索引 有问题就会变成机会
由于 Athena 是最受欢迎的数据湖查询服务之一,许多用户都遇到过这些问题,公司会开发解决方案来消除不便和性能问题。当很难克服 AWS 内部的缺点时,人们有时会向外部寻求解决方案。对于 AWS 的索引和分区限制,用户可以考虑Varada 的大数据索引技术;它根据工作负载需求自动索引列。他们的索引数据将任何列中的数据分解为纳米块,然后根据数据内容和结构自动为每个纳米块选择最有效的索引。在后端,他们的机器学习优化工具监控集群性能和数据使用情况,以检测瓶颈和查询性能。当它发现优化机会时,它会自动应用改进。
结果是查询结果更快,成本也得到优化。此来源分享了不同指标 法国手机号码数据库 之间的性能比较。一个明显的区别是第一个实验。查询是为了找到特定 ID 和特定时间范围,如下所示。
结果显示,Athena 耗时 40.96 秒,扫描了 132.0GB,而 Varada 耗时 0.57 秒,扫描了 245KB。
总结
结果显示,根据分区的不同,可能会有很大的差异。在数据工程中,除了分区之外,还有很多方面需要注意。如果工程师必须管理分区,那么可能会减慢其他重要任务的速度。当您在 AWS 中拥有数据湖基础设施时,您可以考虑依赖 Varada 等第三方解决方案。
頁:
[1]