Firehose 전송 스트림을 위한 Athena 파티션 자동 생성

블로그

AWS Firehose를 사용하면 데이터를 수집하고 일반 파일로 S3에 저장할 전송 스트림을 생성할 수 있습니다. 오프라인 처리를 위해 라이브 시스템의 일부 데이터를 저장하려는 경우 매우 편리합니다. Firehose는 자동으로 데이터를 |_+_|와 같이 구성된 S3 폴더의 계층 구조에 넣습니다.

AWS Athena에서는 Firehose 전송 스트림에 의해 저장된 데이터를 쿼리할 수 있습니다. 문제는 기본적으로 Athena가 모든 날짜에 대해 데이터를 스캔하므로 비용이 많이 든다는 것입니다. 스캔된 데이터의 양을 줄이기 위해 Athena에서는 예를 들어 매일 파티션을 정의할 수 있습니다. 이렇게 하면 특정 쿼리에 대해 스캔되는 데이터의 양을 제한할 수 있습니다. 안타깝게도 Athen이 제공하는 자동 파티션은 Firehose에서 생성한 폴더 구조와 호환되지 않습니다. 그러나 AWS Lambda를 사용하여 파티션 생성을 자동화하는 방법이 있습니다.

#aws #athena #firehose #amazon 웹 서비스

60devs.com

Firehose 전송 스트림을 위한 Athena 파티션 자동 생성

AWS Athena에서는 Firehose 전송 스트림에 의해 저장된 데이터를 쿼리할 수 있습니다. 문제는 기본적으로 Athena가 모든 날짜에 대해 데이터를 스캔하므로 비용이 많이 든다는 것입니다. 스캔된 데이터의 양을 줄이기 위해 Athena에서는 예를 들어 매일 파티션을 정의할 수 있습니다. 이렇게 하면 특정 쿼리에 대해 스캔되는 데이터의 양을 제한할 수 있습니다.