아파치 고블린이란?
Apache Gobblin은 다양한 데이터 소스에서 대용량 데이터를 추출, 변환 및 로드하기 위한 통합 데이터 수집 프레임워크입니다. 동일한 실행 프레임워크에서 서로 다른 데이터 소스의 데이터를 수집할 수 있으며 다른 소스의 메타데이터를 제자리에서 관리할 수 있습니다. 자동 확장성, 내결함성, 데이터 품질 보증, 확장성 및 데이터 모델 진화 처리 기능과 같은 다른 기능과 결합된 고블린. 사용하기 쉽고 자체 서비스가 가능한 효율적인 데이터 수집 프레임워크입니다.
네이티브 차트 라이브러리 반응
Apache 고블린 구성 요소
Gobblin은 6가지 구성 요소 인터페이스를 제공하므로 개발을 쉽게 확장하고 사용자 지정할 수 있습니다.
- 원천
- 추출기
- 변환기
- 품질 검사기
- 작가
- 발행자
원천 - 소스 데이터를 일련의 작업 단위로 통합하고 해당 추출기가 무엇인지 표시하는 일을 주로 담당합니다.
추출기 - Extractor는 이 추출에 사용되는 토픽의 각 파티션의 시작 오프셋을 나타내는 Kafka와 같은 작업 단위를 통해 데이터 소스 정보를 지정합니다. Gobblin은 워터마크의 개념을 사용하여 추출된 각 데이터의 시작 위치를 기록합니다.
변환기 – 바이트 배열 또는 JSON 형식 데이터를 출력해야 하는 형식으로 변환하는 것과 같이 추출된 데이터에 대해 일부 필터링 및 변환 작업을 수행합니다. 변환 작업은 데이터 조각을 0개 이상의 데이터 조각으로 매핑할 수도 있습니다.
품질 검사기 – 레코드 수준 및 작업 수준 정책의 두 가지 유형의 검사기가 있는 품질 감지기입니다. 확인된 데이터는 외부 파일로 출력되거나 표준 정책 또는 선택적 정책에 의해 경고가 표시됩니다.
작가 - 기록기는 내보낸 데이터를 쓰지만 출력 파일에 직접 기록되지 않고 스테이징 디렉터리에 기록됩니다. 모든 데이터가 기록되면 게시자가 게시할 수 있도록 출력 경로에 기록됩니다. Sink의 경로는 HDFS, Kafka 또는 S3일 수 있으며 형식은 Avro, Parquet 또는 CSV 형식일 수 있습니다. 동시에 작성기는 타임스탬프에 따라 hour 또는 day라는 디렉토리에 출력 파일을 출력할 수 있습니다.
발행인 – 게시자는 최종 경로에 데이터를 출력하기 위해 작성자가 작성한 경로를 기반으로 합니다. 동시에 전체 커밋과 부분 커밋의 두 가지 제출 메커니즘을 제공합니다. 전체 커밋인 경우 게시하기 전에 성공할 때까지 기다려야 합니다. 부분 커밋 모드인 경우 작업이 실패하면 디렉터리의 일부 데이터가 게시된 것입니다.
Visual Studio 재설정 창 레이아웃
왜 아파치 고블린인가?
Apache Gobblin은 다양한 유형의 소스에서 데이터를 수집하도록 쉽게 구성할 수 있고 새로운 데이터 소스에 대해 쉽게 확장할 수 있는 일반 데이터 수집 프레임워크입니다. Gobblin은 작업/작업 스케줄링, 작업 분할, 오류 처리, 상태 관리, 데이터 품질 검사, 데이터 게시 등을 포함하여 모든 데이터 수집 ETL에 필요한 일반적인 일상 작업을 처리합니다. 동일한 실행 프레임워크에서 서로 다른 데이터 소스의 데이터를 수집하고 다양한 데이터 소스의 메타데이터를 한곳에서 관리합니다. 고블린 기능-
디지털 준비 통화 토큰
- 자동 확장성
- 결함 허용
- 데이터 품질 보증
- 확장성
- 데이터 모델 진화 처리
따라서 Gobblin은 사용하기 쉽고 자체 서비스가 가능하며 효율적인 데이터 수집 프레임워크입니다.
고블린이 해결하는 몇 가지 과제
- 소스 통합 – Gobblin은 S3, Kafka, Google Analytics, MySQL 및 Salesforce와 같이 일반적으로 액세스되는 모든 데이터 소스에 대해 즉시 사용 가능한 어댑터를 제공합니다.
- 처리 패러다임 – Yarn 및 Hadoop을 포함하여 독립 실행형 및 확장 가능한 플랫폼을 모두 지원합니다. Yarn 예약된 배치 외에도 연속 수집을 실행할 수 있는 기능을 제공합니다.
- 확장성 – 자체 어댑터를 Gobblin 프레임워크와 통합하여 커뮤니티의 다른 개발자가 활용할 수 있습니다.
- 셀프 서비스 - 독립 실행형 지원 모드이므로 데이터 수집 및 변환 흐름을 셀프 서비스 방식으로 구성하고 독립 실행형 모드를 사용하여 로컬에서 테스트하고 코드 변경 없이 확장 모드를 사용하여 프로덕션에 흐름을 배포할 수 있습니다.
#인사이트 #아파치
www.xenonstack.com
Apache Gobblin - 통합 데이터 수집 프레임워크
Apache Gobblin 작업 아키텍처, 장점, 도구 및 구현 절차를 사용한 빅 데이터 수집 솔루션 가이드. Apache Gobblin은 다양한 데이터 소스에서 대용량 데이터를 추출, 변환 및 로드하기 위한 통합 데이터 수집 프레임워크입니다.