호수 창고 새 모델: 데이터 호수 + 데이터 창고 = Lake HousesteemCreated with Sketch.

in #kr4 years ago

다시 말하자면 빅 데이터 시대 에 오픈 소스 기술 체계의 디자인 은 클 라 우 드 제품 이나 오픈 소스 구성 요소 가 빅 데이터 의 전체적인 해결 방안 을 점차적으로 발전 시 켰 다. 예 를 들 어 데이터 호 수 는 데이터 창고 가 도태 되 는 것 을 의미 하지 않 고 쌍방 은 필요 한 관 계 를 가진다.한편, 상운 의 방식 을 통 해 데이터 창고 의 핵심 능력 을 지속 적 으로 강화 하고 데이터 창 고 를 현대화 한다.다른 한편, 데이터 창고 와 데이터 호 수 는 빅 데이터 구조의 두 가지 디자인 방식 으로 이들 의 기능 은 서로 보완 할 수 있다. 이것 은 쌍방 이 상호작용 을 하고 데 이 터 를 공유 해 야 한 다 는 뜻 이다.

호수 창고 의 상호작용 을 실현 하기 위해 2019 년 AWS re: Invent 대회 에서 AWS 는 데이터 창고 와 데이터 호수 업 무 를 운영 하 는 새로운 모델 을 제시 했다. 즉, 'Lake House' 이다.AWS Lake House 에서 "ELT" 의 패 러 다 임 (추출, 로드, 전환) 을 따 르 고 로 컬 데이터 창고 에서 Redshift 로 이전 할 때 개발 자 는 기 존의 ELT 에 최 적 화 된 SQL 작업 부하 로 처음부터 관계 와 복잡 한 SQL 작업 부하 가 새로운 계산 구조 로 재 작성 되 지 않 아 도 됩 니 다.

Amazon Redshift 와 데이터 호수 사이 의 틈새 없 는 상호 작용 성

AWS Lake House 모델 에서 Redshift 는 최 우선 전환 엔진 으로 효율 적 인 로드, 변환 과 확장 데 이 터 를 실현 했다.Amazon Redshift Spectreum 은 Amazon Redshift 의 기능 입 니 다.

뿐만 아니 라 새로운 레 드 시 프 트 는 데이터 호수 내 보 내기 기능 도 갖 추고 있다.이 기능 은 데 이 터 를 데이터 호수 에 다시 쓸 수 있 습 니 다. 현재 Apache Parqut, ORC, JSON 과 CSV 형식 을 지원 합 니 다. Parquet 형식 을 예 로 들 면 (분석 에 사용 되 는 효율 적 인 개방 식 저장 양식) 기 존의 텍스트 양식 에 비해 Parquet 형식 은 제거 속도 가 최대 2 배 빠 르 고, S3 에서 차지 하 는 저장 공간 은 최대 6 배 까지 줄 어 듭 니 다.

그 밖 에 Redshift 의 RA3 인 스 턴 스 유형 은 개발 자가 독립 적 으로 Redshift 데이터 저장 과 수 요 를 확대 하고 개발 자 에 게 낮은 가격 으로 데이터 와 작업 부하 조합 을 관리 하도록 도와 준다.또한, Redshift 는 자동 적 으로 추가 적 인 과도 용량 을 확장 하여 동시 검색 을 처리 하고 일치 한 성능 을 유지 하여 처리 작업량 의 피크 를 완성 할 수 있 습 니 다.