Certificate/SQLD

데이터 모델과 성능

Dev다D 2021. 1. 4. 18:53
반응형

성능 데이터 모델링이란?

- 데이터베이스 성능향상을 목적으로 설계단계의 데이터 모델링 때부터 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것이다.

- 데이터의 증가가 빠를수록 성능저하에 따른 성능개선비용은 증가한다.

- 데이터모델은 성능을 튜닝하면서 변경이 될 수 있는 특징이 있다.

- 분석/설계 단계에서 성능을 고려한 데이터모델링을 수행할 경우 성능 저하에 따른 Rework비용을 최소화 할 수 있는 기회를 가지게 된다.

성능 데이터 모델링 수행 절차

1. 데이터모델링을 할 때 정규화를 정확하게 수행한다.

2. 데이터베이스 용량산정을 수행한다.

3. 데이터베이스에 발생되는 트랜잭션의 유형을 파악한다.

4. 용량과 트랜잭션의 유형에 따라 반정규화를 수행한다.

5. 이력모델의 조정, PK/FK조정, 슈퍼타입/서브타입 조정 등을 수행한다.

6. 성능관점에서 데이터 모델을 검증한다.

정규화

제1정규화

- 속성의 원자성을 확보한다.

-기본키를 설정한다.

- 중복속성에 대한 분리가 1차 정규화의 대상이 되며, 로우단위의 중복도 1차 정규화의 대상이 되지만 칼럼 단위로 중복이 되는 경우도 1차 정규화의 대상이다.

제2정규화

기본키가 2개 이상의 속성으로 이루어진 경우, 부분 함수 종속성을 제거(분해)한다.

제3정규화

-기본키를 제외한 칼럼간에 종속성을 제거한다.

-즉, 이행 함수 종속성을 제거한다.

BCNF 

-기본키를 제외하고 후보키가 있는 경우, 후보키가 기본키를 종속시키면 분해한다.

 

반정규화

- 정규화된 엔터티, 속성, 관계에 대해 시스템의 성능향상과 개발과 운영의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링의 기법을 의미한다.

- 데이터를 중복하여 성능을 향상시키기 위한 기법이라고 정의할 수 있고 좀 더 넓은 의미의 반정규화는 성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정을 의미한다.

- 데이터 무결성이 깨질 수 있는 위험을 무릅쓰고 데이터를 중복하여 반정규화를 적용하는 이유는 데이터를 조회할 때 디스크 I/O량이 많아서 성능이 저하되거나 경로가 너무 멀어 조인으로 인한 성능저하가 예상되거나 칼럼을 계산하여 읽을 대 성능이 저하될 것이 예상되는 경우 반정규화를 수행하게 된다.

테이블의 반정규화

기법분류 기법 내용
테이블병합 1:1 관계 테이블 병합 1:1 관계를 통합하여 성능향상
1:M 관계 테이블 병합 1:M 관계 통합하여 성능향상
슈퍼/서브타입 테이블병합 슈퍼/서브 관계를 통합하여 성능향상
테이블분할 수직분할 칼럼단위의 테이블을 디스크 I/O를 분산처리 하기 위해 테이블을 1:1로 분리하여 성능향상(트랜잭션의 처리되는 유형을 파악이 선행되어야 함)
수평분할 로우 단위로 집중 발생되는 트랜잭션을 분석하여 디스크 I/O 및 데이터접근의 효율서을 높여 성능을 향상하기 로우단위로 테이블을 쪼갬(관계가 없음)
테이블추가 중복테이블 추가 다른 업무이거나 서버가 다른 경우 동일한 테이블구조를 중복하여 원격조인을 제거하여 성능을 향상
통계테이블 추가 SUM, AVG 등을 미리 수행하여 계산해 둠으로써 조회 시 성능을 향상
이력테이블 추가 이력테이블 중에서 마스터 테이블에 존재하는 레코드를 중복하여 이력테이블에 존재하는 방법은 반정규화의 유형
부분테이블 추가 하나의 테이블의 전체 칼럼 중 자주 이용하는데 자주 이용하는 집중화된 칼럼들이 있을 때 디스크 I/O를 줄이기 위해 해당 칼럼들을 모아놓은 별도의 반정규화된 테이블을 생성

칼럼의 반정규화

반정규화 기법 내용
중복칼럼 추가 조인에 의해 처리할 때 성능저하를 예방하기 위해 즉, 조인을 감소시키기 위해 중복된 칼럼을 위치시킴
파생칼럼 추가 트랜잭션이 처리되는 시점에 계산에 의해 발생되는 성능저하를 예방하기 위해 미리 값을 계산하여 칼러메 보관함, Derived Column이라고 함
이력테이블
칼럼추가
대량의 이력데이터를 처리할 때 불특정 날 조회나 최근 값을 조회할 때 나타날 수 있는 성능저하를 예방하기 위해 이력테이블에 기능성 칼럼(최근값 여부, 시작과 종료일자 등)을 추가함
PK에 의한
칼럼 추가
복합의미를 갖는 PK를 단일 속성으로 구성하였을 경우 발생됨. 단일 PK안에서 특정 값을 별도로 조희하는 경우 성능저하가 발생돌 수 있음. 이 때 이미 PK안에 데이터가 존재하지만 성능향상을 위해 일반속성으로 포함하는 방법이 PK의한 칼럼추가 반정규화임
응용시스템
오작동을 위한 칼럼 추가
업무적으로는 의미가 없지만 사용자가 데이터처리를 하다가 잘못 처리하여 원래값으로 복구하기를 원하는 경우 이전 데이터를 임시적으로 중복하여 보관하는 기법. 칼럼으로 이것을 보관하는 방법은 오작동 처리를 위한 임시적인 기법이지만 이것을 이력데이터 모델로 풀어내면 정상적인 데이터 모델의 기법이 될 수 있음

반정규화 절차

반정규화 대상조사

-범위처리빈도수 조사

- 대량의 범위 처리 조사

- 통계성 프로세스 조사

- 테이블 조인 개수

다른 방법유도 검토

- 뷰(VIEW) 테이블

- 클러스터링 적용

- 인덱스의 조정

- 응용애플리케이션

반정규화 적용

- 테이블 반정규화

- 속성의 반정규화

- 관계의 반정규화

반정규화의 대상에 대해 다른 방법으로 처리

- 지나치게 많은 조인이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 뷰를 사용하면 이를 해결할 수도 있다.

- 대량의 데이터처리나 부분처리에 의해 성능이 저하되는 경우에 클러스터링을 적용하거나 인덱스를 조정함으로써 성능을 향상시킬 수 있다.

- 대량의 데이터는 Primary key의 성격에 따라 부분적인 테이블로 분리할 수 있다. 즉, 파티셔닝 기법이 적용되어 성능저하를 방지할 수 있다.

- 응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능을 향상시킬 수 있다.

Row Chaining

: 로우길이가 너무 길어서 데이터블록 하나에 데이터가 모두 저장되지 않고 두개 이상 저장하는 방식

Row Migration

: 데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터블록에서 저장하지 못하고 다른 빈공간을 찾아 저장하는 방식

파티셔닝

- 하나의 테이블에 많은 양의 데이터가 저장되면 인덱스를 추가하고 테이블을 몇 개로 쪼개도 성능이 저하되는 경우가 있다.

- 이때 논리적으로는 하나의 테이블이지만 물리적으로는 여러 개의 테이블로 분리하여 데이터 액세스 성능도 향상시키고, 데이터 관리방법도 개선할 수 있도록 테이블에 적용하는 기법이다.

분산 데이터베이스 장단점

장점

- 지역 자치성, 점증적 시스템 용량 확장

- 신뢰성과 가용성

- 효용성과 융통성

- 빠른 응답 속도와 통신비용 절감

- 데이터의 가용성과 신뢰성 증가

- 시스템 규모의 적절한 조절

- 각 지역 사용자의 요구 수용 증대

단점

- 소프트웨어 개발 비용

- 오류의 잠재성 증대

- 처리 비용의 증대

- 설계, 관리의 복잡성과 비용

- 불규칙한 응답 속도

- 통제의 어려움

- 데이터 무결성에 대한 위협

반응형

'Certificate > SQLD' 카테고리의 다른 글

SQL 최적화 기본 원리  (0) 2021.01.04
SQL 활용  (0) 2021.01.04
SQL 기본  (0) 2021.01.04
데이터 모델링의 이해  (0) 2021.01.04
SQLD 공부 방법 및 합격 후기 | 요점정리 PDF 공유  (538) 2021.01.04