[백업][가리사니] db [ nested loop / merge / hash ]
other

이 문서는 가리사니 개발자 포럼에 올렸던 글의 백업 파일입니다. 오래된 문서가 많아 현재 상황과 맞지 않을 수 있습니다.

rows [A]가 rows [B]를 조인한다고 가정하고 설명.

Nested Loop Join

작동방법

반복 (rows [A])
{
	반복 (rows [B])
	{
		매칭되는 결과를 조인
	}
}

rows [A] 에서 rows [B]에 해당하는 결과를 순차적으로 찾는다. 예를들어 rows [A] 8개이고 rows [B]가 10개라고한다면, 매칭되는 결과를 조인시킴 매칭확인 : [A] row 1 == [B] row 1 매칭확인 : [A] row 1 == [B] row 2 … 매칭확인 : [A] row 1 == [B] row 10 매칭확인 : [A] row 2 == [B] row 1 … 매칭확인 : [A] row 8 == [B] row 10 이렇게 순차적으로 총 80번의 매칭을 하여 결과를 표현한다. 설명

  • 순차적인 진행
  • 선행 테이블 (여기서는 rows A) 의 처리 범위가 처리속도를 좌우한다.
  • 후행 테이블은 선행조건을 가지고 계산됩니다.
  • 즉 후행 테이블은 미리 조건을 필터 한 후 선행으로 다시 필터하여 조인을 해야합니다.
  • 엑세스할 데이터가 적을 때 더 높은 성능을 발휘한다. 장점
  • 처리 방향성을 갖는다.
  • 부분 범위를 처리한다. 단점
  • 랜덤 IO를 많이 소모함.
  • 선행/후행 테이블을 필터하는 과정에서 인덱스가 없을 경우 풀스켄을 하게된다.

Sort Merge Join

작동방법

정렬(rows [A])
정렬(rows [B])
반복 (rows [A]  혹은 rows [B] )
{
	if (rows [A].현재키 == rows [B].현재키)
	{
		최종출력에 추가
		rows [A] -> 다음  위치로
		rows [B] -> 다음  위치로
	}
	else if (rows [A].현재키 < rows [B].현재키)
	{
		rows [A] -> 다음  위치로
	}
	else
	{
		rows [B] -> 다음  위치로
	}
}

rows [A]와 rows [B]의 매칭될 열을 정렬시킨다. 양쪽의 키를 비교하면서 정렬한다. 특징

  • 디스크가 빠르고 CPU가 느린환경일수록 더 높은 성능을 발휘한다. 장점
  • 대량처리에서 성능적 이점이 있다.
  • 양쪽 테이블을 동시에 작업한다. 단점
  • 정렬을 위해 메모리를 많이 사용하게 된다.
  • 정렬에 클러스터 인덱스가 사용되지 않는경우 임시공간을 쓰며, 이 공간이 임계치를 초과한 경우 전체 DB성능에 문제가 생길 수 있다.

Hash Join

작동방법 해시 버킷이라는 단위를 만든다. 해당 해시 버킷을 가지고 비교연산으로 매칭시킨다. 더 쉽게 설명하면 Java 의 HashMap 같은 것에 자주 사용되는 키를 등록해두고 매번 put 으로 꺼내 쓰는것 과 유사하다. (자바의 HashMap도 key의 hashcode를 이용하여 찾는다.) 다만 DB의 해시코드는 데이터의 량을 따졌을때 겹칠 확률이 높음으로 해시 버킷이라는 단위가 쓰인다. (즉 자바로 더 유사하게 구현한다면 HashMap<KEY, Array> 정도가 될 것 같다.) 특징

  • Merge Join이 대량의 데이터를 디스크에 사용한다면 Hash Join은 소량의 데이터를 메모리에 사용한다.
  • 디스크가 느리고 CPU가 빠른환경 일수록 더 높은 성능을 발휘한다. 장점
  • 보조 기억으로 디스크가 아닌 메모리를 사용함으로 디스크 IO에 의한 높은 병목현상이 발생하지않는다. 단점
  • 동등한 비교 조건에서만 사용할 수 있다.

동영상으로 한번에 보기! (57초부터)

@[Youtube o1dMJ6-CKzU]