Server

Redis SKIP List of ZSETS (SORTED SETS)

Redis 内部構造教育 Redis Internel Course	Redis 定期点検/技術支援 Redis Technical Support	Redis エンタープライズサーバ Redis Enterprise Server

SKIP LIST Real Time Sorting Algorithm

이 글은 이런 의문에서 시작했습니다.

Sorted Set은 데이터가 정렬되어 저장된다. 그래서 키에 저장되는 멤버수가 많아질수록 저장 속도가 느려질 것이다. 그래서 테스트를 해 보았다. 키 하나에 첫 번째 10만 건을 넣고, 두 번째 10만 건을 넣고, 이렇게 10만 단위로 100만 건을 넣으면서 시간을 재 보았는데, 그런데 거의 증가하지 않았다. 사실 증가하는 패턴을 보이지도 않았다.
테스트 결과는 아래에 있다.
인터넷에 찾아보면 심심찮게 이런 질문을 볼 수 있다. "AOF 또는 RDB 파일 크기는 얼마인데, 레디스에서 읽어 들이면 메모리는 그것보다 몇 배 더 차지해요. 어떻게 된 거죠?"
그리고 이런 질문이 있었습니다. "Sorted Set에 멤버수가 많으니, expire(del) 될 때 성능이 떨어진다. 피해 갈 수 있는 방법이 있는가?" 이 질문을 받으니, 이어서 의문이 생겼다. Sorted Set에 멤버가 많으면 키가 삭제될 때 진짜로 성능이 떨어질까? 삭제 시간은 얼마나 걸릴까? 다른 데이터 타입은 어떤가?
<사실 이 글을 쓰게 된 직접 동기는 이 마지막 질문에서 시작되었습니다. 질문 주신 분께 감사드립니다>

Sorted Set의 데이터 구조(data structure)

zset-max-ziplist-entries 128
zset-max-ziplist-value 64

두 가지 데이터 구조를 사용하는 이유

스킵 리스트 SKIP LIST

스킵 리스트 이해하기

윌리엄 퓨(William Pugh, Skip Lists: A Probabilistic Alternative to Balanced Tress)

레벨을 갖는 스킵 리스트

레벨 3 갖는 스킵 리스트

한 발 더 나가서 그림 1-c 처럼 포인터를 세 개 가지는 노드를 두면, 비교 횟수는 더 줄어들게 된다.

이것이 스킵 리스트의 탐색 알고리즘을 설명한 것이므로 잘 기억해두자.

맨 앞에 '레벨 3'이라고 쓰여있는 노드를 헤더라고 하자.
출발은 헤더 노드의 레벨 3 포인터에서 시작한다.
레벨 3이 가리키는 값이 '20'이다.
찾고자 하는 '80'이 '20' 보다 크기 때문에 다음 포인터로 진행해서 '70'과 비교한다.
역시 '80'이 크기 때문에 다음 포인터로 진행하려고 하지만 'Null' 이기 때문에 레벨을 하나 낮추어서(레벨 2) 비교한다.
'80'이 '90' 보다 작기 때문에 다시 레벨을 낮추어서(레벨 1) 비교한다.
'80'을 찾았다.
총 비교 횟수는 4회이다.

레벨 4 스킵 리스트

미리 정해진 레벨 문제

동전 던지기

순서 SPAN

탐색하면서 각 스팬이 갖는 숫자를 더하면 순서를 알 수 있다. 하늘색 사각형을 보라. '20'은 3 + 1 = 4번째이다.

주사위 던지기

#define ZSKIPLIST_P 0.25 /* Skiplist P = 1/4 */

레디스 스킵 리스트 REDIS SKIP LIST

레디스에서 수정 내용

같은 스코어가 반복되는 것을 허용한다. 그래서 LEX 명령을 사용할 수 있게 했다. LEX 명령을 사용하려면 스코어는 모두 같아야 한다. 값(value)는 달라야 한다.
위와 같이 LEX를 구현하기 위해서 스코어가 같으면 값(value)을 비교한다.
역 탐색을 위해서 이전 노드를 가리키는 포인터(back pointer)를 둔다.
최대 레벨을 32로 했다.
스킵 리스트 자체를 저장하는 구조체에 최대 레벨과, 노드 수(length), 헤더 노드, 마지막(tail) 노드의 포인터를 가지고 있다.

레디스 스킵 리스트 data structure

zskiplistNode의 마지막 field가 3.x까지는 robj *obj이었고, 4.0부터는 sds ele이다.

노드 1 삽입

노드 1의 레벨 1, 2의 forward는 다음 노드가 없으므로 Null을 가지고, span 도 역시 다음 노드가 없으므로 0이다. backward는 header를 가리키지 않고 Null을 갖는다. 스코어는 노드에 저장된다. 그림에는 생략했지만 값(value)는 별도 구조체에 저장되고, obj는 포인터를 가진다.

노드 2 삽입

zskiplist->legnth가 2로 증가했고, 레벨은 그대로이다. Node 1의 레벨 1 forward가 새로 입력된 노드 2를 가리키고, span 이 1로 변경되었다. Node 2의 backward는 노드 1를 가리키게 되었다.

레디스 스킵 리스트의 최대 멤버 수는

레디스 데이터 타입 문서

의문 풀어가기

테스트 서버 스팩

Redis Server : Version 3.0.5
OS : CentOS 7
H/W Model: HP DL320e Gen8 v2
Processor : Intel(R) Xeon(R) CPU E3-1231 v3 @3.4GHz, 8 Cores
Main Memory: DDR3 8GB RAM

첫 번째 의문 : 입력시간이 늘지 않아요.

def zaddinc(conn,key,start_index,end_index):
i = start_index
while i <= end_index:
conn.zadd(key, 'val-'+str(i), i)
i = i+1

순서	스코어	시간(ms)	1건 시간(us)
1번째 10만 건	1~100,000	120	1.20
2번째 10만 건	100,001~200,000	133	1.33
3번째 10만 건	200,001~300,000	136	1.36
4번째 10만 건	300,001~400,000	142	1.42
5번째 10만 건	400,001~500,000	115	1.15
6번째 10만 건	500,001~600,000	176	1.76
7번째 10만 건	600,001~700,000	183	1.83
8번째 10만 건	700,001~800,000	109	1.09
9번째 10만 건	800,001~900,000	111	1.11
10번째 10만 건	900,001~1,000,000	121	1.21
평균		135	1.35

이런 종류의 다른 Balanced Tree 알고리즘들은 보통 지속적으로 증가하거나 감소하는 값에 대해서 성능이 나빠지는 면이 있는데, 스킵 리스트는 전혀 그렇지 않다. 오히려 H/W 아키텍처의 영향으로 스코어가 지속적으로 증가/감소할 때 더 빠르게 처리된다.

짚 리스트 ZIP LIST

zset-max-ziplist-entries 128
zset-max-ziplist-value 64

두 번째 의문 : 메모리를 왜 이렇게 많이 쓰나요?

redis> info memory
used_memory: 815080
redis> zadd key 100 value100
redis> info memory
used_memory: 816120
redis> zadd key 101 value101
redis> info memory
used_memory: 816248

마지막 field: 3.x까지는 robj이었고, 4.0부터는 sds이다.

Cache Name	Bytes
kmalloc-8192	8192
kmalloc-4096	4096
kmalloc-2048	2048
kmalloc-1024	1024
kmalloc-512	512
kmalloc-256	256
kmalloc-192	192
kmalloc-128	96
kmalloc-96	96
kmalloc-64	64
kmalloc-32	32
kmalloc-16	16
kmalloc-8	8

두 번째 노드에 40 바이트가 필요해서 OS에 요청하면, OS는 40 바이트 단위가 없으므로, 이보다 큰 64 바이트를 할당한다.
redisObject에 24 바이트를 요청받았지만, OS는 32 바이트를 할당한다. 이 경우 OS가 16 바이트 짜리 와 8 바이트 짜리를 합해서 24 바이트를 할당 할 수도 있지만 보통은 32 바이트를 할당한다.
Value에 8바이트를 요청받았지만, OS은 32 바이트를 할당했다.

AOF와 RDB 파일 크기

ZADD
$3
key
$4
1566
$8
val-1566

REDIS0006^@^C^CkeyC^Hval-1566^D1566

메모리: 142,064 bytes
AOF: 24,422 bytes
RDB: 14,027 bytes
실제 사이즈: 12,000 bytes
메모리는 AOF에 비해 약 6배, RDB와 비교하면 10배 커졌다.

메모리: 1,851,152 bytes
AOF: 735,831 bytes
RDB: 210,038 bytes
실제 사이즈: 600,000 bytes
메모리는 AOF에 비해 약 2.5배, RDB와 비교하면 약 9배 커졌다. 이 경우 RDB는 반복된 'A'를 압축해서 실제 사이즈보다도 적어졌다.

정리하면 Sorted Set의 skip list의 경우 관리용 메모리 오버헤드와 리눅스 커널 메모리 할당 방식에 따른 오버헤드를 합쳐서 실제 값의 몇 배를 사용할 수 있다는 것을 인지하고 사용해야 한다.

세 번째 질문: 삭제 부하는 큰가?

여기까지 읽어 주셔서 고맙습니다.

윌리엄은 코넬대학에서 컴퓨터공학으로 박사학위를 받았고, 23년 간 메릴랜드대학에서 교수로 있었습니다.
스킵 리스트를 발표해준 윌리엄에게 고마움을 표합니다.

<< ZIP List of ZSETS	SKIP List of ZSETS	ZIP List of HASHES >>

조회수 :

Email 返事がかかってなれば、メールでお知らせします。