일반형 게임
일반형 게임 또는 보수 행렬(Normal-form game 또는 pay-off matrix)이란, 게임 이론에 등장하는 게임의 종류 중 하나로, 전략형 게임이라고도 한다. 전개형 게임과 달리 그래프 모양을 취하지 않고, 행렬의 형태를 취한다. 이 형태는 우월 전략과 내쉬 균형을 찾는데 유용하나, 전개형 게임에 비해 몇 가지 정보를 표시할 수 없다는 단점이 있다. 일반형 게임은 각 경기자의 모든 선택 가능한 전략과 보수를 표현할 수 있고 특히 행렬로 표현할 수 있으며 이때 이러한 행렬을 '보수행렬'(payoff matrix)이라고 한다.
예시
[편집]경기자 2의 전략 L | 경기자 2의 전략 R | |
---|---|---|
경기자 1의 전략 T | 4, 3 | −1, −1 |
경기자 1의 전략 B | 0, 0 | 3, 4 |
오른쪽의 표는 일반형 게임의 예시이다. 각 경기자는 동시에 행동을 하며, 각 경기자의 행동의 결과에 따라 보수가 결정된다. 예를 들어 경기자 1이 T의 전략을 선택하고, 경기자 2가 L 전략을 선택한다면, 경기자 1은 4, 경기자 2는 3의 보수를 받는다. 각 칸의 보수 (a, b)에서 a는 경기자 1, b는 경기자 2의 보수를 뜻한다.
다른 표현 방법
[편집]지불보수(payoff)가 각각의 경기자의 행동에 좌우되지 않는 대칭적 게임의 경우, 보수는 한 가지로만 표현된다. 이것은 '열'에 위치한 경기자(2인 게임의 경우, 대개 경기자 1)의 보수이다. 예를 들어 아래에 나온 두 개의 보수 행렬(payoff matrix)은 같은 게임을 나타낸다.
|
|
일반형 게임의 용례
[편집]우월전략이 존재할 때
[편집]협조 | 비협조 | |
---|---|---|
협조 | −1, −1 | −5, 0 |
비협조 | 0, −5 | −2, −2 |
보수행렬의 형태는 '우월전략의 단계적 소거'를 용이하게 해준다. 예를 들어 오른 쪽에 나온 죄수의 딜레마에서 각 죄수들은 '협조' 또는 '비협조'를 할 수 있다. 만약 한 죄수가 '비협조'를 하면, 그는 금세 풀려나올 수 있으며, 나머지 죄수는 계속 감옥에 갇히게 된다. 그러나 만약 둘 다 '비협조'를 선택하면, 둘 다 '협조'했을 때보다 더 오랜 시간 감옥에 있어야 한다.
어떤 죄수가 전략을 결정할 때, 그는 어느 쪽을 골랐을 때의 보수가 더 좋은지를 본 뒤에 결정하게 된다. 죄수 1(열에 위치한 전략을 선택할 죄수)이 '협조'를 염두에 두고 있다고 생각해 보자. 죄수 2의 전략에 따라 죄수 1의 보수가 달라진다. 만약 죄수 2가 '협조'를 선택할 경우, 그의 보수는 -1으로, 죄수 1이 '비협조'를 했을 때 받게 될 0의 보수보다 작다. 죄수 2가 '비협조'를 선택했을 때도 마찬가지다. 즉, 죄수 1은 죄수 2의 전략과 관계없이 '비협조'를 선택하는 것이 더 낫다는 결론에 다다른다. 대칭적 게임이므로, 죄수 2도 같은 과정을 통해 '비협조'가 더 낫다는 결론에 도달하게 된다.
따라서 이 게임의 내쉬 균형은 (비협조, 비협조)가 된다.
수학적 일반화
[편집]일반형 게임의 수학적 일반화는 다음과 같다.
- 유한한 수의 경기자의 집합 'P'는, P = {1, 2, ..., m}로 표시된다.
- P에 속하는 경기자 k는 유한한 개수의 순수 전략(순수 ESS)을 가지고 있다. 즉, k의 순수 전략의 집합은 다음과 같다.
'순수 전략 프로필'은 경기자들의 전략의 모음으로, m-튜플이다.
이는 곧,
- 을 뜻한다.
'보수 함수'는 다음과 같다.
게임의 결과 한 경기자의 의도된 판단에 따른 보상이 주어진다. 게임이 끝날 때 P에 속하는 모든 경기자에 대한 각각의 보수가 결정된다.
- 정의: '일반형 게임'은 다음과 같은 구조를 가진다.
여기서 P는 경기자의 집합이다.
S는 각각의 경기자에 대한 m-튜플의 순수 전략 집합이다.
F는 m-튜플의 보수 함수이다.