[review#21] A survey: When moving target defense meets game theory_2023

[4]: 지난 30년 동안 네트워크 능동 방어의 대표적인 기만 기술을 검토했다.
[5]: 게임이론 관점에서 기만 방어 기술의 개발을 연구했지만, 기만 방어 이외의 다른 방어 기술은 포함하지 않았다.

사이버 방어가 불리한 주요 원인

(1) 기술 수준의 제한과 시스템 규모 및 논리적 복잡성의 증가로 인해 소프트웨어 시스템 및 네트워크 통신 개발자가 허점 없는 시스템을 구축하는 것이 어렵다.

(2) 네트워크 생태계는 완전한 자율성을 확보할 수 없으며, 구축 과정에서 구성 요소의 보안을 보장할 수 없다. 백도어 삽입은 용이하나 백도어를 찾기 어렵다.

(3) 네트워크 아키텍처는 결정론적이고 정적이라 사이버 보안 방어에 불리하다.
공격자는 시간적 이점을 가지고 지속적으로 취약점을 탐지하나 방어자는 사후에 이를 발견하고 패치한다.

(4) 공격자와 방어자 사이에 비용 차이가 존재한다. 방어자는 가능한 모든 보안 허점을 파악하고 복구해야 하므로 방어 비용이 높지만, 공격자는 단 하나의 허점만 발견해도 막대한 피해를 입힐 수 있다.
네트워크 아키텍처의 동질성은 공격자에게 유리하다.

공격자는 공격 대상, 시간, 목표, 방법을 알고있지만 방어자는 불확실하여 공격 탐지 또는 침입 활동을 회피하기 위해 상당한 시간과 자원을 투입해야 한다.

2.1. MTD 함축 이론 (connotation theory)

사이버 보안은 수동적인 방식에서 능동적인 방식으로 진화했다.

MTD의 개념은 실제로 고대 중국의 전장에서 적용되었다. 유명한 군사 사상가인 손무는 손자병법에서 “공격하여 성공하는 자는 방어되지 않는 것을 공격하고, 방어하여 성공하는 자는 공격받지 않는 것을 방어한다. 그러므로 공격을 잘하는 자는 적이 무엇을 방어해야 할지 모르고, 방어를 잘하는 자는 적이 무엇을 공격해야 할지 모른다”라고 썼다. 이는 전반적인 군사력을 향상시키기 위해 허세와 실제 행동을 결합하는 것의 중요성을 반영한다.

MTD 개념: 2009년 국가 사이버 윤년 정상회의 공동 의장 보고서 [12]에서 처음 제안
“이동 표적 방어의 중요한 이점은 적대자에게 알려진 시스템의 공격 표면을 줄이는 동시에 이를 이동시키는 것입니다. … 적대자에게 소프트웨어의 공격 표면을 혼란스럽게 보이게 함으로써 원하는 모든 대상의 취약점을 악용하기 위한 노력을 크게 늘리도록 강요합니다.”

– The National Cyber Leap Year Summit 2009, Co-Chairs’ Report

2010년 사이버 공격 방어 기술 분야의 권장 사항 제시, 이동 표적 개념 [13]
– NITRD CSIA IWG Cybersecurity Game-Change Research&Development

1. 이동 표적 방어 (Moving Target): 정적·예측 가능한 시스템 환경을 공격자가 이용하지 못하도록 시스템의 속성(예: 주소, 구성, 경로 등)을 주기적 또는 이벤트 기반으로 동적으로 변경하자는 전략이다. 이를 통해 공격 난이도를 높이고 공격자 비용을 증가시키는 것을 목표로 한다.

2. 맞춤형 신뢰 공간 (Tailored Trustworthy Spaces): 모든 상호작용이 동일한 보안 수준을 요구하는 것이 아니라, 상황·위험도·사용자 특성에 따라 다르게 보안 정책을 적용하는 신뢰 공간을 생성하자는 개념이다. 즉, “서브-공간(sub-space)”을 구획화하여 다양한 보안 정책을 유연하게 운영할 수 있도록 하는 방식이다.

3. 사이버 경제적 인센티브 (Cyber Economic Incentives): 보안 행동이 비용 부담이 아니라 경제적으로 유리한 선택이 될 수 있도록 유도하는 인센티브 구조를 설계하자는 제안이다. 이는 예산·규제·성과 기반 보상 등을 통해 우수 보안 실천을 촉진하고, 위반·취약점 노출 행동을 억제하는 방향이다.

2014년 MTD 연구의 비전 정의 [14]
– Report on Implementing the Federal Cybersecurity Research and Development Strategy

연방 사이버 보안 연구 및 개발 전략 이행 보고서[14]는 MTD 연구의 비전을 정의했는데,
즉 공격자에게 복잡성과 비용을 증가시키고, 취약점 노출 및 공격 기회를 제한하며, 시스템 복원력을 높이기 위해
시간에 따라 동적으로 전환 및 변화하는 다양한 메커니즘과 전략을 개발, 평가 및 배포하는 것이다.

물리 네트워크: 실제 네트워크 장비들 (예: 서버, 라우터, 방화벽)
논리 작업 모델: 실제 네트워크를 추상화한 모델, 네트워크의 현재 동작 상태(누가 접속했는지, 트래픽이 어디로 흐르는지 등)를 조정하는 엔진
분석 엔진: 네트워크에서 발생하는 모든 이벤트를 실시간으로 감지 (예: 포트 스캔, 알 수 없는 IP가 내부 시스템에 접근 시도 시 이상 징후를 파악해 위험도 평가를 수행 – IDS, 방화벽 등의 전통 보안 기술)
논리 보안 모델: 분석 결과를 바탕으로 네트워크가 현재 어느 정도 위험한 상태인지를 판단하는 논리적인 보안 상태를 계산
조정 엔진: 현재 네트워크 상태와 보안 위협 정보를 입력받아 적절한 MTD 전략을 선택 (포트를 무작위로 변경, IP 주소 교체, 가짜 데이터 노출 등)
구성 관리 모듈: 실제로 선택된 전략을 네트워크에 적용하는 역할

물리 네트워크는 논리 작업 모델에 매핑되며, 해당 모델의 현재 상태는 조정 엔진에 의해 얻어진다.
분석 엔진은 물리 네트워크의 실시간 이벤트를 가져와 IDS나 방화벽 등의 전통적 방어 메커니즘을 사용하여 취약점을 분석한다.
논리 보안 모델은 논리 보안 상태를 생성하여 조정 엔진에 전달한다.
구성 관리 모듈은 이에 대응하는 MTD 전략을 실행한다.
이렇게 폐쇄적 자기 피드백 동적 조정 방어 시스템이 형성된다. 구체적인 MTD 전략은 3장에서 논의한다.

2.2. MTD 원칙 (principles)

MTD는 공격자가 탐색한 리소스를 이동시키거나 위장하여 동적 네트워크 정보 시스템을 구축하는 것을 목표로 한다.

그림2: 지속적으로 변화하는 네트워크 공격 표면과 MTD 시스템의 탐색 표면

공격 표면과 탐색 표면을 지속적으로 변경하여 공격자를 혼란에 빠뜨리고 공격의 난이도와 비용을 증가시킨다. 공격자가 지속적으로 표적을 추적하도록 강요하여 시간, 정보 비대칭, 비용 측면에서 유리한 요소를 제거한다.

MTD 방어자는 적어도 한 가지 유형의 공격 표면 리소스(예: IP 주소, 열린 포트 수) 또는 특정 유형의 리소스(예: 특정 명령 실행에 필요한 권한)의 영향을 변경해야 한다.

그림3: MTD 원칙

MTD는 동적 변경을 통해 공격자의 정찰 영역을 늘려 공격 비용과 복잡성을 증가시키고,
지속적인 변경을 통해 공격자의 정찰 시간을 단축하여 공격의 시간적 이점과 정보 비대칭 이점을 줄인다.

2.3. 게임 이론의 기초 (Game theory basics)

게임 이론 [15]은 다중 에이전트의 행동을 기술하고 분석하여 대립적 환경에서의 의사 결정을 연구하는 수학적 분석 도구이다.
MTD 공격-방어는 공격자가 네트워크 정보 시스템의 취약한 공격 표면을 탐지하고 악용하여 다양한 방법으로 이를 제어하려는 특수한 게임 프로세스 [16]

게임 이론은 적대적 목표, 전략적 의존성 및 플레이어 간의 경쟁 관계라는 특성을 가지고 있으며 이는 MTD 공격-방어와 일치한다. 따라서 MTD 의사 결정 문제를 연구하는 효과적인 수단으로 밝혀졌다.

그림4: MTD에서 게임 이론과 공격자-방어자 상호작용 간의 대응관계

모델: 완전 정보 정적 모델, 불완전 정보 정적 모델, 완전 정보 동적 모델, 불완전 정보 동적 모델의 네 가지 유형이 있다 [17].

(1) MTD 공격 및 방어 양측 완전 정보: 공격자는 방어자가 대상 네트워크 시스템을 보호할 때 방화벽 기술, 침입 탐지 기술 및 기타 방어 수단을 사용할 것임을 알고 있다.

(2) MTD 공격 및 방어 양측 불완전 정보: 공격자는 대상 네트워크 시스템에 대한 방어 전략 배치를 알지 못하고 허니팟 방어 기술 및 기타 공격 기만 수단이 사용된다.

3. MTD 전략의 분류 (Classification of MTD strategies)

공간적 전략: 변경할 대상, 즉 네트워크 정보 시스템이 공격을 효과적으로 방어하기 위해 취하는 전략을 결정한다.
시간적 전략: 대상이 이동하는 시간, 즉 새로운 상태로 전환하는 데 걸리는 시간을 정의한다.

3.1. 공간적 MTD (Spatial MTD strategies)

3.1.1 . 네트워크 프로토콜 스택 계층 구조에 따른 분류

MTD가 어떤 기술적 레이어에 적용되는가를 기준으로 정의

runtime environment layer, software layer, data layer, platform layer, network layer

No.	전략	전환 매개변수
1	REL-MTD	RAM 주소, 명령어 집합
2	SL-MTD	명령어 순서, 패킷 형식, 프로그래밍 언어, 애플리케이션 코드의 해석 가능 언어
3	DL-MTD	데이터 계층의 메모리 데이터 및 애플리케이션 데이터 (예: 형식, 구문, 인코딩, 암호화 방식, 표현 방식)
4	PL-MTD	운영체제 버전, CPU 하드웨어 구조, 운영체제 인스턴스, 플랫폼 데이터 형식, 가상 머신, 호스트 보안 설정
5	NL-MTD	IP 주소, 통신 포트, 네트워크 프로토콜, 네트워크 토폴로지, 라우팅 경로

프로토콜 스택 계층 수준에서의 공간 MTD 전략

Random Access Memory: 메모리 칩에 저장된 데이터를 식별하기 위한 고유한 위치, 주소 공간 배치 난수화(ASLR)

REL-MTD는 런타임 환경 계층의 RAM 주소, 명령어 집합 등의 매개변수를 동적으로 변경한다. 이는 다시 두 가지로 나뉜다. (1) 주소 공간 배치 난수화(ASLR)【19】는 코드, 라이브러리, 스택, 함수 등의 메모리 배치 매개변수를 무작위화한다. 예로 주소 공간 배치 치환(ASLP)【20】, 메모리 난수화(MR)【21】, 코드 난독화【22】 등이 있다. (2) 명령어 집합 난수화(ISR)【23】는 운영체제의 포트, 인터페이스 등의 매개변수를 무작위화한다. 예로 RandSys【24】, 랜덤 명령어 세트 에뮬레이션(RISE)【25】, CIAS 코드 호출 난수화【26】 등이 있다.

SL-MTD는 소프트웨어 계층의 명령어 순서, 패킷 형식, 프로그래밍 언어, 인터프리터 언어 등의 매개변수를 동적으로 변경한다. 예로 압축 제어 흐름 무결성과 난수화(CCFIR)【27】, 분산 색칠 알고리즘 기반 소프트웨어 다양화【28】, 선제적 난독화(PO), GenProg 자동 소프트웨어 수리【29】 등이 있다.

DL-MTD는 데이터 계층의 메모리 및 애플리케이션 데이터 (예: 형식, 구문, 인코딩, 암호화 방법, 표현 방식)를 동적으로 변경한다. 예로 데이터 다양성(DD)【30】, 중복 데이터 다양성(RDD)【31】, 데이터 난수화(DR)【32】, HERMES 암호 키 난수화【33】 등이 있다.

PL-MTD는 플랫폼 계층에서 운영체제 버전, CPU 하드웨어 아키텍처, 운영체제 인스턴스, 플랫폼 데이터 형식, 가상 머신, 호스트 보안 설정 등을 동적으로 변경한다. 이러한 전략으로 수정된 상용 운영체제 DÜPPEL【34】, 다중 운영체제 회전 환경(MORE)【35】, 동적 애플리케이션 회전 환경(DARE)【36】, 자가 정화형 침입 내성(SCIT)【37】 등이 있다.

NL-MTD는 네트워크 계층에서 IP 주소, 통신 포트, 네트워크 프로토콜, 네트워크 토폴로지, 라우팅 경로 등의 매개변수를 동적으로 변경한다. 예로 엔드포인트 라우트 변이(EPRM)【38】, 정찰 기만 시스템(RDS)【39】, 동적 백본(DynaBone) 전략【40】, 무작위화된 비동기 침입-내성 서비스(RIAS)【41】 등이 있다.

공격자가 관찰하게 되는 “공간적 구조의 속성”을 기준으로 나누었을 때,

dynamic spatial, diversity spatial, redundant

No.	전략	전환 매개변수
1	S-MTD	IP 호핑, 임의 호스트 변환, 네트워크 토폴로지 재구성, 가상 머신 마이그레이션 등 시스템 구성의 무작위 변경
2	D-MTD	서버, 프로그래밍 언어, 운영체제, 하드웨어 등 시스템 구성의 다양화
3	R-MTD	서버, 하드웨어, 운영체제, 소프트웨어, 서비스 등의 시스템 구성 복제본 개수 (중복 구성)

기본 속성 분류

S-MTD는 네트워크 정보 시스템의 구성을 동적으로 무작위 변경한다. 예를 들어, IP 호핑【42】, 랜덤 호스트 변환【43】, 네트워크 토폴로지 재구성【44】, 가상 머신 마이그레이션【45】 등을 통해 구성 요소를 무작위화하여 공격자의 불확실성을 증가시킨다. 예를 들어, 통신 링크의 IP 주소를 실시간으로 동적으로 변경하여 공격자가 정확한 표적을 찾기 어렵게 만들어 공격을 방해한다(그림 5).

D-MTD는 서버, 프로그래밍 언어, 운영체제, 하드웨어 등 네트워크 정보 시스템 구성을 다양화하여【46】【47】, 동일한 기능을 다른 구조로 제공함으로써 탄력성과 내결함성을 향상시키고 공격자의 시간 및 에너지 비용을 증가시킨다. 예를 들어, 방어되는 서버 클러스터에 Windows, Linux, Unix 등 다양한 운영체제를 혼합 배치하여 공격자가 모든 변종을 스캔해 공격 계획을 수립해야 하도록 만들면, 공격자의 공간적·시간적 비용이 증가한다(그림 6).

R-MTD는 서버, 하드웨어, 운영체제, 소프트웨어, 서비스 등의 구성 요소 중복을 늘린다【48】【49】. 예를 들어, 여러 구성 요소로 이루어진 보호 대상 서버 클러스터를 운영하여, 하나의 클러스터가 공격받아 파괴되더라도 서비스를 다른 서버 클러스터로 신속히 이전함으로써 서비스 가용성을 보장할 수 있다(그림 7).

3.2. 시간적 MTD (Temporal MTD strategies)

시간 기반 MTD 전략은 MTD 전략을 언제 실행할지의 타이밍에 초점을 맞춘다. 이는 시간 주도형, 이벤트 주도형, 혼합 주도형 전략으로 나눌 수 있다.

3.2.1. 시간 주도형 시간 전략

시간 주도형 전략의 핵심은 변경 간격을 결정하는 것

시간 주도형 전략의 핵심은 변경 간격을 결정하는 것이다. 변경 간격은 무작위 또는 균일하게 설정할 수 있다. (1) 균일 전략은 변경 시간을 미리 정의한다. Jafarian 등【50】은 소프트웨어 정의 네트워킹(SDN)에 기반한 OF-RHM(OpenFlow Random Host Mutation)을 5초 간격으로 제안하였다. Thompson 등【51】은 다중 운영체제 마이그레이션 MTD 방법을 시나리오에 따라 60초와 5분 간격으로 제안하였다. Aydeger 등【52】은 크로스파이어 공격에 대한 라우트 변이 방법을 5초와 20초 간격으로 설정하여 혼잡한 링크를 비교하였다. 간격을 늘리면 링크 혼잡을 완화할 수 있지만, 데이터 패킷의 통신 지연을 초래할 수 있다. (2) 무작위 전략은 전환 시간 간격의 범위를 미리 정의한다. Algin 등【53】은 스마트 미터 데이터 수집의 선택적 재밍 공격에 대해 무작위 전송 시간에 기반한 동적 데이터 스케줄링 방안을 제안하였으며, 15초, 30초, 60초, 120초의 시간 간격을 사용하였다. Albanese 등【54】은 애드혹 네트워크에 대한 ID 가상화 기반 MTD 메커니즘을 제안하였으며, 시간 간격을 [100, 105], [50, 55], [20, 25], [10, 15]초로 설정하였다.

3.2.2. 이벤트 주도형 시간 전략

전환 간격은 가변적, 공격 이벤트 기반의 시간 함수를 사용하여 공격 표면을 적응적으로 변경하고, 외부 정보(예: 보안 경보, 방어 전략)에 의해 전략이 트리거된다.

Debroy 등【55】은 서비스 거부(DoS) 공격에 대응하기 위해 가상 머신(VM) 마이그레이션 기반 MTD 메커니즘을 제안하였으며, 사이버 공격 도착 간격 함수(공격 지속 기간과 유휴 기간의 합)에 따라 최적 전략을 선택하였다. Zhang 등【56】은 무작위 종단점 및 라우팅 변이를 협조적으로 수행하여 변이 공간을 극대화하였고, 동시에 공격자 탐지를 병행하였다. MTD 전략은 탐지 결과에 따라 조정되어 시스템 오버헤드를 줄였다. DeLoach 등【57】은 엔터프라이즈 네트워크 보안을 위한 모델 기반 MTD 메커니즘을 제안하여, IDS와 보안 정보 및 이벤트 관리(SIEM) 시스템에서 얻은 공격 데이터를 기반으로 MTD 전략을 트리거하였다. Tamba 등【58】는 물리 정보 시스템의 안정성과 통신 부하를 보장하기 위한 이벤트 주도형 MTD 메커니즘을 제안하였다. Xu 등【59】는 대역 내 네트워크 텔레메트리(INT)를 사용하여 하위 네트워크 상태를 파악하였고, 이를 통해 무작위 라우팅 변이 전략을 트리거하였다. Keromytis 등【60】은 MEERKATS라는 클라우드 보안 아키텍처를 제안하였는데, 분산 모니터링을 통해 클라우드 및 데이터 환경의 변화를 감지하고, 확률적 이상 탐지 알고리즘으로 상태 정보와 비정상 행위를 탐지하였다. Wu 등【61】은 DoS 공격에 대응하기 위해 SDN 기반 포트 및 주소 호핑 기술을 제안하였으며, 공격 탐지 모델로 SYN 플러딩 공격을 동적으로 감지하고 서버 포트와 주소 호핑 모듈 전략을 구현하였다.

3.2.3. 혼합형 시간 전략

시간 주도형과 이벤트 주도형의 두 가지 방식을 모두 활용한다.

Huang 등【62】은 동일한 기능을 가지면서 서로 다른 구조를 지닌 서버들을 활용하는 서버 다양화 기반 교체 모드를 제안하였는데, 이는. 공격 이벤트에 의해 트리거되거나 무작위 혹은 고정된 시간 간격에 기반하여 실행될 수 있다. Kampanakis 등【63】은 SDN 기반 MTD 공격 표면 난독화 모형을 제안하였다. 네트워크 매개변수를 고정된 시간 주기로 무작위화하여 공격 표면 전환을 촉발하고, 분석 엔진이 실시간 보안 이벤트를 수집하여 기존 공격을 분석함으로써 잠재적 공격을 평가하였다. Zangeneh 등【64】은 시간 및 이벤트 기반 혼합 변이 MTD 메커니즘을 제안하였으며, 경쟁적 마코프 결정 프로세스(CMDP)로 시간 주도형 MTD 전략을 모델링하고, 과거 경보 데이터를 이용하여 이벤트 주도형 MTD 전략을 모델링하였다. 이러한 전략들을 결합함으로써 방어자는 공격 표면을 효율적이고 비용 효과적으로 전환할 수 있게 된다. Zhuang 등【65】은 무작위 시간 간격으로 MTD 전략 구성을 변경하였고, 논리 작업 모델에 기반하여 현재 네트워크 구성과 기능적 보안 요구를 분석하였다. MTD 전략은 취약점 스캔 결과와 IDS 경보 등의 위험 지표에 따라 적응적으로 구현되었다. Li 등【66】은 IP 호핑에 대한 2단계 MTD 전략을 구현하였다. 공격 이벤트에 따라 시간 기반 MTD 전략을 ‘빠르게 감소, 느리게 증가’ 방식으로 조정하였다. 잦은 공격이 탐지되면 IP 호핑 주기를 줄이고, 낮은 빈도의 공격이나 공격이 없을 때에는 IP 호핑 주기를 늘렸다.

전략	설명	장점	단점
시간 기반	균일 및 무작위 시간 주도 전략으로 구분되며, 능동적인 방법이다.	탐지 불필요 방어, 공격 난이도 증가	시점 결정이 어려움
이벤트 기반	특정 보안 경보 및 보안 전략 등 외부 정보에 의해 트리거되며, MTD 전략이 적응적으로 실행됨	표적화된 전략, 낮은 비용	방어가 공격보다 지연되어 보안 위험 초래 가능
혼합형	위 두 전략의 결합	MTD 전략의 의사결정 과정이 더 합리적	보안성과 가용성의 균형이 어려움

시간 기반 MTD 전략과 그 장단점

다양한 MTD 전략들이 데이터, 플랫폼, 런타임 환경, 네트워크, 소프트웨어 계층의 보안 위협에 대응하여 제안되어 왔다. 공격자–방어자 상호작용은 본질적으로 공격 전략과 MTD 전략 간의 대치이다. MTD 전략의 핵심은 제한된 공간에서 전환 시간과 전환 속성 값을 변경하여 최대의 보수를 달성하는 것이다. 대부분의 MTD 연구는 전략의 설계와 구현에 집중하였으며, 의사결정 과정은 간과되었다. MTD 의사결정 연구를 위한 정량적 분석 방법과 이론적 의사결정 프레임워크가 부족한 상황이다.

MTD 전략을 단순히 중첩하면 오버헤드가 크게 증가한다. 따라서 몇 가지 핵심 문제는 다음과 같다. (1) 네트워크 성능과 보안을 어떻게 균형 맞출 것인가? (2) 공격 강도를 고려하여 네트워크 방어, 운영 비용, 기대치를 어떻게 절충할 것인가? (3) 중간 수준의 보안 조건에서 최적의 방어 성능을 달성하고 방어 보수를 극대화하려면 어떻게 해야 하는가?

4. MTD 게임 의사 결정 방법의 현황 (Status of MTD game decision-making methods)

범주	선행 연구	목적	특징	시나리오
공간	Manadhata 등; Zhu 등; Sengupta 등	MTD 시스템의 구성 속성에 대한 최적 전략 선택	네트워크 공격에 대응할 때 방어자가 MTD 방어 전략을 채택하도록 유도하는 데 중점. 주로 특정 네트워크 상태에서 최적의 MTD 방어 전략을 선택함.	공간과 시간이 이산적인 네트워크 공격-방어 대치 시나리오
시간	Zhuang 등; Clark 등; Anwar 등	MTD 시스템이 현 상태에서 새 상태로 전환하기 위한 최적 시간 전략 선택	방어자가 언제 MTD 방어 전략을 채택할지를 안내하는 데 중점. 네트워크 상태 전환에 기반하여 MTD 방어 전략의 타이밍에 초점을 맞추며, 공격자가 수집한 방어 정보가 무효화되어 공격 성공 난이도를 높임.	공간은 이산적이고 시간이 연속적인 네트워크 공격-방어 대치 시나리오
시공간	Gao 등; Wu 등; Yang 등	서로 다른 시간 또는 기간에 적용할 공간 MTD 전략 선택 (시간과 공간 차원 포함)	높은 빈도, 고강도, 빠른 속도의 네트워크 공격-방어 대치에 직면했을 때 방어자가 어떤 MTD 방어 전략을 채택할지를 안내하는 데 중점. 시간과 공간 관점에서 공격을 차단함.	공간과 시간이 연속적인 네트워크 공격-방어 대치 시나리오
제한된 합리성	Azab 등; Colbaugh 등; Yoon 등	제한된 합리성 가정 하에서 MTD 전략 선택	참가자의 관점에서 접근. 네트워크 공격-방어 양측의 인지 능력 차이를 고려하여, 공격-방어 과정에서 방어 측의 인지 능력을 지속적으로 향상시킴으로써 시간 및 공간 MTD 전략을 보다 효과적으로 구현하고, 가장 효과적인 MTD 시간 또는 공간 전략을 선택하는 문제를 다룸.	공간과 시간이 이산적인, 또는 공간이 이산적이고 시간이 연속적인, 혹은 공간과 시간이 연속적인 네트워크 공격-방어 대치 시나리오

4.1. 공간 MTD 전략의 의사결정 (Decision-making of spatial MTD strategies)

Maleki et al. [70] , [71]은 마르코프 게임 기반 MTD 의사결정 방법을 제안하고 MTD 전략의 효과를 평가하기 위해 보안 용량 개념을 도입했다.
Zhou et al. [72]은 클라우드 서비스 플랫폼을 위한 다중 vNIC 지능형 돌연변이 기술을 제안했다.
Eldosouky et al. [73]은 무선 네트워크에서 암호화 및 키 무작위화 MTD를 비제로섬 확률 게임으로 모델링하고 내쉬 균형 의 존재를 증명했다.
Zhou et al. [74]는 마르코프 게임 모델을 기반으로 DDoS 공격에 대한 비용 효율적인 MTD 방법과 최적 전략을 결정하기 위한 비용 효율적인 정리 알고리즘을 제안했다.
Clark et al. [77]은 미끼 기반 사이버 방어에서 IP 주소 무작위화에 대한 게임 이론적 접근 방식을 제안했는데, 이는 공격자와 미끼 노드 네트워크 간의 상호 작용을 Stackelberg 게임 으로 모델링했다.
Feng et al. [78]은 Stackelberg 게임을 기반으로 한 MTD 의사 결정 모델을 제안했다.
침입 탐지 클라우드에서 시스템을 배치하기 위해 Sengupta et al. [79]는 클라우드 관리자와 공격자 간의 상호 작용을 Stackelberg 게임으로 모델링하여 IDS 탐지 표면 이동 방법을 제안했으며, 이 게임의 평형은 최적의 IDS 배치 전략을 나타냈다.
Li et al. [81] 반복 알고리즘을 사용하여 최적 전략을 결정하는 마르코프 Stackelberg 게임 기반 MTD 의사 결정 모델을 제안했다.
Chowdhary et al. [82]은 공격자와 방어자 간의 상호 작용을 공통 취약성에 기반한 보수를 갖는 제로섬 동적 마르코프 게임으로 모델링했다.
Sengupta 외 [93]는 베이지안 Stackelberg 마르코프 게임 기반 MTD 모델을 제안하고 다중 에이전트 강화 학습을 사용하여 최적의 MTD 전략을 도출했다.
Zhao 외 [94]는 베이지안 게임 기반의 두 가지 저비용 최적 선제적 방어 전략을 제안했다.
Sengupta 외 [95]는 정보 시스템 에서 적대적 공격을 위한 베이지안 Stackelberg 게임 기반 MTD 프레임워크인 MTDeep을 제안했다.

Li et al. [112] 은 베이지안 Stackelberg 게임을 기반으로 MTD의 최적 타이밍을 제안하고 MTD 의사 결정 프로세스를 일반적인 반 마르코프 의사 결정 프로세스로 추상화하고 가치 반복을 통해 최적의 MTD 전략을 얻었다.

References:

https://www-sciencedirect-com-ssl.oca.korea.ac.kr/science/article/pii/S1574013723000114