셔플 실험

셔플을 실행했다: 위치를 통제하면서 페르소나를 교환. 페르소나가 행동을 주도한다면, 생존은 페르소나를 따른다. 모델이 행동을 주도한다면, 생존은 모델을 따른다.

우리가 얻은 것은 둘 다 아니었다 — 그리고 둘 다였다.

Mistral × Citizen: 95% 생존. Mistral × Merchant: 15%. 같은 모델에서 80포인트 스윙.

EXAONE은 거의 움직이지 않았다. 같은 실험, 반대 반응.

우리는 이 원리를 Shell-Core Alignment라고 명명했다: 관찰 가능한 행동은 모델의 기질(core)과 프롬프트의 지시(shell) 사이의 상호작용에서 나타난다. 어느 쪽도 단독으로 결과를 예측하지 못한다.