루트(여행 일정) 평가 프레임워크 & 페르소나 설계 리서치

작성일: 2026-03-16 목적: 개별 관광지 평가용 페르소나/기준을 루트(전체 일정) 평가에 적용할 때의 문제점을 분석하고, 루트 평가에 최적화된 프레임워크를 제안하기 위한 사전 리서치 범위: 학술 연구, AI 여행 플래너 방법론, 경험 설계 이론, 현재 시스템 진단

1. 관광지 평가 vs 루트 평가: 근본적 차이

1.1 평가 대상의 본질적 차이

구분	관광지(POI) 평가	루트(Itinerary) 평가
단위	개별 장소 (점)	장소들의 시퀀스 (선/면)
핵심 질문	“이 장소가 갈 만한가?”	“이 순서대로 가면 좋은 여행이 되는가?”
독립성	각 장소를 독립적으로 평가 가능	장소 간 관계(순서, 거리, 맥락)가 품질을 결정
시간 차원	정적 (체류시간만)	동적 (날짜별 리듬, 누적 피로, 기승전결)
최적화 목표	개별 점수 최대화	전체 경험의 총합 최대화 (개별 최적 ≠ 전체 최적)
트레이드오프	거의 없음	핵심 (A를 가면 B를 포기해야 함)
창발적 속성	없음	있음 (리듬, 서사, 다양성 밸런스)

1.2 루트 평가에서만 중요한 차원들

관광지 평가에는 존재하지 않거나 미미하지만, 루트 평가에서는 핵심이 되는 기준들:

a) 시퀀싱(Sequencing) — 순서의 품질

같은 장소 집합이라도 방문 순서에 따라 경험의 질이 달라짐
골든아워(일출/일몰)에 맞는 장소 배치, 체력 소모 순서, 감정 곡선 설계

b) 리듬(Rhythm/Pacing) — 빡센 날과 여유 날의 교차

연속으로 빡센 날이 이어지면 피로 누적 → 여행 만족도 급락
“빡센→여유→빡센” 교차가 이상적이라는 것은 경험적으로 확립된 원칙

c) 동선 논리성(Route Logic) — 왕복/중복 최소화

같은 도로를 두 번 지나는 것, 되돌아가는 동선은 시간 낭비
“자연스러운 흐름”이 있는 동선 vs 억지로 끼워넣은 동선

d) 피로 누적 모델(Fatigue Accumulation)

단일 날의 운전 거리뿐 아니라 여러 날에 걸친 누적 피로가 중요
연구에 따르면 운전 2시간 후 사고 위험 상승, 매 2시간/100마일마다 휴식 권장
일일 최대 8-10시간 운전이 안전 한계 (출처: FMCSA, NHTSA)
서카디안 리듬 고려: 14:00-16:00 자연적 졸음 구간, 첫날 장거리 후 이튿날 회복 필요

e) Plan B / 유연성(Flexibility)

날씨 악화, 도로 폐쇄, 예상 외 지연 시 대안이 있는가
일정이 분 단위로 빡빡하면 하나가 틀어졌을 때 연쇄 붕괴

f) 숙소 전략(Accommodation Strategy)

연박의 효율성 (짐 풀기/싸기 시간, 심리적 안정감)
뷰 숙소의 배치 (클라이맥스 직전? 마지막 날?)
체크인/체크아웃 시간과 관광 일정의 조화

g) 감성 서사(Narrative Arc)

여행 전체의 기승전결: 도입(첫 인상) → 전개(다양한 경험) → 절정(하이라이트) → 결말(여운)
Peak-End Rule 적용 (하단 §2.3 참조)

2. 학술 연구 및 산업 프레임워크

2.1 TripScore (arXiv 2510.09011, 2025)

AI 여행 플래너가 생성한 일정을 평가하는 벤치마크로, 4가지 제약 조건 유형으로 분류:

제약 유형	설명	루트 평가 적용
Format Constraint	구조적 완결성, 정보 정확성, 환각 방지	일정표의 형식적 완결성 (시간, 거리, 숙소 누락 없음)
Commonsense Constraint	현실 세계 논리 (영업시간, 이동시간 등)	실현 가능성 (폐장 시간에 방문, 물리적 불가능한 이동)
Soft Constraint	품질 기준 (다양성, 효율성 등)	경험 다양성, 동선 효율, 리듬 균형
Preference Constraint	사용자 선호 반영	프로필 적합도 (체력, 예산, 여행 스타일)

시사점: 현재 시스템의 가장 큰 약점은 Format/Commonsense 수준의 “기본 검증”과 Soft/Preference 수준의 “품질 평가”가 혼재되어 있다는 것. 기본 검증(실현 가능성)은 페르소나 해석이 필요 없는 이진 판단이고, 품질 평가만 페르소나 분화가 의미 있다.

2.2 TravelAgent (arXiv 2409.08069, 2024)

AI 여행 어시스턴트의 평가를 3가지 차원으로 정의:

차원	설명	현재 시스템과의 관계
합리성(Rationality)	제약 조건 하에서 논리적 일정 구성	C(현실주의)가 부분적으로 커버하나, 동선 논리성은 A(효율)에 분산
포괄성(Comprehensiveness)	실시간·세밀·흥미로운 일정 제공	B(감성)와 A(효율)에 걸쳐 있으나 명확히 정의되지 않음
개인화(Personalization)	사용자 프로필 반영	C의 “프로필적합도 10%”로만 반영 — 비중이 너무 낮음

시사점: “개인화”가 모든 페르소나에 관통하는 상위 기준이어야 하는데, 현재는 C의 하위 기준 하나로만 존재. 여행자 프로필(체력, 예산, 선호)은 모든 평가의 렌즈가 되어야 함.

2.3 Peak-End Rule (Kahneman & Fredrickson)

인지심리학에서 확립된 원칙으로, 사람은 경험을 가장 강렬한 순간(Peak)과 마지막 순간(End)으로 기억한다.

여행 일정 설계에의 적용 (Journal of Tourism Research, 2025):

여행의 만족도는 전체 경험의 평균이 아니라, 피크와 엔딩이 결정
가장 감동적인 활동은 여행 중반~후반에 배치하는 것이 유리
마지막 날의 경험이 여행 전체의 기억을 좌우
부정적 경험(과도한 피로, 실망)이 피크나 엔딩에 위치하면 전체 만족도 급락

현재 시스템의 문제: “감성 서사”를 B(감성)의 하위 기준으로도 두지 않고 있음. 10조 평가에서 B가 “여유에서 나오는 감동”을 언급하지만, 이것이 채점 기준에 구조적으로 반영되지 않음. Peak-End Rule은 루트 평가의 핵심 프레임워크가 되어야 하는데, 현재는 페르소나의 정성적 코멘트로만 존재.

2.4 TravelPlanner (ICML 2024 Spotlight)

현실적 여행 계획 벤치마크. 3가지 제약 유형:

Environment Constraint: 환경 피드백(교통, 날씨 등)에 따른 계획 조정 능력
Commonsense Constraint: 상식적 논리 (식사 시간, 이동 순서 등)
Hard Constraint: 예산, 일수, 필수 방문지 등 절대 조건

시사점: GPT-4조차 성공률 0.6%라는 결과는, 여행 일정 평가가 단순한 점수 합산이 아니라 다중 제약 만족 문제(constraint satisfaction problem)임을 보여준다. 현재 시스템은 이 복잡성을 100점 만점 단일 점수로 축소하고 있어, 제약 위반(실현 불가능) 일정도 높은 점수를 받을 수 있는 구조적 결함이 있다.

2.5 여행 플래너 앱의 접근 방식

Wanderlog: 일일 이동 시간/거리를 시각화하여 과부하 경고. “Optimize Route” 기능은 단일 날의 이동 최적화(TSP 기반). 그러나 다일(multi-day) 리듬 최적화는 미제공.

Roadtrippers: AI 기반 루트 발견, 숨은 명소 추천, 주유비 추정, 경치 루트 최적화. 로드트립 특화로 “한 번에 너무 오래 운전하지 않도록” 경유지를 자동 배치.

Routeperfect: 사용자 선호(액티비티 유형, 페이스)를 입력하면 일정 자동 생성. “Classic vs Popular” 일정 비교 기능.

공통점: 산업 도구들은 모두 이동 시간/거리의 균형과 사용자 프로필 반영을 핵심으로 삼음. 그러나 “감성 서사”나 “경험 다양성 밸런스” 같은 상위 품질 기준은 제공하지 않음 — 이것이 AI 페르소나 평가가 차별화될 수 있는 영역.

3. 현재 시스템의 문제점 분석

3.1 페르소나별 기준 진단

A(효율 전략가) 현행 기준

기준	가중치	적합성	문제점
동선효율	25%	적합	루트 평가의 핵심 기준. 유지
시간관리	25%	부분 적합	“시간 관리”가 너무 모호. 일일 시간 배분? 골든아워 활용? 버퍼 확보? 세분화 필요
S커버리지	15%	부적합	관광지 등급은 POI 평가의 산출물. 루트가 “S등급을 몇 개 포함하는가”는 루트 자체의 품질이 아니라 장소 선택의 품질. 동어반복 위험
A밀도	15%	부적합	S커버리지와 동일한 문제. 장소 선택 기준이지 루트 설계 기준이 아님
경치효율	10%	부분 적합	“이동 중 경치”는 루트 고유 기준이지만, 관광지의 scenery와 혼동됨
리스크	5%	적합하나 과소	루트 리스크(연쇄 지연, 날씨 의존, 야간 운전)는 5%보다 중요
유니크	5%	부적합	관광지의 uniqueness 기준을 그대로 가져옴. 루트의 유니크함이란 무엇인가?

핵심 문제: A의 기준 중 30%(S커버리지+A밀도)가 “관광지 등급의 재집계”에 불과. 이는 루트의 설계 품질이 아니라 장소 선택의 품질을 측정하는 것으로, Phase 3(관광지 평가)의 결과를 루트 평가에서 이중 계산하는 셈.

B(감성 탐험가) 현행 기준

기준	가중치	적합성	문제점
호주고유경험	35%	부적합	관광지의 uniqueness 기준 그대로. 루트 수준에서 “호주 고유”란 무엇인가? 모든 루트가 호주에서 진행되므로 루트 간 차별력 없음
감동경관	30%	부적합	관광지의 scenery 기준 그대로. 루트가 포함한 경관 장소의 합산일 뿐, 루트 설계의 품질이 아님
가성비	15%	부분 적합	루트 전체의 비용 효율은 루트 고유 기준이 맞으나, 관광지별 가성비의 합산과 구별이 모호
정량품질	5%	부적합	관광지 평점/리뷰의 재집계
다양성	5%	적합	루트 고유 기준 — “해안+산+열대우림+도시”의 스펙트럼. 그러나 5%는 너무 낮음
여유몰입	5%	적합	루트의 리듬/페이싱과 관련된 고유 기준. 5%는 너무 낮음
접근가치	5%	부적합	관광지의 accessibility 기준 그대로

핵심 문제: B의 기준 중 70%(호주고유+감동경관+정량품질+접근가치)가 관광지 평가의 재포장. 루트 고유 기준(다양성, 여유몰입)은 합계 10%에 불과. Peak-End Rule, 감성 곡선, 클라이맥스 배치 같은 루트 고유의 감성 기준이 완전히 빠져 있음.

C(현실주의 비평가) 현행 기준

기준	가중치	적합성	문제점
실현가능성	25%	적합	루트 평가의 핵심 기준. 유지
날씨리스크	20%	적합	루트 전체의 날씨 의존도는 루트 고유 기준
경치실현도	20%	부분 적합	“기대한 경치를 실제로 볼 수 있는가”는 루트에 해당하지만, 관광지별 scenery reliability와 혼동
접근안전성	15%	부분 적합	개별 장소 안전성보다 루트 전체의 안전(야간 운전, 비포장, 피로 누적)이 더 중요
프로필적합도	10%	적합하나 과소	여행자 프로필 부합은 모든 평가의 기반이어야 함. 10%는 너무 낮음
비용현실성	10%	적합	루트 전체의 비용 현실성은 루트 고유 기준

핵심 문제: C는 3명 중 가장 루트에 적합하지만, 프로필적합도가 10%에 불과하고, “Plan B/유연성”이 빠져 있음.

3.2 구조적 문제 종합

관광지 평가의 재집계 문제: 3명 합산 기준 중 약 40-50%가 관광지 평가(Phase 3)의 결과물을 다시 세는 것. “S등급 6곳 올클리어”는 루트 설계의 품질이 아니라 장소 선택의 결과이며, 이미 Phase 3에서 평가 완료된 정보.
루트 고유 기준의 부재/과소: 리듬(빡센/여유 교차), 감성 서사(기승전결), 유연성(Plan B), 숙소 전략, Peak-End 배치 같은 루트 고유 기준이 빠져 있거나 5% 수준으로 축소.
기준 간 MECE 위반: “동선효율(A)”과 “실현가능성(C)”이 겹침. “호주고유경험(B)”과 “유니크(A)”가 겹침. 관광지 평가에서는 이런 겹침이 “같은 사실, 다른 해석”으로 정당화되었지만, 루트 평가에서는 기준 자체가 달라야 함.
단일 점수의 한계: 100점 만점 점수로 루트를 순위 매기면, “실현 불가능하지만 감동적인 루트”가 “실현 가능하지만 평범한 루트”보다 높은 점수를 받을 수 있음. 실현 가능성은 가중치가 아니라 필수 조건(gate)이어야 함.
정성적 가산의 남용: 10조 평가에서 A가 “75.3 → 80점(+5점 정성 가산)”, B가 “82.3 → 85점(+3점 가산)”, C가 “74.8 → 79점(+4점 가산)”으로 전원이 정성 가산을 적용. 이는 가중치 체계의 불완전함을 보여주며, “가중치로 포착되지 않는 루트 고유 가치”가 존재함을 방증.

4. 루트 평가용 페르소나 설계 제안

4.1 페르소나 수: 3명 유지 권장

3명 유지의 근거:

현행 “삼각 검증” 구조(효율×감성×현실)는 여전히 유효한 프레임. 세 관점이 MECE에 가까움
PersonaMatrix 연구(2025)에 따르면 페르소나 수를 늘리면 각 페르소나의 영향력이 희석되어 “모든 점수가 평균으로 수렴”하는 문제 발생
4명 이상은 가중치 설계의 복잡도가 급증하고, “3명 평균 = 기본 가중치” 같은 우아한 제약 조건 유지가 어려움
Multi-persona Argument Quality Assessment(ACL 2025)에서도 3-4명이 최적 범위로 제시

다만 역할은 재정의해야 함: 관광지 평가의 “효율/감성/현실”에서 루트 평가의 “설계/경험/실행”으로 관점 전환이 필요.

4.2 루트 평가용 페르소나 재설계안

페르소나 A’: “루트 설계자” (Route Architect)

기존 A(효율 전략가)에서의 변환:

유지: 동선 효율, 시간 관리에 대한 민감성
추가: 리듬 설계(빡센/여유 교차), 숙소 전략, 일정 유연성
삭제: S커버리지, A밀도 (장소 선택 기준은 루트 설계 기준이 아님)

핵심 질문: “이 루트가 잘 설계되었는가?”

해석 프레임:

동선이 자연스럽게 흐르는가 (왕복/중복 최소화)
일일 이동 거리가 여행자 프로필에 맞게 균형 잡혀 있는가
빡센 날과 여유 날이 적절히 교차하는가
숙소 배치가 효율적인가 (연박, 체크인/아웃 시간)
골든아워(일출/일몰)에 적합한 장소가 배치되어 있는가
지연/변경 시 대안이 있는가 (유연성)

페르소나 B’: “경험 디자이너” (Experience Designer)

기존 B(감성 탐험가)에서의 변환:

유지: 감동의 크기, 경험의 질에 대한 가치 판단
추가: Peak-End Rule 적용, 감성 곡선 설계, 경험 다양성 밸런스
삭제: 호주고유경험(관광지 평가에서 이미 반영), 감동경관(동일)

핵심 질문: “이 루트가 좋은 이야기가 되는가?”

해석 프레임:

여행의 기승전결이 있는가 (도입→전개→절정→여운)
피크 경험이 적절한 위치(중반~후반)에 배치되어 있는가
마지막 날이 좋은 여운을 남기는가 (Peak-End Rule)
경험의 스펙트럼이 다양한가 (해안/산/열대우림/도시/야간)
한 곳에 충분히 몰입할 시간이 주어지는가
“이 순서로 경험했을 때” 감동이 극대화되는가

페르소나 C’: “실행 검증자” (Execution Validator)

기존 C(현실주의 비평가)에서의 변환:

유지: 실현 가능성, 리스크 점검
추가: 피로 누적 모델, 안전 마진(버퍼), 우천 시나리오 전체 시뮬레이션
삭제: 경치실현도(관광지 수준의 기준), 정량품질(동일)

핵심 질문: “이 루트가 실제로 실행 가능한가?”

해석 프레임:

각 날의 시간표가 물리적으로 가능한가 (이동시간, 영업시간, 일몰 시간)
피로가 위험 수준으로 누적되지 않는가 (연속 장거리, 서카디안 리듬)
날씨 악화 시 전체 일정이 어떻게 되는가 (연쇄 붕괴 가능성)
예약 필수 항목이 확보되어 있는가
안전 마진(버퍼)이 충분한가 (렌터카 반납, 비행기 탑승)
여행자 프로필(체력, 운전 경험, 예산)에 부합하는가

4.3 관광지 평가 결과의 처리 방법

관광지 평가(Phase 3)의 결과물(S/A/B/C/D 등급)은 루트 평가에서 입력값(input)이지 평가 기준(criterion)이 아니어야 한다.

권장 방식: “이 루트는 S등급 6곳을 포함한다”는 사실(fact)로 기록하되, 이것 자체에 점수를 주지 않음. 대신 A’(설계자)가 “S등급 장소를 골든아워에 배치했는가”, B’(경험)가 “S등급 장소가 여행의 피크 경험으로 적절히 활용되었는가”, C’(검증)가 “S등급 장소에 충분한 체류시간이 확보되었는가”로 해석. 즉, S등급 장소의 수가 아니라 활용 품질을 평가.

5. 루트 평가 기준 후보 검토

5.1 사용자 제안 기준 검토

제안 기준	적합성	비고
동선 효율성	핵심	A’의 주요 기준. 정량화 가능 (총 거리, 왕복 비율)
피로 관리	핵심	A’과 C’ 공유. 일일 운전 거리 + 누적 피로 모델
S/A등급 커버리지	재고 필요	위 §4.3 참조. “커버리지”보다 “활용 품질”로 전환
골든아워 활용	적합	A’(배치 효율)과 B’(감성 가치)의 교차 기준
경험 다양성	핵심	B’의 주요 기준. “해안/산/열대우림/도시” 스펙트럼
리스크 관리	핵심	C’의 주요 기준. 우천 대안, 야간 운전, Plan B
프로필 적합도	핵심	모든 페르소나에 관통하는 상위 기준
일정 유연성	적합	A’(설계)과 C’(실행)의 교차 기준
숙소 전략	적합	A’(효율)과 B’(감성)의 교차 기준
감성 서사	핵심	B’의 주요 기준. Peak-End Rule 적용

5.2 추가 제안 기준

추가 기준	설명	담당
첫날 설계	입국 직후 피로, 좌측통행 적응, 첫 인상 관리	C’ (안전), B’ (첫 인상)
마지막 날 설계	반납 시간 역산, 공항까지 버퍼, Peak-End 여운	C’ (실행), B’ (여운)
일일 리듬 곡선	하루 안에서의 “관광→이동→관광→여유” 패턴	A’ (설계)
포기 비용(Opportunity Cost)	이 루트를 선택함으로써 포기하는 것의 가치	A’ (효율), B’ (경험)
누적 운전 피로	단일 날이 아닌 연속 며칠간의 운전 부담	C’ (실행)
식사 시간 확보	식사를 급하게 해결하는 날이 없는가	C’ (실행)

5.3 기준 구조화: 2단계 평가 모델

TripScore와 TravelPlanner의 교훈을 반영하여, Gate(관문) + Score(점수) 2단계 구조를 제안:

Stage 1: Gate (이진 판단 — Pass/Fail)

페르소나 해석이 필요 없는 객관적 검증. 하나라도 Fail이면 루트 자체가 부적격.

Gate	검증 내용
시간 실현성	모든 이동 시간이 물리적으로 가능한가
영업시간 준수	폐장 시간 이후 방문 계획이 없는가
렌터카 반납	반납 시간까지 공항 도착이 가능한가 (최소 2시간 버퍼)
안전 한계	일일 운전 10시간 초과가 없는가
숙소 확보	모든 숙박일에 숙소가 배정되어 있는가

Stage 2: Score (페르소나별 해석)

Gate를 통과한 루트만 대상으로, 3명의 페르소나가 각자의 프레임워크로 채점.

6. 루트 평가 기준 & 가중치 설계안

6.1 기준 재설계

#	기준	설명	기존 대응
R1	동선 설계	왕복/중복 최소화, 자연스러운 흐름, 지역 간 이동 논리성	A.동선효율 확장
R2	리듬 균형	빡센/여유 교차, 일일 운전거리 분포, 피로 누적 관리	신규 (A.시간관리 + C.접근안전성 재구성)
R3	골든아워 활용	일출/일몰에 적합한 장소 배치, 방향(동쪽/서쪽) 고려	A.경치효율 확장
R4	경험 서사	기승전결 구성, 피크 배치, 엔딩 품질, 감정 곡선	신규 (B의 정성 코멘트에서 기준화)
R5	경험 다양성	지형(해안/산/열대우림/사막), 활동 유형(트레킹/드라이브/문화), 긴장/이완 교차	B.다양성 확장
R6	명소 활용도	높은 등급 장소에 충분한 시간/최적 시간대 배정, 등급 대비 체류시간 적정성	A.S커버리지+A밀도 → 재해석
R7	유연성	Plan B 유무, 날씨 대안, 일정 지연 시 흡수 여력, 숙소 변경 가능성	C.날씨리스크 확장
R8	실행 안전성	야간 운전 최소화, 첫날/마지막날 안전 마진, 렌터카 반납 버퍼	C.실현가능성+접근안전성 통합
R9	프로필 적합도	여행자의 체력/예산/운전경험/선호 스타일에 부합하는 정도	C.프로필적합도 격상
R10	숙소 전략	연박 효율, 뷰 숙소 배치, 체크인/아웃과 관광 일정 조화	신규

6.2 페르소나별 가중치 설계안

기준	기본값	A’ (루트 설계자)	B’ (경험 디자이너)	C’ (실행 검증자)	3명 평균
R1. 동선 설계	15%	25%	5%	15%	15.0%
R2. 리듬 균형	15%	20%	10%	15%	15.0%
R3. 골든아워 활용	5%	5%	10%	0%	5.0%
R4. 경험 서사	10%	0%	25%	5%	10.0%
R5. 경험 다양성	10%	5%	20%	5%	10.0%
R6. 명소 활용도	10%	15%	10%	5%	10.0%
R7. 유연성	10%	10%	5%	15%	10.0%
R8. 실행 안전성	10%	5%	0%	25%	10.0%
R9. 프로필 적합도	10%	10%	10%	10%	10.0%
R10. 숙소 전략	5%	5%	5%	5%	5.0%
합계	100%	100%	100%	100%	100%

6.3 가중치 설계 근거

A’ (루트 설계자):

동선 설계(25%) + 리듬 균형(20%) = 45%: “잘 짜인 동선”이 A’의 핵심 가치
명소 활용도(15%): 좋은 장소를 최적의 시간에 배치하는 설계력
경험 서사(0%): 서사는 B’의 영역. A’는 구조에 집중
실행 안전성(5%): 안전은 C’의 영역이지만 완전히 무시하지는 않음

B’ (경험 디자이너):

경험 서사(25%) + 경험 다양성(20%) = 45%: “좋은 이야기”가 B’의 핵심 가치
골든아워(10%): 감동의 극대화 도구로서 중시
리듬 균형(10%): “여유에서 나오는 감동”을 위해 리듬도 고려
실행 안전성(0%): 실행은 C’에 전적으로 위임

C’ (실행 검증자):

실행 안전성(25%): “실제로 가능한가”가 C’의 존재 이유
동선 설계(15%) + 리듬 균형(15%) + 유연성(15%) = 45%: 실행 관점에서의 동선/리듬/유연성
골든아워(0%): 감성 영역은 C’의 관심사가 아님
프로필 적합도(10%): 3명 공통으로 동일 비중 — 프로필은 기본 전제

6.4 기존 가중치와의 비교 (관광지 평가와의 대비)

관광지 평가	→	루트 평가	변환 논리
google_rating (15%)	→	명소 활용도 R6 (10%)의 일부	등급/평점 자체보다 “어떻게 활용했는가”로 전환
review_count (10%)	→	삭제	루트 수준에서 의미 없음
scenery (20%)	→	골든아워 R3 (5%) + 경험 서사 R4 (10%)로 분산	“경치가 좋은가”에서 “경치를 언제 보는가, 어떤 맥락에서 보는가”로 전환
accessibility (15%)	→	동선 설계 R1 (15%) + 실행 안전성 R8 (10%)	개별 접근성에서 전체 동선 논리로 확대
value_for_money (10%)	→	프로필 적합도 R9 (10%)에 흡수	비용은 프로필의 일부
time_efficiency (10%)	→	리듬 균형 R2 (15%) + 명소 활용도 R6 (10%)	개별 체류시간에서 전체 리듬으로 확대
uniqueness (20%)	→	경험 다양성 R5 (10%) + 경험 서사 R4 (10%)	개별 유니크함에서 전체 경험 스펙트럼으로 확대

7. 결론 및 권장 사항

7.1 핵심 발견

관광지 평가 기준을 루트 평가에 그대로 적용하는 것은 부적절: 관광지는 점(point), 루트는 선(line)/면(surface). 평가 차원이 근본적으로 다름.
현재 시스템의 기준 중 40-50%가 관광지 등급의 재집계: S커버리지, A밀도, 호주고유경험, 감동경관 등은 Phase 3 결과의 이중 계산.
루트 고유 기준(리듬, 서사, 유연성, 숙소 전략)이 과소 반영: 합산 10-15% 수준으로, 루트 평가의 핵심이 되어야 할 기준들이 부속물로 취급됨.
Peak-End Rule은 루트 평가의 핵심 프레임워크가 되어야 함: 여행의 피크와 엔딩이 전체 만족도를 결정한다는 것은 인지심리학적으로 확립된 원칙.
Gate(관문) + Score(점수) 2단계 구조가 필요: 실현 불가능한 루트에 점수를 매기는 것은 무의미. 실현 가능성은 가중치가 아니라 전제 조건.

7.2 권장 액션

우선순위	액션	설명
1	루트 평가 기준 10개(R1~R10) 도입	§6.1의 기준으로 관광지 기준 대체
2	페르소나 역할 재정의	A→A’(루트 설계자), B→B’(경험 디자이너), C→C’(실행 검증자)
3	Gate 검증 단계 추가	§5.3의 Pass/Fail 체크리스트를 점수화 이전에 적용
4	기존 루트 재평가	6~10조를 새 기준으로 재평가하여 순위 변동 확인
5	CRITIC.md 분리	관광지 평가 CRITIC과 루트 평가 CRITIC을 별도 문서로 분리

7.3 주의사항

새 기준이 기존보다 “더 정확하다”고 단정하지 말 것. 기존 평가자(사용자)의 직관이 새 프레임워크보다 나을 수 있음.
최종 결정은 사용자가 한다는 원칙은 루트 평가에서도 동일. AI는 다각도 분석을 제공하고, 순위 결정은 사용자에게 맡김.
페르소나 재설계 시 기존 평가 결과와의 연속성을 고려할 것. 갑작스러운 기준 변경으로 기존 논의가 무효화되면 안 됨.

Sources

학술 논문

TripScore: Benchmarking and rewarding real-world travel planning with fine-grained evaluation (arXiv 2025)
TravelAgent: An AI Assistant for Personalized Travel Planning (arXiv 2024)
TravelPlanner: A Benchmark for Real-World Planning with Language Agents (ICML 2024 Spotlight)
TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning (arXiv 2025)
TripCraft: A Benchmark for Spatio-Temporally Fine Grained Travel Planning (arXiv 2025)
A Multi-persona Framework for Argument Quality Assessment (ACL 2025)
PersonaMatrix: A Recipe for Persona-Aware Evaluation of Legal Summarization (arXiv 2025)
Peak-End Rule? Tracing Tourists’ Experience and Exploring Their Impact on Retrospective Evaluation (Journal of Tourism Research 2025)

여행 플래너 앱

Wanderlog — 이동 시간/거리 시각화, 루트 최적화
Roadtrippers — AI 기반 루트 발견, 경유지 자동 배치
Routeperfect — 사용자 선호 기반 일정 자동 생성

루트(여행 일정) 평가 프레임워크 & 페르소나 설계 리서치

1. 관광지 평가 vs 루트 평가: 근본적 차이

1.1 평가 대상의 본질적 차이

1.2 루트 평가에서만 중요한 차원들

2. 학술 연구 및 산업 프레임워크

2.1 TripScore (arXiv 2510.09011, 2025)

2.2 TravelAgent (arXiv 2409.08069, 2024)

2.3 Peak-End Rule (Kahneman & Fredrickson)

2.4 TravelPlanner (ICML 2024 Spotlight)

2.5 여행 플래너 앱의 접근 방식

3. 현재 시스템의 문제점 분석

3.1 페르소나별 기준 진단

A(효율 전략가) 현행 기준

B(감성 탐험가) 현행 기준

C(현실주의 비평가) 현행 기준

3.2 구조적 문제 종합

4. 루트 평가용 페르소나 설계 제안

4.1 페르소나 수: 3명 유지 권장

4.2 루트 평가용 페르소나 재설계안

페르소나 A’: “루트 설계자” (Route Architect)

페르소나 B’: “경험 디자이너” (Experience Designer)

페르소나 C’: “실행 검증자” (Execution Validator)

4.3 관광지 평가 결과의 처리 방법

5. 루트 평가 기준 후보 검토

5.1 사용자 제안 기준 검토

5.2 추가 제안 기준

5.3 기준 구조화: 2단계 평가 모델

Stage 1: Gate (이진 판단 — Pass/Fail)

Stage 2: Score (페르소나별 해석)

6. 루트 평가 기준 & 가중치 설계안

6.1 기준 재설계

6.2 페르소나별 가중치 설계안

6.3 가중치 설계 근거

6.4 기존 가중치와의 비교 (관광지 평가와의 대비)

7. 결론 및 권장 사항

7.1 핵심 발견

7.2 권장 액션

7.3 주의사항

Sources

학술 논문

여행 플래너 앱

안전 / 피로 관리

경험 설계 / 인지심리학