Skip to the content.

루트(여행 일정) 평가 프레임워크 & 페르소나 설계 리서치

작성일: 2026-03-16 목적: 개별 관광지 평가용 페르소나/기준을 루트(전체 일정) 평가에 적용할 때의 문제점을 분석하고, 루트 평가에 최적화된 프레임워크를 제안하기 위한 사전 리서치 범위: 학술 연구, AI 여행 플래너 방법론, 경험 설계 이론, 현재 시스템 진단


1. 관광지 평가 vs 루트 평가: 근본적 차이

1.1 평가 대상의 본질적 차이

구분 관광지(POI) 평가 루트(Itinerary) 평가
단위 개별 장소 (점) 장소들의 시퀀스 (선/면)
핵심 질문 “이 장소가 갈 만한가?” “이 순서대로 가면 좋은 여행이 되는가?”
독립성 각 장소를 독립적으로 평가 가능 장소 간 관계(순서, 거리, 맥락)가 품질을 결정
시간 차원 정적 (체류시간만) 동적 (날짜별 리듬, 누적 피로, 기승전결)
최적화 목표 개별 점수 최대화 전체 경험의 총합 최대화 (개별 최적 ≠ 전체 최적)
트레이드오프 거의 없음 핵심 (A를 가면 B를 포기해야 함)
창발적 속성 없음 있음 (리듬, 서사, 다양성 밸런스)

1.2 루트 평가에서만 중요한 차원들

관광지 평가에는 존재하지 않거나 미미하지만, 루트 평가에서는 핵심이 되는 기준들:

a) 시퀀싱(Sequencing) — 순서의 품질

b) 리듬(Rhythm/Pacing) — 빡센 날과 여유 날의 교차

c) 동선 논리성(Route Logic) — 왕복/중복 최소화

d) 피로 누적 모델(Fatigue Accumulation)

e) Plan B / 유연성(Flexibility)

f) 숙소 전략(Accommodation Strategy)

g) 감성 서사(Narrative Arc)


2. 학술 연구 및 산업 프레임워크

2.1 TripScore (arXiv 2510.09011, 2025)

AI 여행 플래너가 생성한 일정을 평가하는 벤치마크로, 4가지 제약 조건 유형으로 분류:

제약 유형 설명 루트 평가 적용
Format Constraint 구조적 완결성, 정보 정확성, 환각 방지 일정표의 형식적 완결성 (시간, 거리, 숙소 누락 없음)
Commonsense Constraint 현실 세계 논리 (영업시간, 이동시간 등) 실현 가능성 (폐장 시간에 방문, 물리적 불가능한 이동)
Soft Constraint 품질 기준 (다양성, 효율성 등) 경험 다양성, 동선 효율, 리듬 균형
Preference Constraint 사용자 선호 반영 프로필 적합도 (체력, 예산, 여행 스타일)

시사점: 현재 시스템의 가장 큰 약점은 Format/Commonsense 수준의 “기본 검증”과 Soft/Preference 수준의 “품질 평가”가 혼재되어 있다는 것. 기본 검증(실현 가능성)은 페르소나 해석이 필요 없는 이진 판단이고, 품질 평가만 페르소나 분화가 의미 있다.

2.2 TravelAgent (arXiv 2409.08069, 2024)

AI 여행 어시스턴트의 평가를 3가지 차원으로 정의:

차원 설명 현재 시스템과의 관계
합리성(Rationality) 제약 조건 하에서 논리적 일정 구성 C(현실주의)가 부분적으로 커버하나, 동선 논리성은 A(효율)에 분산
포괄성(Comprehensiveness) 실시간·세밀·흥미로운 일정 제공 B(감성)와 A(효율)에 걸쳐 있으나 명확히 정의되지 않음
개인화(Personalization) 사용자 프로필 반영 C의 “프로필적합도 10%”로만 반영 — 비중이 너무 낮음

시사점: “개인화”가 모든 페르소나에 관통하는 상위 기준이어야 하는데, 현재는 C의 하위 기준 하나로만 존재. 여행자 프로필(체력, 예산, 선호)은 모든 평가의 렌즈가 되어야 함.

2.3 Peak-End Rule (Kahneman & Fredrickson)

인지심리학에서 확립된 원칙으로, 사람은 경험을 가장 강렬한 순간(Peak)과 마지막 순간(End)으로 기억한다.

여행 일정 설계에의 적용 (Journal of Tourism Research, 2025):

현재 시스템의 문제: “감성 서사”를 B(감성)의 하위 기준으로도 두지 않고 있음. 10조 평가에서 B가 “여유에서 나오는 감동”을 언급하지만, 이것이 채점 기준에 구조적으로 반영되지 않음. Peak-End Rule은 루트 평가의 핵심 프레임워크가 되어야 하는데, 현재는 페르소나의 정성적 코멘트로만 존재.

2.4 TravelPlanner (ICML 2024 Spotlight)

현실적 여행 계획 벤치마크. 3가지 제약 유형:

시사점: GPT-4조차 성공률 0.6%라는 결과는, 여행 일정 평가가 단순한 점수 합산이 아니라 다중 제약 만족 문제(constraint satisfaction problem)임을 보여준다. 현재 시스템은 이 복잡성을 100점 만점 단일 점수로 축소하고 있어, 제약 위반(실현 불가능) 일정도 높은 점수를 받을 수 있는 구조적 결함이 있다.

2.5 여행 플래너 앱의 접근 방식

Wanderlog: 일일 이동 시간/거리를 시각화하여 과부하 경고. “Optimize Route” 기능은 단일 날의 이동 최적화(TSP 기반). 그러나 다일(multi-day) 리듬 최적화는 미제공.

Roadtrippers: AI 기반 루트 발견, 숨은 명소 추천, 주유비 추정, 경치 루트 최적화. 로드트립 특화로 “한 번에 너무 오래 운전하지 않도록” 경유지를 자동 배치.

Routeperfect: 사용자 선호(액티비티 유형, 페이스)를 입력하면 일정 자동 생성. “Classic vs Popular” 일정 비교 기능.

공통점: 산업 도구들은 모두 이동 시간/거리의 균형사용자 프로필 반영을 핵심으로 삼음. 그러나 “감성 서사”나 “경험 다양성 밸런스” 같은 상위 품질 기준은 제공하지 않음 — 이것이 AI 페르소나 평가가 차별화될 수 있는 영역.


3. 현재 시스템의 문제점 분석

3.1 페르소나별 기준 진단

A(효율 전략가) 현행 기준

기준 가중치 적합성 문제점
동선효율 25% 적합 루트 평가의 핵심 기준. 유지
시간관리 25% 부분 적합 “시간 관리”가 너무 모호. 일일 시간 배분? 골든아워 활용? 버퍼 확보? 세분화 필요
S커버리지 15% 부적합 관광지 등급은 POI 평가의 산출물. 루트가 “S등급을 몇 개 포함하는가”는 루트 자체의 품질이 아니라 장소 선택의 품질. 동어반복 위험
A밀도 15% 부적합 S커버리지와 동일한 문제. 장소 선택 기준이지 루트 설계 기준이 아님
경치효율 10% 부분 적합 “이동 중 경치”는 루트 고유 기준이지만, 관광지의 scenery와 혼동됨
리스크 5% 적합하나 과소 루트 리스크(연쇄 지연, 날씨 의존, 야간 운전)는 5%보다 중요
유니크 5% 부적합 관광지의 uniqueness 기준을 그대로 가져옴. 루트의 유니크함이란 무엇인가?

핵심 문제: A의 기준 중 30%(S커버리지+A밀도)가 “관광지 등급의 재집계”에 불과. 이는 루트의 설계 품질이 아니라 장소 선택의 품질을 측정하는 것으로, Phase 3(관광지 평가)의 결과를 루트 평가에서 이중 계산하는 셈.

B(감성 탐험가) 현행 기준

기준 가중치 적합성 문제점
호주고유경험 35% 부적합 관광지의 uniqueness 기준 그대로. 루트 수준에서 “호주 고유”란 무엇인가? 모든 루트가 호주에서 진행되므로 루트 간 차별력 없음
감동경관 30% 부적합 관광지의 scenery 기준 그대로. 루트가 포함한 경관 장소의 합산일 뿐, 루트 설계의 품질이 아님
가성비 15% 부분 적합 루트 전체의 비용 효율은 루트 고유 기준이 맞으나, 관광지별 가성비의 합산과 구별이 모호
정량품질 5% 부적합 관광지 평점/리뷰의 재집계
다양성 5% 적합 루트 고유 기준 — “해안+산+열대우림+도시”의 스펙트럼. 그러나 5%는 너무 낮음
여유몰입 5% 적합 루트의 리듬/페이싱과 관련된 고유 기준. 5%는 너무 낮음
접근가치 5% 부적합 관광지의 accessibility 기준 그대로

핵심 문제: B의 기준 중 70%(호주고유+감동경관+정량품질+접근가치)가 관광지 평가의 재포장. 루트 고유 기준(다양성, 여유몰입)은 합계 10%에 불과. Peak-End Rule, 감성 곡선, 클라이맥스 배치 같은 루트 고유의 감성 기준이 완전히 빠져 있음.

C(현실주의 비평가) 현행 기준

기준 가중치 적합성 문제점
실현가능성 25% 적합 루트 평가의 핵심 기준. 유지
날씨리스크 20% 적합 루트 전체의 날씨 의존도는 루트 고유 기준
경치실현도 20% 부분 적합 “기대한 경치를 실제로 볼 수 있는가”는 루트에 해당하지만, 관광지별 scenery reliability와 혼동
접근안전성 15% 부분 적합 개별 장소 안전성보다 루트 전체의 안전(야간 운전, 비포장, 피로 누적)이 더 중요
프로필적합도 10% 적합하나 과소 여행자 프로필 부합은 모든 평가의 기반이어야 함. 10%는 너무 낮음
비용현실성 10% 적합 루트 전체의 비용 현실성은 루트 고유 기준

핵심 문제: C는 3명 중 가장 루트에 적합하지만, 프로필적합도가 10%에 불과하고, “Plan B/유연성”이 빠져 있음.

3.2 구조적 문제 종합

  1. 관광지 평가의 재집계 문제: 3명 합산 기준 중 약 40-50%가 관광지 평가(Phase 3)의 결과물을 다시 세는 것. “S등급 6곳 올클리어”는 루트 설계의 품질이 아니라 장소 선택의 결과이며, 이미 Phase 3에서 평가 완료된 정보.

  2. 루트 고유 기준의 부재/과소: 리듬(빡센/여유 교차), 감성 서사(기승전결), 유연성(Plan B), 숙소 전략, Peak-End 배치 같은 루트 고유 기준이 빠져 있거나 5% 수준으로 축소.

  3. 기준 간 MECE 위반: “동선효율(A)”과 “실현가능성(C)”이 겹침. “호주고유경험(B)”과 “유니크(A)”가 겹침. 관광지 평가에서는 이런 겹침이 “같은 사실, 다른 해석”으로 정당화되었지만, 루트 평가에서는 기준 자체가 달라야 함.

  4. 단일 점수의 한계: 100점 만점 점수로 루트를 순위 매기면, “실현 불가능하지만 감동적인 루트”가 “실현 가능하지만 평범한 루트”보다 높은 점수를 받을 수 있음. 실현 가능성은 가중치가 아니라 필수 조건(gate)이어야 함.

  5. 정성적 가산의 남용: 10조 평가에서 A가 “75.3 → 80점(+5점 정성 가산)”, B가 “82.3 → 85점(+3점 가산)”, C가 “74.8 → 79점(+4점 가산)”으로 전원이 정성 가산을 적용. 이는 가중치 체계의 불완전함을 보여주며, “가중치로 포착되지 않는 루트 고유 가치”가 존재함을 방증.


4. 루트 평가용 페르소나 설계 제안

4.1 페르소나 수: 3명 유지 권장

3명 유지의 근거:

다만 역할은 재정의해야 함: 관광지 평가의 “효율/감성/현실”에서 루트 평가의 “설계/경험/실행”으로 관점 전환이 필요.

4.2 루트 평가용 페르소나 재설계안

페르소나 A’: “루트 설계자” (Route Architect)

기존 A(효율 전략가)에서의 변환:

핵심 질문: “이 루트가 잘 설계되었는가?”

해석 프레임:

페르소나 B’: “경험 디자이너” (Experience Designer)

기존 B(감성 탐험가)에서의 변환:

핵심 질문: “이 루트가 좋은 이야기가 되는가?”

해석 프레임:

페르소나 C’: “실행 검증자” (Execution Validator)

기존 C(현실주의 비평가)에서의 변환:

핵심 질문: “이 루트가 실제로 실행 가능한가?”

해석 프레임:

4.3 관광지 평가 결과의 처리 방법

관광지 평가(Phase 3)의 결과물(S/A/B/C/D 등급)은 루트 평가에서 입력값(input)이지 평가 기준(criterion)이 아니어야 한다.

권장 방식: “이 루트는 S등급 6곳을 포함한다”는 사실(fact)로 기록하되, 이것 자체에 점수를 주지 않음. 대신 A’(설계자)가 “S등급 장소를 골든아워에 배치했는가”, B’(경험)가 “S등급 장소가 여행의 피크 경험으로 적절히 활용되었는가”, C’(검증)가 “S등급 장소에 충분한 체류시간이 확보되었는가”로 해석. 즉, S등급 장소의 가 아니라 활용 품질을 평가.


5. 루트 평가 기준 후보 검토

5.1 사용자 제안 기준 검토

제안 기준 적합성 비고
동선 효율성 핵심 A’의 주요 기준. 정량화 가능 (총 거리, 왕복 비율)
피로 관리 핵심 A’과 C’ 공유. 일일 운전 거리 + 누적 피로 모델
S/A등급 커버리지 재고 필요 위 §4.3 참조. “커버리지”보다 “활용 품질”로 전환
골든아워 활용 적합 A’(배치 효율)과 B’(감성 가치)의 교차 기준
경험 다양성 핵심 B’의 주요 기준. “해안/산/열대우림/도시” 스펙트럼
리스크 관리 핵심 C’의 주요 기준. 우천 대안, 야간 운전, Plan B
프로필 적합도 핵심 모든 페르소나에 관통하는 상위 기준
일정 유연성 적합 A’(설계)과 C’(실행)의 교차 기준
숙소 전략 적합 A’(효율)과 B’(감성)의 교차 기준
감성 서사 핵심 B’의 주요 기준. Peak-End Rule 적용

5.2 추가 제안 기준

추가 기준 설명 담당
첫날 설계 입국 직후 피로, 좌측통행 적응, 첫 인상 관리 C’ (안전), B’ (첫 인상)
마지막 날 설계 반납 시간 역산, 공항까지 버퍼, Peak-End 여운 C’ (실행), B’ (여운)
일일 리듬 곡선 하루 안에서의 “관광→이동→관광→여유” 패턴 A’ (설계)
포기 비용(Opportunity Cost) 이 루트를 선택함으로써 포기하는 것의 가치 A’ (효율), B’ (경험)
누적 운전 피로 단일 날이 아닌 연속 며칠간의 운전 부담 C’ (실행)
식사 시간 확보 식사를 급하게 해결하는 날이 없는가 C’ (실행)

5.3 기준 구조화: 2단계 평가 모델

TripScore와 TravelPlanner의 교훈을 반영하여, Gate(관문) + Score(점수) 2단계 구조를 제안:

Stage 1: Gate (이진 판단 — Pass/Fail)

페르소나 해석이 필요 없는 객관적 검증. 하나라도 Fail이면 루트 자체가 부적격.

Gate 검증 내용
시간 실현성 모든 이동 시간이 물리적으로 가능한가
영업시간 준수 폐장 시간 이후 방문 계획이 없는가
렌터카 반납 반납 시간까지 공항 도착이 가능한가 (최소 2시간 버퍼)
안전 한계 일일 운전 10시간 초과가 없는가
숙소 확보 모든 숙박일에 숙소가 배정되어 있는가

Stage 2: Score (페르소나별 해석)

Gate를 통과한 루트만 대상으로, 3명의 페르소나가 각자의 프레임워크로 채점.


6. 루트 평가 기준 & 가중치 설계안

6.1 기준 재설계

# 기준 설명 기존 대응
R1 동선 설계 왕복/중복 최소화, 자연스러운 흐름, 지역 간 이동 논리성 A.동선효율 확장
R2 리듬 균형 빡센/여유 교차, 일일 운전거리 분포, 피로 누적 관리 신규 (A.시간관리 + C.접근안전성 재구성)
R3 골든아워 활용 일출/일몰에 적합한 장소 배치, 방향(동쪽/서쪽) 고려 A.경치효율 확장
R4 경험 서사 기승전결 구성, 피크 배치, 엔딩 품질, 감정 곡선 신규 (B의 정성 코멘트에서 기준화)
R5 경험 다양성 지형(해안/산/열대우림/사막), 활동 유형(트레킹/드라이브/문화), 긴장/이완 교차 B.다양성 확장
R6 명소 활용도 높은 등급 장소에 충분한 시간/최적 시간대 배정, 등급 대비 체류시간 적정성 A.S커버리지+A밀도 → 재해석
R7 유연성 Plan B 유무, 날씨 대안, 일정 지연 시 흡수 여력, 숙소 변경 가능성 C.날씨리스크 확장
R8 실행 안전성 야간 운전 최소화, 첫날/마지막날 안전 마진, 렌터카 반납 버퍼 C.실현가능성+접근안전성 통합
R9 프로필 적합도 여행자의 체력/예산/운전경험/선호 스타일에 부합하는 정도 C.프로필적합도 격상
R10 숙소 전략 연박 효율, 뷰 숙소 배치, 체크인/아웃과 관광 일정 조화 신규

6.2 페르소나별 가중치 설계안

기준 기본값 A’ (루트 설계자) B’ (경험 디자이너) C’ (실행 검증자) 3명 평균
R1. 동선 설계 15% 25% 5% 15% 15.0%
R2. 리듬 균형 15% 20% 10% 15% 15.0%
R3. 골든아워 활용 5% 5% 10% 0% 5.0%
R4. 경험 서사 10% 0% 25% 5% 10.0%
R5. 경험 다양성 10% 5% 20% 5% 10.0%
R6. 명소 활용도 10% 15% 10% 5% 10.0%
R7. 유연성 10% 10% 5% 15% 10.0%
R8. 실행 안전성 10% 5% 0% 25% 10.0%
R9. 프로필 적합도 10% 10% 10% 10% 10.0%
R10. 숙소 전략 5% 5% 5% 5% 5.0%
합계 100% 100% 100% 100% 100%

6.3 가중치 설계 근거

A’ (루트 설계자):

B’ (경험 디자이너):

C’ (실행 검증자):

6.4 기존 가중치와의 비교 (관광지 평가와의 대비)

관광지 평가 루트 평가 변환 논리
google_rating (15%) 명소 활용도 R6 (10%)의 일부 등급/평점 자체보다 “어떻게 활용했는가”로 전환
review_count (10%) 삭제 루트 수준에서 의미 없음
scenery (20%) 골든아워 R3 (5%) + 경험 서사 R4 (10%)로 분산 “경치가 좋은가”에서 “경치를 언제 보는가, 어떤 맥락에서 보는가”로 전환
accessibility (15%) 동선 설계 R1 (15%) + 실행 안전성 R8 (10%) 개별 접근성에서 전체 동선 논리로 확대
value_for_money (10%) 프로필 적합도 R9 (10%)에 흡수 비용은 프로필의 일부
time_efficiency (10%) 리듬 균형 R2 (15%) + 명소 활용도 R6 (10%) 개별 체류시간에서 전체 리듬으로 확대
uniqueness (20%) 경험 다양성 R5 (10%) + 경험 서사 R4 (10%) 개별 유니크함에서 전체 경험 스펙트럼으로 확대

7. 결론 및 권장 사항

7.1 핵심 발견

  1. 관광지 평가 기준을 루트 평가에 그대로 적용하는 것은 부적절: 관광지는 점(point), 루트는 선(line)/면(surface). 평가 차원이 근본적으로 다름.

  2. 현재 시스템의 기준 중 40-50%가 관광지 등급의 재집계: S커버리지, A밀도, 호주고유경험, 감동경관 등은 Phase 3 결과의 이중 계산.

  3. 루트 고유 기준(리듬, 서사, 유연성, 숙소 전략)이 과소 반영: 합산 10-15% 수준으로, 루트 평가의 핵심이 되어야 할 기준들이 부속물로 취급됨.

  4. Peak-End Rule은 루트 평가의 핵심 프레임워크가 되어야 함: 여행의 피크와 엔딩이 전체 만족도를 결정한다는 것은 인지심리학적으로 확립된 원칙.

  5. Gate(관문) + Score(점수) 2단계 구조가 필요: 실현 불가능한 루트에 점수를 매기는 것은 무의미. 실현 가능성은 가중치가 아니라 전제 조건.

7.2 권장 액션

우선순위 액션 설명
1 루트 평가 기준 10개(R1~R10) 도입 §6.1의 기준으로 관광지 기준 대체
2 페르소나 역할 재정의 A→A’(루트 설계자), B→B’(경험 디자이너), C→C’(실행 검증자)
3 Gate 검증 단계 추가 §5.3의 Pass/Fail 체크리스트를 점수화 이전에 적용
4 기존 루트 재평가 6~10조를 새 기준으로 재평가하여 순위 변동 확인
5 CRITIC.md 분리 관광지 평가 CRITIC과 루트 평가 CRITIC을 별도 문서로 분리

7.3 주의사항


Sources

학술 논문

여행 플래너 앱

안전 / 피로 관리

경험 설계 / 인지심리학