Confidence & k-anonymity

confidence 레이블의 계산 기준과 데이터 프라이버시 보호 원칙.

Last updated: 2026-04-23

Confidence 레이블

모든 /markets/pulse 응답에는 confidence 필드가 포함됩니다. 이는 해당 조합의 통계적 유의성을 3단계로 분류 한 것입니다.

계산 규칙

sql

CASE
  WHEN sample_size IS NULL OR sample_size < 3  THEN 'low'   -- 실제로는 이 경우 응답 X (k-anon)
  WHEN sample_size < 10                        THEN 'low'
  WHEN sample_size < 30                        THEN 'medium'
  ELSE                                              'high'
END

레이블	sample_size	의미	사용 권장
`low`	3-9	소수 매물 기반. 편향 가능성 높음	참고용만. 정밀 분석에는 부적합
`medium`	10-29	중간. 일반적 리서치 용도엔 충분	분기 리포트, 시장 동향 요약
`high`	30+	높은 신뢰도	정량 모델, 투자 의사결정 보조

`_meta.confidence` (응답 전체)

응답이 여러 행을 포함할 때 _meta.confidence 는 행 중 최소 confidence 를 반환합니다 (보수적). 예:

행 A: high, 행 B: medium → _meta.confidence: 'medium'

즉, 응답 전체를 "최악 케이스" 기준으로 해석하도록 안내합니다.

k-anonymity

정의

k-anonymity 는 프라이버시 보호 기법으로, 한 조합 내 매물 수가 k 미만이면 데이터를 반환하지 않는 원칙입니다.

Veacon 의 k 값

시기	k	근거
현재 (MVP)	3	데이터가 적은 MVP 단계에서 너무 많은 조합이 NULL 되는 것을 방지
정식 운영 (2026 Q4 예정)	5	업계 표준. GDPR / PIPA 권고 수준

집행 방식

3중 방어:

Database CHECK constraint

sql

CONSTRAINT intel_ma_k_anonymity CHECK (sample_size >= 3)

애플리케이션 버그로 k-anon 위반한 row 가 삽입되려 하면 DB 레벨에서 거부.

ETL HAVING clause

sql

SELECT ...
FROM intel.market_aggregates
GROUP BY region, category, period, product_type
HAVING COUNT(*) >= intel.k_anonymity_threshold()

ETL 단계에서 임계값 미만 조합은 aggregate 테이블에 저장조차 되지 않음.

API 응답 단계 k-anon 미만 조합을 쿼리하면 404 NOT_FOUND 반환.

왜 중요한가

Veacon 의 원천 매물 데이터에는 개별 호스트/테넌트의 실제 거래 가 포함됩니다. k-anonymity 없이는:

한 상가/건물의 임대료가 식별될 수 있음 (예: 잠실 특정 빌딩)
원천 호스트의 프라이버시 침해
PIPA 위반 가능성

k ≥ 3 (또는 5) 으로 집계하면 어떤 매물이 포함됐는지 역추정 불가능 — 통계만 공개됨.

임계값 변경 이력 (예정)

sql

-- 현재: k=3
CREATE OR REPLACE FUNCTION intel.k_anonymity_threshold()
RETURNS INTEGER LANGUAGE sql IMMUTABLE
AS $$ SELECT 3 $$;

-- 2026 Q4 예정: k=5 로 변경
-- 변경 시 warning 모드 → 2주 관찰 → hard filter

투자 의사결정 시 주의사항

집계 데이터는 통계적 추정치이며 특정 매물이나 개인의 거래를 식별하지 않습니다(k-anonymity ≥ 3 보장). 회사는 집계 데이터의 정확성, 완전성, 적시성에 대하여 상업적으로 합리적인 노력을 기울이나, 투자 결정·대출 심사·법률 분쟁 등의 유일한 근거로 사용되는 것을 권장하지 아니합니다.

실전 가이드:

confidence: low 인 응답은 절대 단일 근거로 사용 금지
medium 도 다른 출처와 교차 검증 권장
high 는 모델의 보조 변수로는 충분, 하지만 최종 의사결정에는 현장 실사 필수

기술적 신뢰도 상승 경로 (Phase 9+)

데이터 규모 확대 (카테고리 확장, 24개월 backfill) → sample_size 중앙값 상승
k=5 상향 → 남는 조합은 더 robust
Bootstrap CI 제공 (confidence_interval_95) — 2027 목표
이상치 제거 알고리즘 (MAD 기반) — avg_price_robust

현재 Phase 2 (2026-04) 기준: 서울 3개 권역 × office 1 카테고리 × 5개월 = 15 조합 중 대부분 medium.