Confidence & k-anonymity
confidence 레이블의 계산 기준과 데이터 프라이버시 보호 원칙.
Confidence 레이블
모든 /markets/pulse 응답에는 confidence 필드가 포함됩니다. 이는 해당 조합의 통계적 유의성을 3단계로 분류 한 것입니다.
계산 규칙
CASE
WHEN sample_size IS NULL OR sample_size < 3 THEN 'low' -- 실제로는 이 경우 응답 X (k-anon)
WHEN sample_size < 10 THEN 'low'
WHEN sample_size < 30 THEN 'medium'
ELSE 'high'
END
| 레이블 | sample_size | 의미 | 사용 권장 |
|---|---|---|---|
low | 3-9 | 소수 매물 기반. 편향 가능성 높음 | 참고용만. 정밀 분석에는 부적합 |
medium | 10-29 | 중간. 일반적 리서치 용도엔 충분 | 분기 리포트, 시장 동향 요약 |
high | 30+ | 높은 신뢰도 | 정량 모델, 투자 의사결정 보조 |
_meta.confidence (응답 전체)
응답이 여러 행을 포함할 때 _meta.confidence 는 행 중 최소 confidence 를 반환합니다 (보수적). 예:
- 행 A:
high, 행 B:medium→_meta.confidence: 'medium'
즉, 응답 전체를 "최악 케이스" 기준으로 해석하도록 안내합니다.
k-anonymity
정의
k-anonymity 는 프라이버시 보호 기법으로, 한 조합 내 매물 수가 k 미만이면 데이터를 반환하지 않는 원칙입니다.
Veacon 의 k 값
| 시기 | k | 근거 |
|---|---|---|
| 현재 (MVP) | 3 | 데이터가 적은 MVP 단계에서 너무 많은 조합이 NULL 되는 것을 방지 |
| 정식 운영 (2026 Q4 예정) | 5 | 업계 표준. GDPR / PIPA 권고 수준 |
집행 방식
3중 방어:
- Database CHECK constraint
CONSTRAINT intel_ma_k_anonymity CHECK (sample_size >= 3)
애플리케이션 버그로 k-anon 위반한 row 가 삽입되려 하면 DB 레벨에서 거부.
- ETL HAVING clause
SELECT ...
FROM intel.market_aggregates
GROUP BY region, category, period, product_type
HAVING COUNT(*) >= intel.k_anonymity_threshold()
ETL 단계에서 임계값 미만 조합은 aggregate 테이블에 저장조차 되지 않음.
- API 응답 단계
k-anon 미만 조합을 쿼리하면
404 NOT_FOUND반환.
왜 중요한가
Veacon 의 원천 데이터(Syncle 매물)에는 개별 호스트/테넌트의 실제 거래 가 포함됩니다. k-anonymity 없이는:
- 한 상가/건물의 임대료가 식별될 수 있음 (예: 잠실 특정 빌딩)
- 원천 호스트의 프라이버시 침해
- PIPA 위반 가능성
k ≥ 3 (또는 5) 으로 집계하면 어떤 매물이 포함됐는지 역추정 불가능 — 통계만 공개됨.
임계값 변경 이력 (예정)
-- 현재: k=3
CREATE OR REPLACE FUNCTION intel.k_anonymity_threshold()
RETURNS INTEGER LANGUAGE sql IMMUTABLE
AS $$ SELECT 3 $$;
-- 2026 Q4 예정: k=5 로 변경
-- 변경 시 warning 모드 → 2주 관찰 → hard filter
투자 의사결정 시 주의사항
Terms of Service 제12조(전체 문서):
집계 데이터는 통계적 추정치이며 특정 매물이나 개인의 거래를 식별하지 않습니다(k-anonymity ≥ 3 보장). 회사는 집계 데이터의 정확성, 완전성, 적시성에 대하여 상업적으로 합리적인 노력을 기울이나, 투자 결정·대출 심사·법률 분쟁 등의 유일한 근거로 사용되는 것을 권장하지 아니합니다.
실전 가이드:
confidence: low인 응답은 절대 단일 근거로 사용 금지medium도 다른 출처와 교차 검증 권장high는 모델의 보조 변수로는 충분, 하지만 최종 의사결정에는 현장 실사 필수
기술적 신뢰도 상승 경로 (Phase 9+)
- 데이터 규모 확대 (카테고리 확장, 24개월 backfill) →
sample_size중앙값 상승 - k=5 상향 → 남는 조합은 더 robust
- Bootstrap CI 제공 (
confidence_interval_95) — 2027 목표 - 이상치 제거 알고리즘 (MAD 기반) —
avg_price_robust
현재 Phase 2 (2026-04) 기준: 서울 3개 권역 × office 1 카테고리 × 5개월 = 15 조합 중 대부분 medium.