공공 데이터 표준과 거버넌스에 맞춰 수집→정제→라벨링→검수→검증→카탈로그/배포까지 전 과정을 체계화합니다. 보안·품질·감사는 기본입니다.
데이터 수집 | 수집 에이전트(배치/크롤/API), 표준 포맷(CSV/JSON/Parquet), 보안 채널(IPS/SSL/VPN) |
---|---|
정제/보호 | 중복/오류/스키마 검증, PII 마스킹·토큰화, 민감정보 룰셋(공공 지침 반영) |
라벨링/검수 | 전문가·크라우드 하이브리드, 다단계 검수(3-pass), 일관성 체크, 가이드/온톨로지 관리 |
저장/버저닝 | Data Lake(Object/MinIO/S3), DVC/MLflow, 증분/스냅샷, 보존기간 정책 |
메타/카탈로그 | OpenMetadata/DataHub, 스키마/계보/품질지표, 검색/권한, 포털 연계 |
배포/개방 | API/포털(공공데이터포털 연계), 접근제어(RBAC/ABAC), 로그/감사/감리 대응 |
모니터링 | OpenTelemetry, Prometheus/Grafana, 품질 대시보드·알람, 리포팅 자동화 |
컴플라이언스 | ISMS, 개인정보보호법, 전자정부 표준, 데이터 보존/파기 정책, 감사대응 |