LLM 개인정보 보호 게이트웨이
코드 한 줄 변경으로, LLM이 개인정보를 절대 보지 못하게.
자동 탐지, 토큰화, 복원까지 한 번에.
도입은 이게 전부입니다
제공 유형
URL만 바꾸면 개인정보 보호가 자동 적용되는 프록시.
POST /v1/chat/completions
개인정보 토큰 치환과 원본 복원 독립 API.
POST /v1/encode · /v1/decode
탐지만 수행. 감사 로그, 컴플라이언스 체크.
POST /v1/detect
핵심 기술
정규식만으로는 잡을 수 없는 한국어 개인정보를, AI와 문맥 분석을 결합해 정밀하게 탐지하고, BERT 검증기가 오탐을 걸러냅니다.
주민등록번호, 전화번호, 사업자번호 등 정형화된 개인정보를 고정밀 정규식으로 즉시 탐지합니다.
주변 텍스트의 의미론적 단서를 분석하여 단순 패턴으로 잡기 어려운 개인정보를 식별합니다.
한국어 특화 개체명인식 모델이 인명, 주소 등 비정형 개인정보를 딥러닝으로 탐지합니다.
NER이 탐지한 후보를 AI 분류기로 2차 검증하여 오탐을 제거합니다. 공유 encoder로 추가 지연 최소화.
아키텍처
개인정보를 토큰으로 치환 후, LLM 응답에서 원본으로 자동 복원합니다.
원본 없이도 LLM이 추론할 수 있도록 안전한 메타 속성만 전달합니다.
베이스 URL만 변경하면 즉시 적용. 별도 SDK 불필요.
Docker로 자체 인프라에 설치. 외부로 데이터가 나가지 않습니다.
성능 수치가 궁금하신가요?
벤치마크 결과 보기 →인터랙티브 데모
텍스트를 입력하거나 예시를 선택하면, ZENT PII Gateway이 개인정보를 실시간으로 탐지합니다.
원본 없이 LLM에 전달되는 메타 정보
벤치마크
자체 테스트 데이터셋 기반 벤치마크입니다. 데이터셋 구성, 메트릭 정의, 한계를 모두 공개합니다.
full 데이터셋 5,578건 기준. support 5건 미만 유형은 통계적 의미 제한으로 제외.
| 솔루션 | Pass Rate | Recall | FP Rate | Latency |
|---|---|---|---|---|
| ZENT PII Gateway ours | 98.5% | 0.9949 | 0.00% | 63ms |
| PIILOT Original | 72.0% | 0.6086 | 5.79% | 38ms |
| Microsoft Presidio | 4.0% | 0.2108 | 32.11% | 4ms |
| spaCy ko NER | 4.0% | 0.0000 | 0.00% | 4ms |
동일 데이터셋(positive 200건 + negative 380건) 기준. Presidio/spaCy는 한국어 최적화 미적용 상태.
벤치마크 투명성 안내
본 수치는 자체 생성 테스트 데이터(양성 200건 + 음성 380건) 기반이며, 외부 독립 평가는 아닙니다. Precision, Recall, F1 모두 측정하고 있으며, 양성 케이스의 라벨은 전수 검증을 통해 보강되었습니다. 데이터셋 구성, 메트릭 정의, 재현 방법은 벤치마크 리포트에서 확인하실 수 있습니다.