NISI20250205_0001763558_web_20250205153657_20251113182217976.jpg?type=w800

숭실대 인공지능안전성연구센터 '국내외 AI 보안성·안전성 평가' 결과 공개
안정성·보안성 모두 국내 모델이 해외 모델에 비해 전반적으로 낮은 수준
공격 체계적으로 시험하고 취약점 찾아내는 전담 테스트 환경 필요성 제기
[서울=뉴시스] 이미지 재판매 및 DB금지.

[서울=뉴시스]송혜리 기자 = 국내 거대언어모델(LLM)의 보안성과 안전성이 해외 주요 모델에 비해 전반적으로 뒤처진다는 연구 결과가 나왔다.

유해한 요청 차단 능력부터 탈옥 공격에 대한 방어력, 위험 행동을 유발하는 질문에 대한 통제력까지 전 영역에서 국내 모델이 해외 모델에 뒤처지는 것으로 나타나면서 국가 차원의 상시적·지속적 AI 보안 검증 체계 구축이 시급하다는 지적이 나왔다.

숭실대학교 인공지능(AI)안전성연구센터는 13일 서울역 공간모아에서 세미나를 열고 '국내외 파운데이션 모델 AI 보안성·안전성 평가' 결과를 공개했다.

숭실대 AI안전성연구센터는 AI 보안(Security for AI) 기술을 전문적으로 연구하는 기관이다. 현재 80여명의 연구원이 참여해 운영되고 있으며 AI 시스템을 대상으로 하는 공격·방어 기술, 안전성 평가, 신뢰성 검증 등 기술 분야를 폭넓게 다루고 있다.

최대선 숭실대 AI안전성연구센터장은 "국내에서도 LLM을 많이 개발하고 있고, 또 정부 주도로 독자적인 파운데이션 모델 구축이 진행되고 있는 만큼, 국내 모델에 대해서도 체계적인 평가와 테스트가 필요하다고 판단했다"고 말했다.

아울러 "이번 연구는 국내 모델의 현재 수준을 객관적으로 점검하고 이를 바탕으로 국내 AI 모델의 보안성과 안전성을 강화하기 위해 무엇을 해야 하는지 논의할 수 있는 출발점이 될 것이라고 생각한다"고 덧붙였다.

국내외 20개 모델 대상 57종 검증

이번 평가에서 센터는 국내 LLM 10종과 해외 LLM 10종 등, 총 20개 모델을 대상으로 보안·안전성 테스트를 실시했다. 평가대상은 1.2B 규모의 소형 모델부터 660B급 초대형 모델까지 폭넓게 구성했다. 해외 모델들은 모델의 명칭을 명시했고 국내 모델들은 익명화를 진행했다.

테스트는 객관적 벤치마크 데이터와 최신 공격 유형에 기반해 수행했다. 공격은 ▲3개 분류 ▲7개 방법 ▲총 57종의 유형으로 구성했으며, 센터가 자체 개발한 기법도 포함했다. 평가 범위는 안전성(Safety)·보안(Security) 전반은 물론 영어·한국어 등 다양한 언어 기반 취약성까지 포괄했다.

나현식 숭실대 AI안전성연구센터 연구교수는 "모델 단독 실행 환경(no guardrail)과 실제 서비스 환경에서의 통합 실행 환경(with guardrail)을 분리해 평가했다는 점이 이번 검증의 차별점"이라며 "이는 모델 자체의 보안성과 서비스 단계에서 적용되는 추가 안전장치의 효과를 분리해 검증하기 위한 것"이라고 설명했다.

해외 모델 비교해 아직 부족한 수준…지속적인 검증·평가 인프라 필요해

검증 결과, 국내 모델은 안정성과 보안성 모두에서 해외 모델에 비해 전반적으로 낮은 수준인 것으로 나타났다.

우선 안정성 평가에서 국내 모델의 종합 평균 점수는 영어 55.2점, 한국어 60.6점으로 집계됐다. 반면 해외 모델은 영어 67.8점, 한국어 69.8점을 기록했다. 해외 모델과 비교하면, 국내 모델의 안정성은 영어에서 약 81.4%, 한국어에서는 약 86.8% 수준에 그친 것으로 나타났다.

보안성 평가에서는 격차가 더 크게 나타났다. 국내 모델의 평균 점수는 영어 38점, 한국어 36점으로 조사됐으며, 해외 모델은 각각 50.5점, 45.5점을 기록했다. 이 결과 국내 모델의 보안성은 영어 기준 해외 모델의 약 75.2%, 한국어 기준 약 79.1% 수준에 머물러, 전반적으로 해외 모델보다 보안성이 낮은 것으로 평가됐다.

나현식 교수는 "국내 모델은 한국어 세이프티 튜닝은 어느 정도 이뤄진 것으로 보이지만, 영어 대응은 더 개선이 필요하다"며 "모델 단독 실행이든 서비스 통합 환경이든 전반적으로 해외 모델이 더 높은 안전성을 보였다"고 설명했다.

이어 나 교수는 "이번 검증을 통해 국내에도 'AI 레드 티밍 플레이그라운드' 구축이 필수적이라는 결론에 도달했다"고 말했다. AI 레드티밍 플레이그라운드는 다양한 공격 기법을 체계적으로 시험하고 모델 취약점을 지속적으로 찾아내는 전담 테스트 환경을 말한다.

나 교수는 "평가 과정이 예상보다 훨씬 복잡하고 절차도 까다로운 만큼, 이러한 검증을 안정적·지속적으로 수행할 인프라가 반드시 마련돼야 한다"고 강조했다.