생성형 AI는 무엇일까? 이는 기존 데이터를 학습하여 새로운 창작물을 만들어내는 인공지능을 뜻한다. 말 그대로, 존재하는 데이터들을 학습하여 창작물을 만들어내는 것이기에 이 과정에서 기존 창작물과의 유사성 문제가 발생할 수 있다. 이번 주제는 이러한 생성형 AI가 피해갈 수 없는 표절 문제에 대해 다루고 있다.
AI 표절이란?
AI 표절(AI plagiarism)이란 인공지능을 통해 생성한 콘텐츠가 기존에 존재하는 콘텐츠를 무단으로 복제하거나 원작자의 콘텐츠처럼 보이도록 변형한 것을 의미한다. 최근 Chat GPT와 같은 생성형 AI가 나이, 직업과 관계없이 다양한 분야에서 사용되고 있는데 이는 생성형 AI가 누구나 쉽게 접근하여 콘텐츠를 생성하고 사용할 수 있다는 용이함이 있기 때문이다. 때문에 저작권 침해, 표절과 같은 문제들이 태생적으로 발생하게 되는데 이와 같은 문제들은 창작자의 권리를 침해하여 상업적 손해를 야기하거나 창작 동기를 저하시킬 수 있다. 이를 해결하기 위해서 적절한 탐지 도구가 필요하고 기업과 사용자 모두 높은 의식 수준이 필요하다. 우리가 흔히 볼 수 있는 기사, 뉴스와 같은 것도 엄연한 창작물이기에 이것 역시 보호 조치가 필요하다. 사용자는 AI가 생성한 콘텐츠인지 여부를 항상 염두에 두어야 한다. 앞서 말했듯, 생성형 AI가 기존 데이터를 학습하기 때문에 이와 유사한 창작물을 만들 가능성을 인지해야 한다는 것이다.
AI 표절 탐지기는 머신러닝과 자연어 처리 기술이 중심적 역할을 한다. 두 가지 기술을 설명하자면 다음과 같다.
머신러닝: 대규모 데이터 시트에서 일관성, 맥락성 등 여러 패턴을 식별하여 유사성 측정
자연어 처리 기술: AI가 갖는 언어적, 구조적 특징을 찾아내 생성 여부 파악
AI 표절 탐지 기술은 이 두 가지 기술을 기반으로 다양한 세밀한 기술을 활용해 AI 생성 콘텐츠를 검출한다.
분류기 (Classifier): 콘텐츠의 톤, 스타일, 문법적인 특징 등을 식별한 뒤, 일반적인 패턴을 비교하여 표절여부를 판단
임베딩 (Embedding): 유사한 의미를 가진 단어들이 수치적으로 가깝게 표현되며, 형성된 의미와 벡터화된 수치는 단어의 빈도, 언어 패턴, 구조 분석, 의미 분석 등에 활용
퍼플렉시티 (Perplexity, 임의성): AI 모델이 새로운 텍스트를 접했을 때, 얼마나 새로운지를 나타내는 임의성 척도
버스티니스 (Burstiness, 임의성의 균일성): 문장 구조나, 길이 및 문장의 복잡성 등 전반적인 글의 구성과 변화를 측정
AI 표절 탐지기
AI 표절 탐지기는 앞서 설명한 다양한 기술들을 활용해 AI의 콘텐츠 생성 여부를 확인해 주는 것을 목표로 하는 도구이다. 참고 리포트에서 설명한 탐지기 외에도 한국 인공지능 기업 '무하유'에 대해 설명해보려 한다.
TraceGPT: 텍스트를 업로드하면, 텍스트의 유사성 등을 분석하여 표절 여부를 확인할 수 있는 정보를 제공
Hive: 텍스트뿐만 아니라 이미지, 비디오, 오디오에 대해서 AI 표절 여부를 검사
무하유: 논문 표절 식별 전문 스타트업 '무하유'는 생성형 AI의 등장으로 21-22년도에는 19-20년도에 비해 저조한 성적을 보인 바 있다.자료=무하유그러던 중, 해외 탐지기가 정확도가 높지 않다고 판단한 '무하유'는 자체 기술 개발을 하게 되는데 이때 개발된 것이 바로 ‘GPT킬러’이다. 생성형 AI가 글을 쓰는 과정을 역으로 이용한 것이다. GPT킬러는 문장 속 각 단어들의 확률값을 추정해 AI 작성 여부를 판단한다. 단어마다 확률값이 일정한 수준에 머물러 있으면 AI가 작성했다고 의심할 수 있는 것이다. 이러한 GPT 킬러를 사용한다면 무분별하게 사용되는 Chat GPT와 관련한 부작용을 막을 수 있다.
생성형 AI의 부작용을 막기 위해서는 적절한 탐지 도구가 필요하기도 하지만, 이보다 더 중요한 건 우리 모두가 생성형 AI가 가져오는 문제의 심각성을 깨달아야 한다는 것이다. 우리는 AI 콘텐츠들을 비판적 시각으로 바라볼 수 있어야 하며 사용하게 되더라도 저작권과 같은 문제가 발생할 수 있다는 사실을 인식하고 책임감을 가져야 한다.