사용 가능한 최고의 AI 텍스트 감지 도구 3가지(자체 테스트에 따르면)

AI를 활용한 콘텐츠 생성은 2010년대 초반부터 가능했지만, 실제로는 2022년 11월 OpenAI의 ChatGPT-3.5가 출시되면서 본격적으로 시작되었습니다. 갑자기 모든 사람들이 LLM(대형 언어 모델)에 프롬프트를 입력하여 에세이, 취업 지원서, 소셜 미디어 게시물, 심지어 시까지 생성하는 것처럼 보였습니다. 인공적으로 생성된 텍스트의 개발과 함께 AI 탐지 도구도 빠르게 성장했습니다. Center for Democracy & Technology의 최근 연구(PDF)에 따르면 미국 교육자의 68%가 학생의 에세이를 확인하기 위해 AI 감지 도구를 사용한 것으로 나타났습니다. 그렇다면 이러한 도구는 무엇이며 어떻게 작동합니까?

감지기는 인공지능을 사용하여 인공지능을 탐지하는 방법입니다. 인간이 작성한 데이터와 AI 데이터에 대해 훈련된 알고리즘을 사용하여 반복적인 표현이나 부자연스러운 단어 빈도와 같은 언어 패턴을 분석합니다. 일부는 불일치나 피상적인 추론을 찾기도 합니다. 대부분의 AI 탐지 도구는 사람이 작성한 텍스트의 양과 AI가 생성한 텍스트의 양을 나타내는 백분율 점수를 반환합니다. LLM이 점점 더 좋아지고 있다는 점을 고려하면 이는 어려운 일입니다. 우리는 인간이 작성한 2개와 ChatGPT에서 생성한 2개, 총 4개의 텍스트를 사용하여 다양한 AI 탐지 도구를 테스트했습니다. 이에 대한 자세한 내용은 방법론 섹션에서 확인할 수 있습니다.

로봇이 쓴 것인지 확인하기 위해 다른 사람의 텍스트를 확인해야 한다면 아래의 세 가지 최고의 도구를 확인하세요. 그러나 AI 감지 도구를 사용하여 자신의 AI 생성 작업을 테스트하여 제출하고 잡히지 않으려면 주의하십시오. 우리의 테스트에서는 다양한 애플리케이션에 걸쳐 결과에 큰 차이가 있는 것으로 나타났습니다. 귀하의 작업을 확인하는 사람이 다른 AI 탐지 도구를 사용하는 경우에도 귀하는 적발될 수 있습니다.

QuillBot은 무제한 확인에 가장 적합합니다.

AI 생성 텍스트와 66% 점수를 보여주는 QuillBot AI 감지 결과의 스크린샷

QuillBot은 테스트에서 AI가 아닌 작성된 콘텐츠의 두 가지 예를 모두 성공적으로 식별하여 100% 인간 점수로 좋은 성능을 보였습니다. AI가 생성한 콘텐츠도 인식했지만 AI 사실 산문의 34%, AI 소설의 7%가 인간이 쓴 것으로 생각했다. 빠르고 무료로 사용할 수 있으며 영어, 스페인어, 독일어, 프랑스어 텍스트를 확인할 수 있습니다. 텍스트를 붙여넣거나 DOCX 또는 PDF 문서를 업로드할 수 있습니다. 무료 버전은 한 번에 1,200개로 제한되지만 실행할 수 있는 검사 수에는 제한이 없으므로 긴 텍스트를 1,200단어 이하로 나누어도 더 긴 텍스트를 확인할 수 있습니다.

또는 텍스트 길이에 제한이 없는 프리미엄 버전(월 $8.33, 연간 청구)을 지불할 수도 있습니다. QuillBot에는 Paraphraser, 표절 검사기, 콘텐츠 요약기를 포함한 다른 기능도 있습니다. “AI 생성” 및 “인간 작성” 콘텐츠에 대한 백분율 점수 외에도 “AI 생성 및 AI 정제”와 “인간 작성 및 AI 정제”라는 두 가지 다른 옵션이 있습니다. 이는 영어 버전에서만 사용할 수 있습니다. 하지만 제가 테스트한 결과 이 범주에 대한 점수는 4개 문서 모두에서 0%였습니다.

빠른 결과를 얻으려면 묘목이 가장 좋습니다.

은하수를 여행하는 히치하이커를 위한 안내서의 텍스트가 포함된 큰 텍스트 상자를 보여주는 Sapling AI Detector 페이지의 스크린샷

Sapling은 거의 즉시 결과를 반환하며 AI가 생성한 논픽션과 사람이 쓴 텍스트를 모두 정확하게 식별하는 데 완전히 성공했습니다. 그러나 AI 허구를 찾아내지 못하고 AI가 생성한 비율이 26%에 불과하다는 결과를 반환했습니다. AI 검사기는 신속하게 결과를 반환하며 무료 버전을 사용하기 위해 로그인이 필요하지 않습니다. 단, 로그인하면 더 많은 기능에 액세스할 수 있습니다.

무료 플랜은 검색당 2,000자로 제한되지만 월 $25부터 유료 플랜 중 하나로 업그레이드하거나 연간 구독하여 월 $12에 해당하는 비용을 지불할 수 있습니다. 유료 플랜은 단어 제한을 제거하고 CRM 및 Salesforce나 Gmail과 같은 이메일 플랫폼에서 사용할 수 있는 웹 통합 및 자동 완성 기능과 같은 다른 기능에 대한 액세스를 제공합니다. 그러나 단어 제한에 신경 쓰지 않는 한 무료 버전을 완벽하게 사용할 수 있습니다. 빠르고 사용하기 쉬우며 붙여넣은 텍스트, DOCX 및 PDF를 허용합니다.

Smodin은 논픽션 텍스트에 가장 적합합니다.

AI가 생성한 허구와 13% 점수를 보여주는 Smodin AI 탐지 결과의 스크린샷

Smodin은 테스트에서 인간이 생성한 콘텐츠가 0% AI로 생성되었음을 인식했습니다. 또한 AI 사실 텍스트는 96% AI라고 보고했다. ChatGPT가 작성한 소설 작품을 발견할 때 성능이 떨어지며 AI 점수는 16%입니다. 많은 탐지기는 인간이 쓴 소설과 AI가 생성한 소설의 차이를 이해하는 데 정확도가 떨어졌습니다. 논픽션에 적합한 도구만 필요한 경우 Smodin이 적합합니다.

10초 이내에 결과가 생성되었으며 DOCX 또는 PDF 파일을 업로드할 수 있습니다. 그러나 한 가지 큰 단점이 있습니다. 무료 플랜은 극히 제한되어 있어 일주일에 5번만 확인할 수 있습니다. 가장 저렴한 유료 요금제는 이 글을 쓰는 시점에 월 15달러입니다(그러나 매년 지불하는 경우에는 더 저렴합니다). 이는 QuillBot이나 Sapling보다 가격이 더 비쌉니다. 여기에는 AI 텍스트 생성, 표절 감지, 요약기, 번역기와 같은 추가 기능이 포함됩니다. 무료 요금제를 고수하는 경우 Smodin의 첫 페이지에 편리한 막대가 있어 사용 가능한 항목 수와 다음 새로 고침까지 남은 시간을 쉽게 확인할 수 있습니다.

준우승자: 상위 3위 안에 들지 못한 AI 탐지 도구

베이지색 배경에 두 개의 스크린샷이 겹쳐 있습니다. Screenshors에는 Winston 및 Copyleaks AI 감지 페이지가 표시됩니다.

Copyleaks는 상위 3위 안에 들기 위한 최고의 경쟁자였습니다. 단점은 이전 도구와 달리 무료 버전은 AI로 감지한 텍스트 양에 대한 백분율을 제공하지 않는다는 것입니다. “이것은 인간의 텍스트입니다.” 또는 “AI 콘텐츠가 감지되었습니다.”라고 표시됩니다. 4개의 텍스트 문서로는 100% 정확했지만 절반은 사람이 쓰고 절반은 AI가 생성한 글을 줬더니 단순히 “AI 콘텐츠 감지”라는 결과만 반환했습니다. 이로 인해 무료 버전은 약간 무뚝뚝한 도구가 되지만 유료 버전을 사용하면 더 많은 미묘한 차이를 얻을 수 있습니다.

Winston AI는 괜찮은 결과를 제공했습니다. 그러나 무료 플랜의 한계로 인해 크레딧이 부족해지기 전에 4개의 예제 텍스트 중 3개만 테스트할 수 있었습니다. 그것은 돌아왔다. AI가 생성한 사실적 작품에 85%의 점수를 주었는데, 이는 Sapling이나 Smodin보다 정확도가 떨어지지만 대부분의 다른 탐지기보다 AI 허구를 더 잘 탐지할 수 있었습니다.

피해야 할 AI 탐지 도구

UnDetectable AI, GPT Zero 및 Merlin AI 감지기 웹 페이지의 중복된 스크린샷을 보여주는 이미지

GPTZero를 사용하면 가입할 필요 없이 기본 스캔을 사용하여 무료로 텍스트를 스캔할 수 있습니다. 무료 계정은 다른 많은 무료 계정보다 적은 기능을 제공하지만 무료 계정에 가입하기 전에 세 번의 스캔을 허용합니다. 유료 계정을 선택한 경우 강조된 AI 구절만 볼 수 있습니다. 테스트에서는 AI가 생성한 텍스트와 사람이 작성한 텍스트 점수를 각각 98%와 0%로 제공하여 사실적인 부분에서 좋은 성능을 보였습니다. 그러나 인간과 ChatGPT 허구의 차이를 구분할 수 없었습니다. Douglas Adams의 글은 59%의 인간 점수를 받았는데, GPTZero의 의견으로는 58%를 받은 AI 생성 SciFi보다 약간 더 인간적이었습니다.

감지할 수 없는 AI는 QuillBot 및 Sapling을 포함한 여러 AI 감지 도구에 대해 텍스트를 확인한다고 주장합니다. 그러나 그 결과는 도구를 직접 사용할 때 얻은 결과와 일치하지 않았습니다. 4개의 테스트 기사는 모두 사람이 작성한 것으로 돌아왔습니다. 놀랄 만큼 나쁜 ChatGPT 예제를 붙여넣어 일부 AI 콘텐츠를 감지할 수 있었지만, UnDetectable이 AI에 의해 제작되었다고 생각하려면 글이 부자연스럽고 진부해야 합니다.

우리가 테스트한 최악의 AI 탐지 도구는 Merlin AI였습니다. Merlin AI의 점수는 작문 예제가 생성된 방식과 거의 유사하지 않았습니다. 내 실제 기사의 AI 점수는 40%로, 적어도 78%를 기록한 GPT 버전보다 약간 더 인간적이라고 생각했습니다. AI 허구를 탐지하는 데 있어서는 완전히 빔이 아니었습니다. ChatGPT의 이야기는 45%가 AI로 생성된 것으로 나타났고, Merlin의 의견에 따르면 “은하수를 여행하는 히치하이커를 위한 안내서”의 서문은 97%가 AI로 생성되었는데, 이는 1979년에 출판된 책에 비해 상당한 위업입니다.

방법론

유사한 이미지 및 비디오 도구도 사용할 수 있지만 텍스트 기반 AI 탐지 도구만 테스트했습니다. 모든 제품에는 고급 유료 옵션이 함께 제공되지만 무료로 사용할 수 있는 제품에 중점을 두었습니다. 우리는 네 가지 텍스트를 사용했습니다. 두 개는 사실에 관한 기사였고 두 개는 허구였습니다. 사실적인 내용을 위해 저는 전적으로 사람이 작성한 LinkedIn 기사의 단어를 사용했습니다. 그런 다음 ChatGPT에서 동일한 제목으로 비슷한 길이의 기사를 생성했습니다.

원본 소설과 AI가 생성한 콘텐츠를 찾아내는 데 도구가 얼마나 좋은지 확인하기 위해 저는 Douglas Adams의 “은하수를 여행하는 히치하이커를 위한 안내서”의 서문을 사용했습니다. 그런 다음 처음 18개 단어(“은하 서쪽 나선 팔의 유행에 뒤떨어진 끝 부분의 미지의 역류에서 멀리 떨어져 있습니다…”)를 가져와 ChatGPT에 이를 공상과학 소설의 처음 600개 단어의 출발점으로 사용하라고 지시했습니다. -fi 소설. ChatGPT 답변 주변의 프레임 텍스트를 제거했지만 다른 변경 사항은 적용하지 않았습니다.

AI 탐지 도구는 정확성에 따라 점수가 매겨졌습니다. 또한 무료 플랜에 대해 지나치게 제한적인 제한 없이 도구가 얼마나 사용하기 쉬운지 고려하고 도구에 더 높은 순위를 부여했습니다. 결과를 판단하면서 우리는 AI 콘텐츠가 누락되는 위음성(false negatives)보다 오탐(사람이 작성한 텍스트를 AI로 보고하는 경우)이 더 큰 문제라고 고려했습니다. 이는 AI 모델이 지속적으로 개선됨에 따라 인간이 생성하지 않은 일부 콘텐츠가 네트워크를 빠져나가게 되어 성가시게 되기 때문입니다. 그러나 인간이 쓴 산문이 AI로 표시되는 결과는 훨씬 더 크고 완전히 무시될 수 있는 심각한 결과를 초래할 수 있습니다.