AI Humanizer가 실제로 작동합니까? 우리는 그것들을 테스트했고 이것이 우리가 발견한 것입니다

먼저 AI 생성 텍스트를 생성하는 ChatGPT와 기타 Generative Pre-Trained Transformer를 사용했습니다. 다음으로 AI를 사용하여 사람들이 인공 지능을 사용하고 있는지 여부를 판단하는 AI 감지기가 있었습니다. 인공 지능 진화의 다음 단계인 AI 휴머나이저(AI Humanizer)는 AI를 사용하여 AI 텍스트를 변경하므로 다른 AI가 AI에서 생성된 텍스트를 발견하지 못합니다. 그게 미친 소리로 들린다면 아마도 그럴 것입니다. 그러나 시중에는 이를 정확하게 수행할 수 있는 수십 가지 AI Humanizer 도구가 있습니다.

그렇다면 휴머나이저는 무엇을 하는가? AI Humanizer는 AI 생성 텍스트를 다시 작성하여 탐지 도구가 기계가 작성한 것으로 식별할 수 없는 콘텐츠를 생성합니다. AI 생성 콘텐츠에는 가장 일반적인 단어와 구문 사용, 어조 변화 부족, 균일한 길이의 문장 사용 등 탐지기가 찾는 “알림”이 있습니다. 따라서 휴머나이저는 일반적인 단어를 덜 일반적인 단어로 바꾸고, 문장을 바꾸어 표현하고, 문장의 어조나 길이를 다양하게 변경하여 이러한 경품을 피하려고 합니다.

각 AI Humanizer는 서로 다른 알고리즘을 가지므로 우리가 테스트한 것 중 일부는 합리적으로 인간처럼 들리는 글을 생성했고 일부는 읽을 수 없는 gobbledegook을 제공했습니다. 테스트 프로세스는 우리가 시도한 10가지 휴머나이저 목록과 함께 방법론 섹션에서 더 자세히 설명됩니다.

인간화된 텍스트는 종종 AI 탐지기에 실패합니다.

Quillbot AI 감지기에서 100% AI 점수를 받은 Quillbot의 인간화된 텍스트를 보여주는 스크린샷

AI 휴머나이저의 효과를 테스트하는 가장 쉬운 방법은 AI 탐지 소프트웨어를 통해 텍스트를 실행하는 것입니다. 콘텐츠가 인공지능에 의해 생성되었는지 여부를 식별하고 평가하도록 설계된 도구입니다. 감지기는 알고리즘을 사용하여 AI가 생성했음을 나타내는 패턴, 불일치 또는 마커를 찾아냅니다.

Smodin, Quillbot 및 UnDetectable AI는 AI 감지 기능과 AI Humanizer 기능을 모두 제공합니다. AI Humanizer의 결과 중 일부는 자체 AI 탐지기를 통과하지도 못했습니다. Smodin의 AI 감지 도구는 인간화된 텍스트에 0% 인간 점수를 부여했지만 Quillbot은 완전히 속아서 이를 100% 인간으로 간주했습니다. 탐지 점수는 다양한 AI 탐지기에서 일관되지 않습니다. Quillbot에서 받은 인간화된 텍스트를 Quillbot AI 감지 도구를 통해 입력했는데 AI 점수가 100%로 반환되었습니다. 감지할 수 없는 AI는 자체(및 기타) AI 감지를 통과했습니다.

AI 탐지기에 의해 결과가 표시된 다른 AI Humanizer로는 Sapling AI 탐지에서 80% AI로 간주된 Humanize AI와 Quillbot에서 100% AI 점수를 받은 WriteHuman이 있습니다.

인간화된 텍스트는 AI 탐지기를 통과할 수 있지만 여전히 AI처럼 들립니다.

하지만 AI 탐지 테스트를 통과할 수 있다는 것이 전부는 아닙니다. 인간화된 텍스트는 탐지 소프트웨어에 의해 100% 인간으로 판별될 수 있지만 여전히 로봇처럼 들리거나 읽을 수 없거나 완전히 횡설수설하는 것 같습니다. 감지할 수 없는 AI의 인간화된 텍스트는 감지기에서 좋은 점수를 받았지만 “LinkedIn Premium은 LinkedIn 학습을 향상시키는 프로필 구독 보기입니다.”와 같은 말도 안되는 문장을 포함했습니다.

가독성은 인간이 생성한 콘텐츠 점수와 일치하지 않는 경우가 많습니다. Smodin의 인간화된 텍스트는 일부 AI 탐지 도구에서 좋은 점수를 받았지만 처음에 ChatGPT가 작성한 것보다 확실히 덜 인간적으로 들리는 문구를 포함했습니다. Humbot의 인간화된 텍스트는 다양한 AI 탐지기에서 40%와 25%의 점수를 얻었으며, 이는 텍스트가 그렇지 않은 것보다 더 인간적인 것으로 간주되었음을 나타냅니다. 그러나 실제 텍스트는 왜곡되어 원본 텍스트와 거의 관련이 없습니다. “Apple ID를 탭하세요”를 “Apple ID를 탭하세요”로 다시 썼습니다.

탐지 테스트에서 어떤 결과가 가장 잘 나올지 예측할 수 없었습니다. ContentShake AI는 Rephrase, Casual 및 Improve를 포함하여 인간화된 출력에 대한 여러 옵션을 제공합니다. 나는 Rephrase 옵션이 읽기에 가장 즐겁지 않다는 것을 알았습니다. “LinkedIn Premium 이해”라는 제목을 “LinkedIn Premium 파악”으로 변경했는데, 이는 동일한 의미를 전혀 전달하지 않습니다. 비록 점수가 좋지는 않았지만 캐주얼 및 개선 모드로 생성된 출력보다 점수가 더 좋았습니다. 비록 이 인간에게 훨씬 더 잘 쓰여진 것처럼 보였지만 말입니다.

일부 AI Humanizer는 실제로 꽤 좋습니다.

인간 작가로서 나는 로봇으로 대체되고 싶지 않지만 꽤 잘 수행한 두 명의 AI 휴머나이저에게 공을 돌릴 필요가 있습니다. Surfer SEO와 AI Text Humanizer는 모두 완벽하게 읽을 수 있는 사본을 생성했습니다. 동의어나 잘못된 문장 구조에 있어서 이상할 정도로 이상한 선택은 없었습니다. 그러나 AI Text Humanizer의 출력은 텍스트가 쉼표와 같은 구두점을 놓치고 영국식 철자와 미국식 철자 사이에서 미끄러져 동일한 기사에서 “취소”라는 단어의 철자를 두 가지로 작성하므로 정리가 필요합니다. Surfer와 AI Text Humanizer는 모두 AI 탐지 테스트를 통과했으며 Quillbot은 두 글 모두 100% 인간의 글임을 선언했습니다. 물론 원본 텍스트가 지루했기 때문에 결과 텍스트도 여전히 지루했고, 이러한 제품은 읽기를 더 즐겁게 만들도록 설계되지 않았습니다.

나는 ChatGPT에서 “재치 있고, 친근하며, 매력적”이어야 하고 “한 친구가 다른 친구에게 조언을 주는 것처럼 읽어야 한다”는 프롬프트를 사용하여 더 흥미로운 것을 만들려고 노력했습니다. 이 접근 방식을 사용하면 AI 글쓰기 감지가 약간 더 어려워지며, 인간화 전 점수는 AI 54%였습니다. Surfer가 다시 작성한 후 29%의 점수를 얻었지만 첫 번째 시도만큼 성공적이지는 않았습니다. AI Text Humanizer 버전은 AI 점수 0% 획득에 성공했습니다. 두 경우 모두 인간화된 텍스트는 ChatGPT의 원본보다 눈에 띄게 낫지는 않았지만 그렇다고 더 나쁘지도 않았습니다.

휴머나이저는 단지 자동화된 동의어 사전인가요?

우리가 시도한 휴머나이저들은 기사 전체의 의미를 전혀 이해하지 못하는 것 같았고, 많은 사람들이 우리가 제시한 예의 맥락에서 전혀 의미가 없는 변경을 했습니다. 많은 휴머나이저가 텍스트에서 단어를 가져와 동의어 사전에서 복사하여 붙여넣는 것과 동일한 디지털 작업을 수행했습니다.

Merlin(AI 탐지기 요약에서 가장 낮은 점수를 받은 동일한 소프트웨어)은 “그러나 요구 사항이 발전함에 따라 일부 사용자는 구독을 중단하기로 결정할 수 있습니다”라는 문장을 불필요하게 복잡한 대응으로 변경했습니다. “그럼에도 불구하고 삶의 급진적인 변화로 인해 많은 사용자는 필요에 따른 전략에 따라 구독을 중단하는 선택을 할 가능성이 있습니다.” 이런 결과는 <프렌즈>에서 조이가 동의어 사전을 통해 발견하고 “따뜻하고 마음이 넓은 좋은 사람들이다”라고 다시 쓴 에피소드와 같다. “그들은 습하고, 완전한 크기의 대동맥 펌프를 갖고 있는 호모 사피엔스입니다.”

Word의 동의어 옵션을 사용하여 샘플 텍스트의 단어를 수동으로 바꿔 보았습니다. 이는 AI가 생성한 콘텐츠를 위장하는 상당히 노동 집약적인 방법이지만(마우스 오른쪽 버튼을 많이 클릭해야 함) AI 휴머나이저의 결과를 복제할 수 있는지 궁금했습니다. 결과는 다르지 않았습니다. 내가 업데이트한 텍스트는 Joey의 버전보다 약간 덜 혼란스러웠으며 Quillbot의 AI 탐지기에서 57%의 AI 점수를 받았습니다. 이는 ContentShake AI의 인간화된 텍스트에 대해 얻은 점수와 동일하며 Quillbot 또는 WriteHuman의 점수보다 낫습니다. 그러나 휴머나이저는 단순히 단어를 바꾸는 것 외에도 다른 트릭을 사용합니다. 그들은 문장의 순서를 바꾸고 문구 전체를 다시 썼습니다. 일부는 문법 오류를 도입했지만 이것이 AI 탐지기를 속이기 위한 고의적인 계략인지 아니면 소프트웨어의 한계인지 말하기는 어렵습니다.

휴머나이저가 실제로 작동하나요?

예, 아니오. 그들은 모두 확실히 뭔가를 하고 있습니다. 각 휴머나이저는 서로 다른 방식으로 텍스트를 다시 작성했으며, 각 휴머나이저에서 원하는 만큼 이 과정을 반복하여 매번 다른 결과를 얻을 수 있습니다. AI 감지기에 대한 기사에서 살펴본 것처럼 AI 점수는 귀하 또는 작업을 확인하는 사람이 사용하기로 선택한 감지기에 따라 크게 달라집니다. 탐지를 피하려면 어떤 탐지기에 맞서는지 정확히 알아야 합니다(또는 수십 개의 탐지기를 통해 인간화된 텍스트를 실행할 준비를 해야 합니다).

ChatGPT와 같은 AI 대규모 언어 모델을 통해 텍스트를 생성하기로 결정한 경우 가장 좋은 방법은 감지를 피하기 위해 복사본을 직접 다시 작성하는 것입니다. 또는 ChatGPT를 사용하여 주제에 대한 일반적인 개요를 생성하고 거기에서 작품을 작성할 수 있습니다. AI를 사용하여 글쓰기를 하면 시간이 절약되지만, 인간화된 AI 텍스트가 잘 읽고, 이해되고, 말하려는 내용의 의미를 유지했는지 철저하게 확인해야 합니다.

이러한 도구를 사용하면 AI 대규모 언어 모델이 AI 생성 콘텐츠에 대해 점점 더 많이 훈련되어 훨씬 더 동질적이고 단조로운 AI 콘텐츠로 이어지는 AI 회귀 문제가 더욱 복잡해집니다.

방법론

이 기사를 작성하기 위해 우리는 Quillbot, Smodin, UnDetectable AI, Humanize AI, ContentShake AI, Surfer SEO, AI Text Humanizer, Merlin, WriteHuman 및 Humbot 등 10개의 휴머나이저를 테스트했습니다. 우리는 모두 사용 제한이 있고 정기적으로 사용하는 경우 유료 요금제로 업그레이드해야 하는 무료 요금제를 고수했습니다. 모든 휴머나이저에서 동일한 ChatGPT 텍스트를 사용했습니다. 이것은 AI 감지기를 테스트할 때 사용한 AI 생성 링크드인 글이었지만, 휴머나이저의 무료 계획 글자 수 제한을 초과하는 부분이 있어서 줄여야 했습니다.

AI 탐지 소프트웨어에 대해 결과를 테스트할 때 다양한 결과를 얻기 위해 다양한 AI 탐지기를 사용하려고 했습니다. 하지만 AI 감지기의 무료 요금제에 대한 사용 제한으로 인해 제한이 있었습니다. Quillbot은 AI 탐지 기사에서 높은 점수를 받았고 무제한 무료 사용이 가능했기 때문에 많이 사용했습니다. AI 감지 점수를 인용하고 어떤 감지기를 사용했는지 지정하지 않은 경우 Quillbot입니다.

마지막으로 이 글은 인공적이지 않은 인간 작가가 전적으로 썼다는 점을 다시 한 번 말씀드리고 싶습니다. 나는 또한 독자인 당신이 로봇이 아니라 또 다른 인간이라고 순진하게 가정하고 있습니다. 웹에는 AI로 작성되고, AI로 인간화되고, AI로 확인된 기사가 전적으로 AI 봇에 의해 소비될 수 있지만 여기서는 그렇지 않습니다.