광고 없이 OpenAI는 최근 웹 크롤러에 대한 세부 정보를 추가했습니다. GPTBot, 온라인 설명서 사이트로 이동합니다. GPTBot은 회사에서 GPT-4와 같은 ChatGPT 뒤에 있는 인공 지능 모델을 교육하기 위해 웹 페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다. 이번 주 초 일부 사이트에서 그들은 빨리 그들의 의도를 발표했습니다. GPTBot이 콘텐츠에 액세스하지 못하도록 방지합니다.
새로운 문서에서 OpenAI는 GPTBot으로 크롤링된 웹 페이지가 “향후 모델을 개선하는 데 사용될 가능성이 높으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 전반적인 기능과 보안을 개선하는 데 도움이 될 수 있다”고 말합니다.
OpenAI는 GPTBot이 페이월 뒤에 있는 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 액세스하지 않도록 하는 필터를 구현했다고 주장합니다.
OpenAI 교육을 차단할 수 있다는 소식(귀하가 존중하는 경우)은 몇 년 전에 발표 없이 폐기된 ChatGPT 또는 GPT-4의 기존 교육 데이터에 영향을 미치기에는 너무 늦었습니다. OpenAI는 OpenAI 언어 모델의 현재 “인지” 컷오프인 2021년 9월까지 데이터를 수집했습니다.
새로운 지침은 주목할 만하다. 아마 ChatGPT 또는 ChatGPT 플러그인의 웹 브라우징 버전이 기존 웹사이트에 액세스하여 업데이트된 정보를 사용자에게 전달하는 것을 방지합니다. 이 점은 문서에 설명되어 있지 않으며 설명을 위해 OpenAI에 문의했습니다.
정답은 robots.txt 파일에 있습니다.
OpenAI에 따르면 선적 서류 비치GPTBot은 전체 문자열이 “Mozilla/5.0 AppleWebKit/537.36(KHTML, Gecko와 동일, 호환 가능, GPTBot/1.0, + https://openai.com/gptbot)인 사용자 에이전트 토큰 “GPTBot”에 의해 인식됩니다. “.
OpenAI 문서는 또한 GPTBot이 업계 표준을 사용하여 웹사이트를 크롤링하는 것을 방지하는 방법에 대한 지침을 제공합니다. robots.txt 파일 파일은 사이트를 인덱싱하지 않도록 웹 크롤러(예: 검색 엔진에서 사용하는 크롤러)에 지시하는 웹 사이트의 루트 디렉터리에 있는 텍스트 파일입니다.
사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.
User-agent: GPTBot Disallow: /
OpenAI는 또한 관리자가 다른 코드가 있는 robots.txt 파일에서 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
또한 OpenAI는 다음을 도입했습니다. 특정 IP 주소 블록 GPTBot이 실행되고 방화벽에 의해 차단될 수도 있습니다.
이 옵션에도 불구하고 GPTBot을 차단해도 위치 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. robots.txt 파일을 무시하는 스크레이퍼 문제 외에도 스크랩한 웹사이트의 다른 대규모 데이터 세트(예: 말뚝)는 OpenAI와 제휴하지 않습니다. 이러한 데이터 세트는 일반적으로 Meta의 Llama 2와 같은 오픈 소스(또는 오픈 소스) LLM을 교육하는 데 사용됩니다.
일부 웹사이트는 빠르게 반응합니다.
ChatGPT는 기술적 관점에서 큰 성공을 거두었지만 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 온라인 퍼블리싱 모델을 우회하는 상용 제품에 집중시킨 방식에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절로 고발(및 고소)되었습니다.
따라서 일부 사람들이 향후 GPT 형식에서 자신의 콘텐츠를 차단할 수 있다는 소식에 일종의 억눌린 반응을 보이는 것은 놀라운 일이 아닙니다. 내가 듣고. 예를 들어 화요일에 VentureBeat 남성 저것 모서리하위 스택 작성기 케이시 뉴튼그리고 닐 클라크 Clarkesworld에서 그들은 모두 봇에 대한 뉴스가 나온 직후 GPTBot을 차단하겠다고 말했습니다.
그러나 대규모 웹 사이트 운영자의 경우 LLM 크롤러를 차단하는 옵션이 생각보다 쉽지 않습니다. 일부 LLM이 특정 웹사이트의 데이터를 무시하도록 하면 일부 사이트(예: ChatGPT가 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식 격차가 남지만 다른 사이트에 피해를 줄 수도 있습니다. 예를 들어 향후 AI 모델의 콘텐츠를 차단하면 지능형 챗봇이 향후 기본 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 자사 웹 사이트를 색인화하는 것을 원하지 않는다고 발표한 온라인 회사를 상상해 보십시오. 이는 온라인에서 정보를 찾는 가장 인기 있는 방법이었을 때 자멸적인 조치였습니다.
생성 AI 게임의 초기 단계이며 기술이 어떤 방식으로 진행되든 개별 사이트에서 AI 모델 교육을 거부하려고 시도하더라도 최소한 OpenAI는 옵션을 제공합니다.