광고 없이 OpenAI는 최근 웹 크롤러에 대한 세부 정보를 추가했습니다. GPTBot, 온라인 설명서 사이트로 이동합니다. GPTBot은 회사에서 GPT-4와 같은 ChatGPT 뒤에 있는 인공 지능 모델을 교육하기 위해 웹 페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다. 이번 주 초 일부 사이트에서 그들은 빨리 그들의 의도를 발표했습니다. GPTBot이 콘텐츠에 액세스하지 못하도록 방지합니다.
새로운 문서에서 OpenAI는 GPTBot으로 크롤링된 웹 페이지가 “향후 모델을 개선하는 데 사용될 가능성이 높으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 전반적인 기능과 보안을 개선하는 데 도움이 될 수 있다”고 말합니다.
OpenAI는 GPTBot이 페이월 뒤에 있는 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 액세스하지 않도록 하는 필터를 구현했다고 주장합니다.
OpenAI 교육을 차단할 수 있다는 소식(귀하가 존중하는 경우)은 몇 년 전에 발표 없이 폐기된 ChatGPT 또는 GPT-4의 기존 교육 데이터에 영향을 미치기에는 너무 늦었습니다. OpenAI는 OpenAI 언어 모델의 현재 “인지” 컷오프인 2021년 9월까지 데이터를 수집했습니다.
새로운 지침은 주목할 만하다. 아마 ChatGPT 또는 ChatGPT 플러그인의 웹 브라우징 버전이 기존 웹사이트에 액세스하여 업데이트된 정보를 사용자에게 전달하는 것을 방지합니다. 이 점은 문서에 설명되어 있지 않으며 설명을 위해 OpenAI에 문의했습니다.
정답은 robots.txt 파일에 있습니다.
OpenAI에 따르면 선적 서류 비치GPTBot은 전체 문자열이 “Mozilla/5.0 AppleWebKit/537.36(KHTML, Gecko와 동일, 호환 가능, GPTBot/1.0, + https://openai.com/gptbot)인 사용자 에이전트 토큰 “GPTBot”에 의해 인식됩니다. “.
OpenAI 문서는 또한 GPTBot이 업계 표준을 사용하여 웹사이트를 크롤링하는 것을 방지하는 방법에 대한 지침을 제공합니다. robots.txt 파일 파일은 사이트를 인덱싱하지 않도록 웹 크롤러(예: 검색 엔진에서 사용하는 크롤러)에 지시하는 웹 사이트의 루트 디렉터리에 있는 텍스트 파일입니다.
사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.
User-agent: GPTBot Disallow: /
OpenAI는 또한 관리자가 다른 코드가 있는 robots.txt 파일에서 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
또한 OpenAI는 다음을 도입했습니다. 특정 IP 주소 블록 GPTBot이 실행되고 방화벽에 의해 차단될 수도 있습니다.
이 옵션에도 불구하고 GPTBot을 차단해도 위치 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. robots.txt 파일을 무시하는 스크레이퍼 문제 외에도 스크랩한 웹사이트의 다른 대규모 데이터 세트(예: 말뚝)는 OpenAI와 제휴하지 않습니다. 이러한 데이터 세트는 일반적으로 Meta의 Llama 2와 같은 오픈 소스(또는 오픈 소스) LLM을 교육하는 데 사용됩니다.
일부 웹사이트는 빠르게 반응합니다.
ChatGPT는 기술적 관점에서 큰 성공을 거두었지만 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 온라인 퍼블리싱 모델을 우회하는 상용 제품에 집중시킨 방식에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절로 고발(및 고소)되었습니다.
따라서 일부 사람들이 향후 GPT 형식에서 자신의 콘텐츠를 차단할 수 있다는 소식에 일종의 억눌린 반응을 보이는 것은 놀라운 일이 아닙니다. 내가 듣고. 예를 들어 화요일에 VentureBeat 남성 저것 모서리하위 스택 작성기 케이시 뉴튼그리고 닐 클라크 Clarkesworld에서 그들은 모두 봇에 대한 뉴스가 나온 직후 GPTBot을 차단하겠다고 말했습니다.
그러나 대규모 웹 사이트 운영자의 경우 LLM 크롤러를 차단하는 옵션이 생각보다 쉽지 않습니다. 일부 LLM이 특정 웹사이트의 데이터를 무시하도록 하면 일부 사이트(예: ChatGPT가 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식 격차가 남지만 다른 사이트에 피해를 줄 수도 있습니다. 예를 들어 향후 AI 모델의 콘텐츠를 차단하면 지능형 챗봇이 향후 기본 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 자사 웹 사이트를 색인화하는 것을 원하지 않는다고 발표한 온라인 회사를 상상해 보십시오. 이는 온라인에서 정보를 찾는 가장 인기 있는 방법이었을 때 자멸적인 조치였습니다.
생성 AI 게임의 초기 단계이며 기술이 어떤 방식으로 진행되든 개별 사이트에서 AI 모델 교육을 거부하려고 시도하더라도 최소한 OpenAI는 옵션을 제공합니다.
“재화는 뛰어난 분석 능력을 가진 분석가로, 다양한 주제에 대한 깊은 통찰력을 가지고 있습니다. 그는 창조적인 아이디어를 바탕으로 여러 프로젝트를 주도해왔으며, 좀비 문화에 특별한 애정을 갖고 있습니다. 여행을 사랑하며, 대중 문화에 대한 그의 지식은 깊고 폭넓습니다. 알코올에 대한 그의 취향도 독특합니다.”