광고 없이 OpenAI는 최근 웹 크롤러에 대한 세부 정보를 추가했습니다. GPTBot, 온라인 설명서 사이트로 이동합니다. GPTBot은 회사에서 GPT-4와 같은 ChatGPT 뒤에 있는 인공 지능 모델을 교육하기 위해 웹 페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다. 이번 주 초 일부 사이트에서 그들은 빨리 그들의 의도를 발표했습니다. GPTBot이 콘텐츠에 액세스하지 못하도록 방지합니다.

새로운 문서에서 OpenAI는 GPTBot으로 크롤링된 웹 페이지가 “향후 모델을 개선하는 데 사용될 가능성이 높으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 전반적인 기능과 보안을 개선하는 데 도움이 될 수 있다”고 말합니다.

OpenAI는 GPTBot이 페이월 뒤에 있는 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 액세스하지 않도록 하는 필터를 구현했다고 주장합니다.

OpenAI 교육을 차단할 수 있다는 소식(귀하가 존중하는 경우)은 몇 년 전에 발표 없이 폐기된 ChatGPT 또는 GPT-4의 기존 교육 데이터에 영향을 미치기에는 너무 늦었습니다. OpenAI는 OpenAI 언어 모델의 현재 “인지” 컷오프인 2021년 9월까지 데이터를 수집했습니다.

새로운 지침은 주목할 만하다. 아마 ChatGPT 또는 ChatGPT 플러그인의 웹 브라우징 버전이 기존 웹사이트에 액세스하여 업데이트된 정보를 사용자에게 전달하는 것을 방지합니다. 이 점은 문서에 설명되어 있지 않으며 설명을 위해 OpenAI에 문의했습니다.

정답은 robots.txt 파일에 있습니다.

OpenAI에 따르면 선적 서류 비치GPTBot은 전체 문자열이 “Mozilla/5.0 AppleWebKit/537.36(KHTML, Gecko와 동일, 호환 가능, GPTBot/1.0, + https://openai.com/gptbot)인 사용자 에이전트 토큰 “GPTBot”에 의해 인식됩니다. “.

OpenAI 문서는 또한 GPTBot이 업계 표준을 사용하여 웹사이트를 크롤링하는 것을 방지하는 방법에 대한 지침을 제공합니다. robots.txt 파일 파일은 사이트를 인덱싱하지 않도록 웹 크롤러(예: 검색 엔진에서 사용하는 크롤러)에 지시하는 웹 사이트의 루트 디렉터리에 있는 텍스트 파일입니다.

사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.

User-agent: GPTBot
Disallow: /

OpenAI는 또한 관리자가 다른 코드가 있는 robots.txt 파일에서 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

또한 OpenAI는 다음을 도입했습니다. 특정 IP 주소 블록 GPTBot이 실행되고 방화벽에 의해 차단될 수도 있습니다.

이 옵션에도 불구하고 GPTBot을 차단해도 위치 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. robots.txt 파일을 무시하는 스크레이퍼 문제 외에도 스크랩한 웹사이트의 다른 대규모 데이터 세트(예: 말뚝)는 OpenAI와 제휴하지 않습니다. 이러한 데이터 세트는 일반적으로 Meta의 Llama 2와 같은 오픈 소스(또는 오픈 소스) LLM을 교육하는 데 사용됩니다.

일부 웹사이트는 빠르게 반응합니다.

ChatGPT는 기술적 관점에서 큰 성공을 거두었지만 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 온라인 퍼블리싱 모델을 우회하는 상용 제품에 집중시킨 방식에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절로 고발(및 고소)되었습니다.

따라서 일부 사람들이 향후 GPT 형식에서 자신의 콘텐츠를 차단할 수 있다는 소식에 일종의 억눌린 반응을 보이는 것은 놀라운 일이 아닙니다. 내가 듣고. 예를 들어 화요일에 VentureBeat 남성 저것 모서리하위 스택 작성기 케이시 뉴튼그리고 닐 클라크 Clarkesworld에서 그들은 모두 봇에 대한 뉴스가 나온 직후 GPTBot을 차단하겠다고 말했습니다.

그러나 대규모 웹 사이트 운영자의 경우 LLM 크롤러를 차단하는 옵션이 생각보다 쉽지 않습니다. 일부 LLM이 특정 웹사이트의 데이터를 무시하도록 하면 일부 사이트(예: ChatGPT가 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식 격차가 남지만 다른 사이트에 피해를 줄 수도 있습니다. 예를 들어 향후 AI 모델의 콘텐츠를 차단하면 지능형 챗봇이 향후 기본 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 자사 웹 사이트를 색인화하는 것을 원하지 않는다고 발표한 온라인 회사를 상상해 보십시오. 이는 온라인에서 정보를 찾는 가장 인기 있는 방법이었을 때 자멸적인 조치였습니다.

생성 AI 게임의 초기 단계이며 기술이 어떤 방식으로 진행되든 개별 사이트에서 AI 모델 교육을 거부하려고 시도하더라도 최소한 OpenAI는 옵션을 제공합니다.

READ  무선 통신 사업자가 iPhone 14s를 무료로 제공할 수 있는 이유

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

Apple과 Google이 팟캐스트를 듣는 방식을 바꾸고 있습니다.

이거 야 핫팟, 모서리’팟캐스팅과 오디오 산업에 관한 뉴스레터입니다. 신청 여기 이상. 안녕하세요…

Apple은 사상 최초의 “신속한” 패치를 추진하고 있으며 기록을 빠르게 망칩니다.

월요일에 Apple은 일부 iPhone 및 Mac에 최초의 빠른 보안 수정 사항을 적용했습니다.…

iPhone 16 Ultra: 지금까지의 모든 소문

Apple은 올해 iPhone 15 출시로 휴대폰 라인업을 그대로 유지했지만, 2024년에는 iPhone 16…

버그 수정을 위한 iOS 17.2.1

Apple이 iPhone 및 iPad용 주요 소프트웨어 업데이트를 출시한 지 불과 일주일 만에,…