광고 없이 OpenAI는 최근 웹 크롤러에 대한 세부 정보를 추가했습니다. GPTBot, 온라인 설명서 사이트로 이동합니다. GPTBot은 회사에서 GPT-4와 같은 ChatGPT 뒤에 있는 인공 지능 모델을 교육하기 위해 웹 페이지를 검색하는 데 사용하는 사용자 에이전트의 이름입니다. 이번 주 초 일부 사이트에서 그들은 빨리 그들의 의도를 발표했습니다. GPTBot이 콘텐츠에 액세스하지 못하도록 방지합니다.

새로운 문서에서 OpenAI는 GPTBot으로 크롤링된 웹 페이지가 “향후 모델을 개선하는 데 사용될 가능성이 높으며” GPTBot이 귀하의 사이트에 액세스하도록 허용하면 “AI 모델이 더 정확해지고 전반적인 기능과 보안을 개선하는 데 도움이 될 수 있다”고 말합니다.

OpenAI는 GPTBot이 페이월 뒤에 있는 소스, 개인 식별 정보를 수집하는 소스 또는 OpenAI의 정책을 위반하는 콘텐츠에 액세스하지 않도록 하는 필터를 구현했다고 주장합니다.

OpenAI 교육을 차단할 수 있다는 소식(귀하가 존중하는 경우)은 몇 년 전에 발표 없이 폐기된 ChatGPT 또는 GPT-4의 기존 교육 데이터에 영향을 미치기에는 너무 늦었습니다. OpenAI는 OpenAI 언어 모델의 현재 “인지” 컷오프인 2021년 9월까지 데이터를 수집했습니다.

새로운 지침은 주목할 만하다. 아마 ChatGPT 또는 ChatGPT 플러그인의 웹 브라우징 버전이 기존 웹사이트에 액세스하여 업데이트된 정보를 사용자에게 전달하는 것을 방지합니다. 이 점은 문서에 설명되어 있지 않으며 설명을 위해 OpenAI에 문의했습니다.

정답은 robots.txt 파일에 있습니다.

OpenAI에 따르면 선적 서류 비치GPTBot은 전체 문자열이 “Mozilla/5.0 AppleWebKit/537.36(KHTML, Gecko와 동일, 호환 가능, GPTBot/1.0, + https://openai.com/gptbot)인 사용자 에이전트 토큰 “GPTBot”에 의해 인식됩니다. “.

OpenAI 문서는 또한 GPTBot이 업계 표준을 사용하여 웹사이트를 크롤링하는 것을 방지하는 방법에 대한 지침을 제공합니다. robots.txt 파일 파일은 사이트를 인덱싱하지 않도록 웹 크롤러(예: 검색 엔진에서 사용하는 크롤러)에 지시하는 웹 사이트의 루트 디렉터리에 있는 텍스트 파일입니다.

사이트의 robots.txt 파일에 다음 두 줄을 추가하는 것만큼 쉽습니다.

User-agent: GPTBot
Disallow: /

OpenAI는 또한 관리자가 다른 코드가 있는 robots.txt 파일에서 사이트의 특정 부분에서 GPTBot을 제한할 수 있다고 말합니다.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

또한 OpenAI는 다음을 도입했습니다. 특정 IP 주소 블록 GPTBot이 실행되고 방화벽에 의해 차단될 수도 있습니다.

이 옵션에도 불구하고 GPTBot을 차단해도 위치 데이터가 미래의 모든 AI 모델을 교육하지 않는다는 보장은 없습니다. robots.txt 파일을 무시하는 스크레이퍼 문제 외에도 스크랩한 웹사이트의 다른 대규모 데이터 세트(예: 말뚝)는 OpenAI와 제휴하지 않습니다. 이러한 데이터 세트는 일반적으로 Meta의 Llama 2와 같은 오픈 소스(또는 오픈 소스) LLM을 교육하는 데 사용됩니다.

일부 웹사이트는 빠르게 반응합니다.

ChatGPT는 기술적 관점에서 큰 성공을 거두었지만 저작권이 있는 데이터를 허가 없이 스크랩하고 그 가치를 온라인 퍼블리싱 모델을 우회하는 상용 제품에 집중시킨 방식에 대해서도 논란이 되었습니다. OpenAI는 이러한 맥락에서 표절로 고발(및 고소)되었습니다.

따라서 일부 사람들이 향후 GPT 형식에서 자신의 콘텐츠를 차단할 수 있다는 소식에 일종의 억눌린 반응을 보이는 것은 놀라운 일이 아닙니다. 내가 듣고. 예를 들어 화요일에 VentureBeat 남성 저것 모서리하위 스택 작성기 케이시 뉴튼그리고 닐 클라크 Clarkesworld에서 그들은 모두 봇에 대한 뉴스가 나온 직후 GPTBot을 차단하겠다고 말했습니다.

그러나 대규모 웹 사이트 운영자의 경우 LLM 크롤러를 차단하는 옵션이 생각보다 쉽지 않습니다. 일부 LLM이 특정 웹사이트의 데이터를 무시하도록 하면 일부 사이트(예: ChatGPT가 정보를 제공하는 경우 방문자를 잃고 싶지 않은 사이트)를 잘 제공할 수 있는 지식 격차가 남지만 다른 사이트에 피해를 줄 수도 있습니다. 예를 들어 향후 AI 모델의 콘텐츠를 차단하면 지능형 챗봇이 향후 기본 사용자 인터페이스가 될 경우 사이트 또는 브랜드의 문화적 발자국을 줄일 수 있습니다. 사고 실험으로 2002년에 Google이 자사 웹 사이트를 색인화하는 것을 원하지 않는다고 발표한 온라인 회사를 상상해 보십시오. 이는 온라인에서 정보를 찾는 가장 인기 있는 방법이었을 때 자멸적인 조치였습니다.

생성 AI 게임의 초기 단계이며 기술이 어떤 방식으로 진행되든 개별 사이트에서 AI 모델 교육을 거부하려고 시도하더라도 최소한 OpenAI는 옵션을 제공합니다.

READ  iPhone 또는 iPad에 Pegasus 스파이 소프트웨어가 있습니까? 무료로 알아보기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

몇몇 사람들은 자신의 Apple ID가 어젯밤에 설명할 수 없는 이유로 재설정되었다고 말합니다.

밤새 소셜 미디어의 몇몇 사람들은 자신들이 Apple ID에서 로그아웃된 후 다시 로그인하려고…

작은 가스 계량기? 일본 캡슐 게임은 평범할수록 좋습니다.

TOKYO – Yoshiaki Yamaneshi는 상상할 수 있는 가장 지루한 게임을 만들기 시작합니다.…

PlayStation은 올해에도 Gamescom을 건너뛸 것이라고 확인했습니다.

PlayStation은 올해에도 Gamescom을 건너뛸 것이라고 Eurogamer에 확인했습니다. 연례 독일 행사는 세계에서 가장…

Google의 데모 3D 텔레프레즌스 키오스크 작동 방식은 다음과 같습니다.

안에 새로운 연구 논문Google은 Project Starline의 인상적인 제품 이면의 기술을 자세히 설명했습니다.…