AI 모델은 수년간 이미지를 보고 이미지 내부에서 볼 수 있는 내용을 알려줄 수 있었지만 이번 봄 업데이트를 통해 OpenAI는 이러한 기능을 새로운 수준으로 끌어올렸습니다.
오디오 및 비디오 기능이 없어도 ChatGPT에 GPT-4o가 도입되면서 OpenAI는 현재까지 출시된 최고의 AI 비전 모델 중 하나를 공개했습니다.
이 프로그램의 성공은 부분적으로 이미지, 비디오, 오디오 및 텍스트를 더 깊이 이해하는 멀티미디어라는 사실에 기인합니다. 다른 형식이 먼저 텍스트로 변환되는 이미지, 음성, 비디오 및 텍스트를 추론할 수 있습니다.
그의 능력을 테스트하기 위해 나는 그에게 일련의 사진을 주고 그가 볼 수 있는 것을 묘사해 보라고 요청했습니다. 모델이 더 정확합니다. GPT-4를 포함한 AI 비전 모델은 종종 하나 또는 두 개의 객체를 놓치거나 잘못된 설명을 얻습니다.
GPT-4o 시력 테스트
각 테스트에서 ChatGPT-4o에는 이미지가 제공되었으며 “이게 무엇입니까?”라는 메시지가 표시되었습니다. 맥락이나 추가 정보가 없습니다. 이는 사람들이 현실 세계에서 이 기능을 사용하는 방법과 제가 최근 파리에서 열린 이벤트에서 이 기능을 사용한 방법에 더 가깝습니다.
목표는 이미지가 얼마나 잘 분석되는지 확인하는 것입니다. 나는 매번 이미지가 AI로 생성되었는지 여부를 감지할 수 있는지 물어보기 위해 후속 조치를 취했습니다. 그것들은 모두 Claude 3이 만든 설명에 있는 표의문자를 사용하여 만들어졌습니다. 따라서 완전히 AI입니다.
대화의 첫 두 장의 사진이 나온 후, 그는 내가 묻지 않아도 그 사진이 AI로 생성된 것인지 아닌지를 자연스럽게 나에게 말하기 시작했습니다.
ChatGPT 데스크톱 앱으로 시작했는데 응답이 실패하기 시작해서 웹으로 옮겼더니 제대로 작동했습니다.
1. 사물 인식
첫 번째 이미지에서는 뜨거운 커피가 담긴 빨간색 세라믹 머그의 이미지를 만들었습니다. 카페의 나무 테이블 위 접시 위에 놓여 있었지만, 카페는 불분명했다. GPT-4o가 배경과 시나리오를 어떻게 해석하는지 살펴보는 것이 아이디어입니다.
GPT-4o는 다음과 같이 썼습니다. “이 이미지는 소박한 나무 테이블 위에 놓인 빨간색 컵과 접시에 김이 나는 커피 잔을 보여줍니다. 배경은 흐릿하며 사람들이 동굴처럼 보이는 곳에 앉아서 이야기를 나누는 아늑한 실내 환경을 묘사합니다. 카페처럼, 돌담으로 이루어진 독특한 인테리어도요.” 초점은 커피 잔에 맞춰져 있으며, 뜨거운 음료에서 피어오르는 김이 부각됩니다.
이는 가능한 한 정확하고 설명적입니다. 현장을 그림으로 그리는 것조차 단순한 설명을 넘어선다. 나는 농담으로 그에게 “이 즉석 커피를 마시면서 테이블에 앉아 있는 사람의 생각을 묘사해 보세요.”라고 물었습니다.
그녀는 꽤 설명적인 개요로 대답했지만 다음 대사가 눈에 띄었습니다. “이 커피는 단순한 음료 그 이상입니다. 그것은 일상의 분주함 속에서 고독과 사색의 소중한 순간인 의식입니다.
2. 광학 문자 인식(OCR)
광학 문자 인식(OCR)은 컴퓨팅만큼 오래된 기술이므로 모든 비전 모델에서는 사소한 일이며 스마트폰에서도 이를 수행합니다. 나는 그녀에게 빈티지 손글씨체로 “오크빌에 오신 것을 환영합니다”라고 적힌 오래된 나무 간판을 클로즈업한 간단한 사진을 보여주었습니다. 나는 AI가 보내는 텍스트 그 이상을 원합니다.
GPT-4o 인도됨; 쓰기: “이 사진은 ‘오크빌에 오신 것을 환영합니다’라고 적힌 빈티지 느낌의 표지판을 보여줍니다. 표지판은 오래되고 소박한 마감으로 풍화된 것처럼 보이며 한동안 외부 요소에 노출되었음을 나타냅니다. 텍스트는 굵은 흰색 글꼴로 표시됩니다. 빨간색 배경에 약간의 낡은 흔적이 있어 향수를 불러일으키는 매력을 더해줍니다. 이 표지판은 부분적으로 녹지로 둘러싸여 있어 아마도 오크빌이라는 마을이나 지역 사회의 입구에 배치되었을 수 있음을 시사합니다.
텍스트가 올바르게 읽혀졌을 뿐만 아니라 위치에 대한 자세한 내용을 제안하고 가능한 도시나 거주지를 식별하고 표지판 자체의 세부 정보를 끌어냈습니다.
3. 얼굴 인식
이는 논란의 여지가 있는 AI 기술 사용이며 유럽 연합에서는 어느 정도 금지되어 있습니다. 하지만 GPT-4o는 얼굴을 얼마나 잘 묘사할 수 있을까요? 해당 이미지는 검은 머리와 따뜻한 갈색 눈을 가진 40대 여성의 모습을 AI가 생성한 이미지였다. 그녀는 친절한 미소를 지었습니다.
GPT-4o는 이를 다음과 같이 설명했습니다. “이 이미지는 어두운 곱슬머리를 가진 웃는 여성의 클로즈업입니다. 초점은 조명이 밝은 그녀의 얼굴에 있으며, 그녀는 피부 질감과 이목구비를 자세히 보여줍니다. 친근한 표정으로 카메라를 정면으로 바라보고 있으며, 배경은 흐려져 있어 화제에 집중하고 있다.
나는 특정 연령을 포함하여 조금 더 원했습니다. 나는 그녀에게 “이 사람은 몇 살이고 감정 상태는 어떻습니까?”라고 물었습니다. 그녀는 자신이 30대 후반에서 40대 초반이고 긍정적인 마음 상태라고 답하며 “대체적인 인상은 정서적으로 좋은 곳에 있고 아마 기분도 좋고 편안할 것 같다”고 설명했다.
4. 감정을 드러내는 것
다음으로, 슬픈 표정을 짓고 있는 노인의 이미지가 GPT-4o와 얼마나 잘 어울리는지 보고 싶었습니다. 그는 그것을 포착할 것인가, 아니면 단지 장면을 묘사할 것인가? 그것이 가진 유일한 항목은 “이것이 무엇인가”와 이미지뿐이라는 것을 기억하십시오.
GPT-4o는 좋은 성능을 보였습니다. 사진에는 “이 사진은 공원에 있는 것으로 추정되는 야외 벤치에 앉아 있는 노인의 사진이다. 조명을 보면 이 사진이 황금시간대에 찍은 것으로 보이며, 부드러운 햇빛이 그의 얼굴을 부각시킨다. 사려 깊고 우울함이나 명상적인 느낌이 살짝 가미된 그는 칼라가 있는 셔츠와 재킷을 입고 있으며, 배경은 흐릿하여 쾌적하고 자연스러운 분위기를 제공하면서 남자에게 시선을 집중시킵니다.
AI 모델은 제가 바라던 일을 정확하게 수행했습니다. 장면을 설명하고 그 순간 남자가 느낄 수 있는 감정에 대해 제안했습니다.
5. 현장 이해
GPT-4o는 이미지의 장면을 얼마나 잘 설명하고 장면 내의 요소를 식별할 수 있습니까? 실제 세계를 설명하는 데 AI 모델이 점점 더 많이 사용되고 있기 때문에 이는 유용한 기술입니다. ChatGPT의 새로운 오디오 모드의 주요 기능 중 하나입니다.
GPT-4o는 “이 사진은 화창한 날 활기 넘치는 야외 농산물 시장을 보여줍니다. 텐트 아래에 다양한 부스가 설치되어 과일, 야채 및 기타 상품을 포함한 풍부한 신선한 농산물이 시장을 돌아다니고 있습니다. 시장은 나무가 늘어선 아름다운 지역에 위치하고 있으며 배경에는 녹색 잎이 있고 지역의 신선한 농산물에 중점을 두어 활기차고 공동체적인 분위기가 느껴집니다.
할 말이 많지 않습니다. 그는 사진과 상황을 정확하게 설명했습니다. 제가 예상했던 것보다 더 자세한 내용을 알려주셨고 판매 중인 일부 제품을 강조해 주셨네요.
6. 화질 평가
나는 Ideogram에게 그리드에 거의 동일한 4개의 이미지를 생성하되 각각 다른 해상도나 구성 수준을 제공하도록 요청했습니다. 나는 GPT-4o가 이것을 어떻게 설명하는지 보고 싶었습니다. 기본 이미지를 처리할 수 있지만 각각 조금씩 다른 4개의 이미지는 어떻습니까?
GPT-4o는 “이 이미지는 격자무늬로 배열된 4장의 풍경 사진 모음으로, 각 사진은 구름 가득한 하늘 아래 푸른 잔디와 야생화로 뒤덮인 구불구불한 언덕의 멋진 풍경을 보여줍니다”라고 썼습니다. 여태까지는 그런대로 잘됐다.
“왼쪽 상단 사진은 새벽이나 황혼을 암시하는 부드러운 분홍색과 파란색 그라데이션 하늘을 보여 주며 언덕은 따뜻한 황금빛 빛으로 가득 차 있어 생기 넘치는 녹색 잔디와 노란색과 흰색 꽃을 더욱 돋보이게 합니다. 오른쪽 상단 사진도 비슷한 장면을 보여줍니다. 조용한 톤으로 이른 아침이나 늦은 오후를 암시합니다. 왼쪽 아래 이미지는 더 시원한 색상과 더 맑은 푸른 하늘을 가지며, 더 부드러운 조명으로 한낮을 암시합니다. 오른쪽 아래 이미지는 더 따뜻하고 더 포화되어 하늘에 분홍색 색조가 있음을 암시합니다. 일몰의 빛 따뜻함 조명과 색조의 이러한 차이는 하루 중 시간대와 사진 기술이 동일한 자연 장면의 분위기와 모습에 얼마나 영향을 미칠 수 있는지를 보여줍니다.
그녀는 구성을 비교하기 위해 네 개의 이미지로 구성된 격자의 목적을 이해하지 못했지만 각 이미지를 개별적으로 설명할 수 있었는데 이는 인상적이었습니다. 그녀는 실제로 사진을 직접 비교했습니다.
7. 다중 객체 감지
마지막으로, 모델이 접근성 도구로 유용하려면 혼잡한 장면에서 객체를 얼마나 잘 감지하는지에 대한 중요한 테스트가 있습니다. 다른 사람들과 같은 주장. 사진 속에는 어수선한 책상이 담겨 있는데, 작은 것 하나라도 꺼내줄 것으로 기대된다.
GPT-4o는 다음과 같이 썼습니다. “사진은 배경의 큰 창문을 통해 도시 전망이 보이는 현대적이고 정리된 사무실 작업 공간을 보여줍니다. 책상은 중앙의 노트북을 포함하여 생산적인 작업 환경에서 일반적으로 볼 수 있는 많은 항목으로 깔끔하게 배열되어 있습니다. 금속 책상 램프와 커피 컵은 편안하면서도 집중된 분위기를 제안합니다. 흩어져 있는 노트와 서류는 활동적인 작업과 메모 작성을 암시하고, 작은 화분은 두 사람의 액자에 담긴 사진이 개인적인 느낌을 더해줍니다. 동기 부여를 위한 자원 역할을 합니다. 작업 공간은 펜, 연필, 정리함과 같은 사무용품으로 가득 차 있어 기능성을 보장합니다. 현대적인 고층 빌딩이 있는 도시 스카이라인을 배경으로 역동적이고 영감을 주는 환경을 조성합니다.
효과가 있었습니다. 나는 후속 조치를 취하고 그에게 화분의 색깔을 말해달라고 요청하기로 결정했고 즉시 작동했습니다. 그래서 사진 속 안경을 찾아달라고 했더니 “네 안경은 노트북 오른쪽 책상 위에 있고, 노트북 위에 놓여 있다”고 정확하게 말했다.
요약
과거에 제가 사용한 모든 비전 모델은 적어도 한 가지 실수를 저질렀습니다. 일반적으로 물체를 잘못 식별하거나 색상이나 브랜드를 선택하지 않는 것과 같은 주요 실수였습니다.
GPT-4o는 이러한 포인트를 모두 얻습니다. 진정한 다중 모드로의 전환은 OpenAI의 판도를 바꾸었습니다.
또한 데이터 상호작용의 진정한 미래로서 스마트 안경의 잠재적 가치를 보여줍니다. 스마트폰은 잊어버리세요. 비전을 사용하여 실제와 디지털을 병합합시다.