Ollama의 Qwen3-VL은 가장 강력한 비전 언어 모델을 소개합니다. 작동 방식은 다음과 같습니다.

휴대전화 카메라로 세상을 향해 짙은 녹색 식물의 잎을 식별하라고 요청하고 그것이 개에게 유독한지 묻는 것을 상상해 보세요. 마찬가지로, 컴퓨터에서 작업하면서 AI를 불러와서 표 형식의 데이터를 그래프로 변환하라고 지시하면 AI가 모든 것에 답합니다. 이 모든 것은 AI 모델의 “비전” 기능 덕분에 가능합니다. 그리고 Google의 Gemini, OpenAI의 GPT-5, Anthropic의 Claude와 같은 대기업과 비교할 때 시각적 이해 능력이 더 뛰어난 새로운 어린이가 등장한 것 같습니다.

이제 이 기능이 잘하는 부분, 작동 방식, 뒤처지는 부분에 대해 자세히 알아보기 전에 정말 흥미로운 점이 있습니다. Alibaba는 주력 모델인 Qwen3-VL-235B-A22B를 오픈 소스 도메인으로 추진하고 있으며 이제 Ollama를 통해 사용할 수 있습니다. 즉, 개발자는 소프트웨어 내에서 자유롭게 배포할 수 있으며 수정을 위한 공간도 열어둘 수 있습니다. 이제 기능에 초점을 맞춰 보겠습니다. 그 중 일부는 정말 인상적입니다.

Qwen은 앞서 언급한 모델이 이미지나 비디오를 HTML, CSS 또는 JavaScript와 같은 코드 형식으로 변환할 수 있다고 주장합니다. 간단히 말해서, 그것이 보는 것은 즉시 프로그래밍 가능한 코드로 바뀔 수 있습니다. 또한 최고 수준인 최대 100만 개의 토큰 입력을 지원하므로 2시간짜리 비디오 또는 수백 페이지의 문서를 입력으로 처리할 수 있습니다.

또한 이 모델은 객체 위치, 시점 변경 및 3D 공간 데이터에 대한 더 나은 이해를 제공합니다. 그런 다음 AI 모델이 이미지와 비디오에서 보는 텍스트를 처리할 수 있게 해주는 광학 문자 인식(OCR) 기능이 있습니다. Qwen3-VL의 OCR 기능은 32개 언어를 지원하며 조명, 파란색 및 각도 캡처가 좋지 않은 잘못된 입력을 처리할 수 있는 것으로 알려져 있습니다.

실제 사용을 위한 작업 이론

Qwen3-VL의 가장 인상적인 부분은 컴퓨터와 모바일 장치를 제어하는 ​​기능입니다. 간단히 말해서 Ticketmaster에서 4인 티켓을 예약하도록 지시하면 AI 모델이 워크플로의 모든 단계를 자율적으로 처리합니다. 즉, 웹 브라우저를 열고, 사이트를 실행하고, 지침(인원 수, 선호하는 좌석 등)을 입력하고, 예약하고, 엔드투엔드 접근 방식으로 작업을 실행합니다. 비록 완전히 새로운 것은 아니지만 그것은 인상적인 것입니다.

OpenAI는 작업을 자율적으로 처리할 수 있는 Operator라는 에이전트 도구를 제공합니다. Microsoft는 또한 Copilot Studio에서 에이전트 기능을 제공하고 있으며 Anthropic의 “Claude 컴퓨터 사용”도 자율적인 워크플로우를 구현하기를 희망하고 있습니다. 경쟁은 분명히 뜨겁지만 여기에 핵심적인 차이점이 있습니다. Qwen은 오픈 소스 도메인에서 AI 모델을 추진하고 있는 반면 경쟁업체는 사용자에게 비용을 청구합니다. 또한 회사는 Qwen3-VL이 “OS World와 같은 벤치마크에서 최고의 글로벌 성능을 달성했으며 도구를 사용하면 세밀한 인식 작업에서 성능이 크게 향상된다”고 주장합니다.

YouTube 동영상에서 AI 컨설턴트 Bijan Bowen은 여러 컴퓨터 사용 시나리오에서 Qwen 비전 모델을 추진했으며 꽤 잘 작동했습니다. 그는 Qwen3-VL에게 특정 Reddit 커뮤니티에 댓글을 게시하는 임무를 부여하고, 몇 가지 내용을 작성하게 하고, 심지어 자동차를 주문하기도 했습니다. 꽤 잘 작동했지만 모델은 차량을 구매할 때 올바른 우편번호를 입력하는 등 다소 평범한 세부 사항으로 인해 여전히 어려움을 겪었습니다. Qwen 블로그에 공유된 일부 데모 시나리오도 매우 인상적입니다. 하지만 가장 눈에 띄는 부분은 속도입니다. 저는 식료품 주문을 위해 다른 AI 모델을 사용하여 에이전트 작업을 시도했습니다. 작업을 완료했지만 Qwen3-VL의 작업 실행 속도만큼 빠르지는 않았습니다.