2023. 10. 18. 15:09

LLM을 넘어 이미지까지 학습한 `LMM` 인공지능 AI

GPT-4V에 이어 `제미니` 공개 임박. 오픈 소스 `라바`도 인기

'대형언어모델(LLM)'에 이어 앞으로는 '대형멀티모달모델(LMM)'이라는 용어가 보편화될 것으로 보인다. 기존에는 '멀티모달 LLM'으로 불렀으나, 최근 미국의 일부 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 새 용어를 밀고 있다. 
이는 오픈AI의 'GPT-4V(비전)'에 이어 올말 출시 예정인 구글의 차세대 모델 '제미니' 역시 LMM이며, 최근에는 오픈 소스 LMM '라바(LLaVA) 1.5'까지 개발자 사이에서 인기를 누리고 있기 때문이다. 

이처럼 기존의 '언어' 학습을 뛰어넘어 '이미지' 학습까지 더한 LMM이 화두로 떠오르고 있다. 벤처비트는 11일(현지시간) 오픈 소스 커뮤니티에서 라바 1.5가 GPT-4V의 대안으로 떠오르며 인기를 얻고 있다고 소개했다. LMM은 이미지를 학습했기 때문에 사용자가 텍스트 대신 이미지를 입력해도 이를 이해하고 답을 낼 수 있다. 이미지 입력 기능은 기존 언어모델의 활용폭을 크게 넓혀줄 수 있다. 이 기능은 지난 3월 오픈AI가 출시한 GPT-4부터 상용화됐다.

오픈AI는 이미 지난해 GPT-4의 이미지 학습을 마친 것으로 알려졌다. 이후 이미지 입력은 AI 모델 개발의 표준이 됐다. 빅테크는 물론 오픈 소스 커뮤니티까지 LMM 개발에 매달렸다. 최근 메타가 발표한 '메타 AI'도 멀티모달 기능을 갖췄다. 라바도 1.5 버전이 나올 정도로 업데이트를 거듭했다. LMM이라는 용어가 부각된 것은 사실 제미니의 탓이 크다. 구글은 다른 모델과의 차별점으로 방대한 이미지와 동영상을 학습한 점을 강조했기 때문이다. 

이에 따라 오픈AI는 지난달 25일 공식 블로그를 통해 'GPT-4V(ision) 시스템 카드'라는 논문을 소개했다. LLM에 이미지 입력을 통합한 기술적인 문제와 이를 통해 확보한 안전성 등에 초점을 맞춘 내용이다. 즉 LMM를 주도하는 게 오픈AI라는 것을 강조하는 내용이다. 여기에 오픈 소스 진영의 LMM 대표 주자로 라바 1.5가 떠오르며 본격적인 경쟁이 벌어지는 모양새다.

전체내용 - https://www.aitimes.com/news/articleView.html?idxno=154291

반응형