반응형

 

 

UC버클리대 '챗봇 아레나' 4만명이 AI답변 블라인드 평가

오픈AI 출신 제품이 상위권, 구글 바드, 메타 라마 체면 구겨

생성AI, 다양한 서비스로 진화

이미지 원하는 대로 바꿔주고 특정인 목소리 생성해주기도

 

챗GPT를 계시로 무수히 많은 생성형 인공지능 서비스들이 쏟아지고 있다. 오픈AI의 챗GPT, 구글의 바드, 마이크로소프트의 '빙' 챗봇이 대표적이다. 하지만 어떤 인공지능이 더 우수한지 일반인이 판별하기는 쉽지 않다. 이에 하오장 UC버클리대의 조교수팀이 챗봇 결과를 평가하는 이른바 '챗봇 아레나'를 공개해 시선을 끌었다. 

 

22일 챗봇 아레나에 따르면 현재 4만명 이상이 평가에 참여했다. 평가 방식은 단순하다. 챗봇 아레나에 접속해 원하는 질문을 넣으면 익명의 인공지능 A와 B가 각각 대답을 내놓는다. 사용자는 더 훌륭한 답변을 한 인공지능을 선택하면 그만이다. 철저한 블라인드 방식이라 어떤 인공지능이 답을 했는지는 알 수 없다. 

 

4만명이 평가한 인공지능 성과는 어떨까. 챗봇 아레나 리더보드에 따르면 현재 가장 높은 점수를 받은 생성형 인공지능은 오픈 AI의 유료 버전인 GPT-4인 것으로 나타났다. 이변도 있었다. 2,3위는 오픈 AI 출신이 창업한 앤트로픽의 클로드(Claude)인 것으로 집계됐다. 이어 4위는 오픈AI의 GPT-3.5 터보, 5위는 인공지능 과나코, 6위는 공개 소스 인공지능 비쿠나, 7위는 마이크로소프트 모델을 근간으로 하는 위저드, 8위는 구글 바드의 초거대 인공지능인 팜2 순이었다. 메타의 라마는 20위로 집계됐다. 다만 1위는 1227점인 데 반해 8위는 1038점으로 그 격차는 크지 않았다. 

 

이번 평가가 시사하는 것은 철저히 소비자 중심이라는 점이다. 생성형 인공지능은 유용한 정보를 제공하지만 거짓을 사실처럼 생성해내는 이른바 환각 현상(Hallucination)을 종종 일으킨다. 어떤 방식으로 작동되는지에 대해서도 각 개발사가 함수하고 있다. 장 조교수팀은 이런 의문점에 실제 소비자 관점에서 어떤 인공지능이 더 편리한지 평가하는 이른바 LMSYS 그룹(Large Model Systems Organization)을 조직했던 것이다. LMSYS는 챗봇아레나를 공개하고 이를 점수화하는 작업을 맡고 있다. 

 

이번 실험에 대해 장 조교수는 "인간이 선호하는 답변은 인공지능 모델 개발에서 매우 중요한 요소"라면서 "모델은 꾸준히 개발되고 있기 때문에 3~6개월 뒤에 보면 순위가 달라질 수 있다"고 답변했다. 

 

오늘날 생성형 인공지능 시대에 맞춰 수많은 개발사가 뛰어든 상태다. 문장을 자유롭게 생성하는 인공지능에는 오픈AI의 챗GPT, 구글의 바드, 마이크로소프트의 '빙' 챗봇이 있다. 챗GPT는 보다 창의적인 작업에 적합하고 구글의 바드와 마이크로소프트의 빙은 사실적인 작업을 수행하는 데 우수하다. 

 

월스트리트저널(WSJ)은 현재 인기를 끌고 있는 생성형 인공지능을 크게 문장, 이미지, 생산성 향상, 오디오로 구분했다. 유용한 이미지 인공지능에는 오픈AI의 달리2가 대표적이다. "아보카도 모양의 의자"를 새성해 달라고 입력하면 이미지 4개를 즉석에서 만들어낸다. 텍스트 설명 또는 사진을 기반으로 4개의 이미지를 생성한다. 마이크로소프트는 이를 연동해 '빙 이미지 크리에이터'라는 서비스를 선보였다. 또 다른 서비스는 스태빌리티AI의 드림 스튜디오다. "분홍색 드레스를 입고 컵케이크를 먹는 아이"라고 입력하면 인공지능이 이를 상상해서 그려낸다. 가입은 무료고 시작과 함께 25크레디트를 지급한다. 

 

일반적으로 1크레디트당 그림 1개를 그릴 수 있다. 

 

이미지를 업로드해 이를 인공지능이 처리해주는 서비스도 등장했다. 이른바 '프리스마 랩 렌사'다. 예를 들어 자신의 사진을 올려서 우주비행사나 인어와 같은 모습으로 이미지를 바꿀 수 있다. 구독료는 주당 3달러다. 

 

어도비 파이어플라이 역시 인기 서비스다. 텍스트를 입력해 이미지를 생성하고 배경을 제거하거나 피사체의 일부를 제거할 수 있다. 

 

생산형 인공지능 역시 주목받고 있다. 대표적인 것이 그래머리(Grammarly)다. 그래머리는 오픈AI의 초거대 인공지능인 GPT-3.5를 연동해 문법 오류 점검을 획기적으로 개선했다. 또 녹음한 음성을 문장으로 바꿔주는 오터(Otter) 역시 주목받고 있는 서비스다. 구글이나 마이크로소프트 캘린더를 연동하고 자동으로 회의에서 말한 내용을 문장으로 변경해 저장할 수 있다. 

 

음성 인공지능 역시 진화하고 있다. 일레븐랩의 프라임 보이스 AI는 누군가의 음성을 학습시키면 문장을 입력하는 것만으로도 해당 인물의 목소리를 생성해낼 수 있다. 구독료는 5달러다.

 

 

 

 

 

※ 이 글은 경제공부를 위해 작성되었습니다. 무단복제나 상업적 이용을 금합니다. 

 

 

 

 

반응형

+ Recent posts