OpenAI와 메타의 유쾌한 라이벌전!
OpenAI emblem and Meta emblem criticizing each other

OpenAI와 메타의 유쾌한 라이벌전!

Cinnamomo di Moscata

메타도 GPT-4o 부럽지 않다

메타(Meta)가 최근 공개한 '카멜레온(Chameleon)'은 텍스트와 이미지를 통째로 이해하고 생성하는 멀티모달 모델이에요. 기존의 멀티모달 모델들은 텍스트와 이미지를 각각 처리하는 별도의 모델을 사용하여 정보를 결합하는 '후기 융합' 방식을 사용했는데, 이 방식은 모델이 텍스트와 이미지를 따로 처리하기 때문에 AI가 이해를 하기 힘들어했다고 해요.

하지만 카멜레온은 텍스트와 이미지를 모두 '토큰'이라고 부르는 정보로 변환하여 처음부터 하나의 모델에서 통째로 처리하는 '초기 융합' 방식을 사용해요. 이를 통해 텍스트, 코드, 이미지 등등을 텍스트로 변환하지 않고도 실제 눈이 달린 것처럼 이미지와 코드를 직접 분석하고 해석할 수 있다고 해요.

이와 유사한 모델은 구글(Google)의 '제미나이(Gemini)'와 OpenAI의 'GPT-4V'가 있지만, 역시 나중에 나온 카멜레온의 잠재력이 GPT-4o처럼 더 뛰어나다고 해요. 실제로, 카멜레온은 벤치마크에서 기존 모델들을 능가하는 성능을 보여주었고, 또한 텍스트만으로 이루어진 벤치마크에서도 '믹스트랄(Mixtral) 8x7B' 및 '제미나이 프로(Gemini Pro)'와 같은 성능을 보일 정도로 똑똑하다고 해요.

텍스트 따로 이미지 따로 이해하는 기존 모델(왼쪽)과 사람처럼 통째로 이해하는 카멜레온(오른쪽)

AI는 아직도 고양이 수준?

메타(Meta)의 수석 AI 과학자인 얀 르쿤(Yann LeCun)과 OpenAI 연구원 에이단 클라크(Aidan Clark)는 최근 트위터에서 인공지능의 발전 속도와 안전성에 대한 흥미로운 논쟁을 벌였어요. 르쿤은 "인간보다 똑똑한 인공지능을 통제하는 방법을 긴급히 찾아야 한다"는 주장에 대해 비판적인 입장을 보였는데, 그는 "고양이만큼 똑똑한 인공지능 시스템을 설계하는 방법조차 아직 모르는 상황"이라며, 현재의 인공지능 기술 수준을 고려했을 때 그러한 주장은 현실과 동떨어진 것이라고 지적했어요.

르쿤은 1925년에 "(콩코드 같은) 초음속 여객기를 안전하게 모는 법을 찾아야 한다"는 주장이 나왔다면 얼마나 어색했을지 비유하며, 인공지능 역시 단계적인 발전을 통해 안전성을 확보할 수 있다고 주장했어요. 즉, 고양이 수준의 지능을 갖춘 인공지능을 만드는 데에도 상당한 시간이 걸릴 것이며, 그 후에도 안전성을 확보하기 위한 지속적인 노력이 필요하다는 것이에요.

한편으로, 르쿤은 다른 곳에서 한 인터뷰를 통해 자신이 만드는 '세계 모델링'이라는 새로운 AI 학습법을 통해 인간 수준의 지능을 가진 기계를 만들 수 있다고 주장했는데, AI가 인간처럼 세상을 이해하고 학습하는 방식을 모방하여 10년 안에 실현 가능하다고 예측하고 있어요.

하지만 클라크는 "고양이 지능"이라는 비유는 지나치게 단순화된 것이라고 반박했어요. 그는 현재 AI 모델, 특히 ChatGPT 같은 "다음 토큰 예측" 모델은 동물의 지능과는 다른 방식으로 발전하고 있으며, 고양이 지능이라는 단일 척도로 인공지능의 발전을 평가하는 것은 시야를 좁히는 것이라고 주장하면서 얀 르쿤의 의견이 "너무 지겹다"고 평했어요.

당사자들에게는 이래저래 피곤한 일이지만, 이렇듯 메타와 OpenAI 연구원들은 서로 끊임없이 토론하면서 꽤 유쾌하게 건전한 경쟁을 하고 있나봐요.

구글의 노하우가 농축된 프롬프트 엔지니어링 가이드북!

최근 AI 기술이 빠르게 발전하면서, 우리는 챗GPT와 같은 AI 모델을 일상에서 쉽게 접하게 되었었어요. 이러한 AI 모델을 효과적으로 활용하기 위해서는 '프롬프트' 즉, 명령어를 정확하게 입력하는 것이 중요해요.

구글은 지난 I/O 개발자 회의 2024에서 '제미나이 워크스페이스 프롬프트 가이드'라는 소책자를 배포하며 효과적인 프롬프트 작성법을 소개했는데, 이 가이드북은 "프롬프트는 기술"이라며, 단순히 명령어를 입력하는 것이 아닌 창의적인 접근 방식을 강조했어요.

가이드북에서 가장 눈에 띄는 내용은 바로 '프롬프트의 최적 단어 수'로, 구글은 연구 결과 가장 성공적인 프롬프트가 영어 기준 평균 21단어로 구성되었다는 사실을 밝혀냈어요. 흥미롭게도 사람들은 평균 영어 기준 9단어 미만의 짧은 프롬프트를 사용하는 경향이 있기 때문에, 더 좋은 성능을 얻기 위해서는 2배로 늘려야 해요.

구글은 또한 프롬프트 작성 시 페르소나작업문맥형식 등 4가지 사항을 포함해야 효과적이라고 설명했어요. 예를 들어, "당신은 ~~이고, 무엇을 OO를 통해서 ~~해 주세요"와 같이 구체적인 정보를 제공해야 한다고 덧붙였어요.

AI 카메라가 학생들을 보호?!

미국에서 학교 총기 사고가 끊이지 않고 발생하면서, AI 카메라를 도입하여 총기를 감지하고 사고로 부터 소중한 학생들을 보호하려는 움직임이 활발해요.

캔자스 주(Kansas; KS) 의원들은 학교 내 총기 사고를 줄이기 위해 AI 카메라 시스템 도입을 제안했는데, 이 시스템은 군인 출신이 설립한 회사인 제로아이(ZeroEyes)가 개발했다고 해요. 만약 AI가 총기같아 보이는 물건을 감지하면 전직 경찰 및 군인에게 알림을 보내서 진짜 총기인지 확인하고, 경찰에 신고하는 방식으로 작동해요.

ZeroEyes의 기술은 플로리다 주(Florida; FL) 마조리 스톤먼 더글러스 고등학교(Marjory Stoneman Douglas High School) 총기 참사에서 영감을 받았어요. 이 기술은 현재 미시간(Michigan; MI), 유타(Utah; UT) 등 여러 주에서 이미 학생들을 보호하기 위해서 총기 감지용으로 활용되고 있고, 플로리다, 아이오와(Iowa; IA) 등에서도 도입이 추진되고 있다고 해요.

AI 카메라 시스템은 학교 내 총기를 조기에 감지하여 사고를 예방할 수 있다는 기대를 모으고 있지만, 한편으로는 프라이버시 보호나 오작동 가능성 등 풀어야 할 과제도 존재해요. 특히 학교에 AI 카메라를 설치하면서 학생들의 프라이버시를 침해할 수 있고, AI 알고리즘의 오류로 인한 오작동 가능성도 무시할 수 없어요.

인간처럼 성장하는 미래의 AI

이처럼 AI는 눈부신 속도로 발전하며 우리 삶의 다양한 영역에 깊숙이 스며들고 있어요. 메타의 카멜레온처럼 텍스트와 이미지를 넘나드는 멀티모달 모델의 등장은 AI의 지능이 인간에 가까워지고 있음을 보여줘요. 하지만 얀 르쿤의 지적처럼 인간 수준의 지능을 갖춘 AI를 만들기 위해서는 아직 갈 길이 조금 멀어요.

구글의 프롬프트 엔지니어링 가이드북처럼, AI의 잠재력을 최대한 활용하기 위한 노력 또한 중요해요. AI가 인간을 더욱 효과적으로 도와주기 위해서는 정확하고 창의적인 프롬프트 기술을 익혀야 해요.

그리고 학교 총기 사고와 같은 현실 문제를 해결하기 위해 AI 기술을 활용하려는 시도는 AI가 단순히 기술적 진보를 넘어 인류를 지키고, 범죄를 해결해준다는 사회적 책임을 짊어질 수 있다는 가능성을 보여줘요. 하지만 AI 카메라 도입과 같은 윤리적 딜레마를 해결하고, 기술의 오용을 막기 위한 노력도 함께 이루어져야 해요.

AI는 인간의 삶을 더욱 풍요롭게 만들 수 있는 파트너에요. 에코 멤버님들이 지금까지 그래왔듯, 자신을 찾기 위한 여정에 접목해보고, AI로 다른 사람들을 도와주기 위한 윤리적 고민을 해보면서  함께 성장하며 더 나은 미래를 만들어갈 수 있을 거에요.


같이 읽어보면 좋은 글

OpenAI의 심상치 않은 보법!
GPT-4o는 사실 2022년 기술?! 최근 뜨거운 관심을 받고 있는 인공지능 모델 GPT-4o를 둘러싼 개발 시점에 대한 루머가 뜨거워요. 트위터에서 두 명의 사용자가 나눈 트윗은 이것을 잘 보여줘요. 애플(Apple)에서 일했던 적이 있는 개발자 아나나이(Ananay)는 OpenAI와 관련이 있는 한 스크린샷을 올렸는데, 그 이미지에는 ‘옴니모델(omnimodel)’과 ‘openai.org’라고

Cinnamomo di Moscata (글쓴이) 소개

게임 기획자입니다. AI 아티스트로도 활동 중입니다. https://www.instagram.com/cinnamomo_di_moscata/


(1) arXiv:2405.09818 [cs.CL]

(2) 박찬. (2024). 메타, 첨단 멀티모달 모델 ‘카멜레온’ 공개..."GPT-4o와 동일한 '초기 융합' 방식". AI타임스. https://www.aitimes.com/news/articleView.html?idxno=159936

(3) Yann LeCun. (2024). "It seems to me that before "urgently figuring out how to control AI systems much smarter than us" we need to have the beginning of a hint of a design for a system smarter than a house cat. Such a sense of urgency reveals an extremely distorted view of reality. No wonder the more". X. https://x.com/ylecun/status/1791890883425570823

(4) Hannah Murphy, Cristina Criddle. (2024). Meta AI chief says large language models will not reach human intelligence. Financial Times. https://www.ft.com/content/23fab126-f1d3-4add-a457-207a25730ad9

(5) Aidan Clark. (2024). "This cat dialectic is so boring. We all assumed the path to AGI would mimic the animal intelligence hierarchy but it turns out next-token-predictors’ capabilities don’t cleanly map to that of animals. Refusing to acknowledge any other ladder of intelligence is shortsighted.". X. https://x.com/_aidan_clark_/status/1792338197609152796

(6) Google. (2024). Gemini for Google Workspace Prompt Guide. https://inthecloud.withgoogle.com/gemini-for-google-workspace-prompt-guide/dl-cd.html

(7) 임대준. (2024). "최적의 프롬프트 단어 수는 21개"...구글, 프롬프트 비결 담은 가이드북 발간. AI타임스. https://www.aitimes.com/news/articleView.html?idxno=159796

(8) Nikhil Pandey. (2024). Can AI Cameras Stop School Shootings? US Schools Test New Technology. NDTV World. https://www.ndtv.com/world-news/ai-powered-surveillance-cameras-to-combat-school-gun-violence-in-us-report-5717374


Introduce your service here!

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


Comments