영상 AI의 춘추전국시대!
백남준의 비디오 아트를 참고한, 팔다리가 달린 브라운관 TV들이 서로 싸우는 장면. 아방가르드한 카툰풍 일러스트레이션 스타일.

영상 AI의 춘추전국시대!

Cinnamomo di Moscata

AI도 대소문자 섞기 앞에서는 무용지물

2024년 12월 14일, 클로드(Claude)로 유명한 앤트로픽 AI(Anthropic AI)는 최신 AI 모델의 보안 취약점을 우회하는 새로운 공격 기법, 'Best-of-N'을 공개했어요. 이 공격은 텍스트, 이미지, 음성 등 다양한 형태의 입력에 적용 가능하고, 무작위 대문자 사용, 글자 순서 섞기 등 단순한 조작만으로 AI 모델의 안전 기능을 무력화시키는 것으로 나타났어요.

앤트로픽의 실험 결과, 'Best-of-N' 공격은 클로드 3 오푸스(Opus) 모델을 대상으로 92%의 성공률을 보였고, 심지어 '회로 차단' 방어 체계를 갖춘 모델에도 효과가 있었다고 해요. 텍스트뿐만 아니라 이미지, 음성에도 적용이 가능한 이 공격은 이미지 배경 변경, 텍스트 폰트 조절, 음성 피치, 속도, 배경 노이즈 조정 등 다양한 방식으로 AI 모델을 속일 수 있어요.

특히 'Best-of-N' 공격의 성공률은 샘플 크기에 따라 예측 가능하게 증가한다는 점이 주목할 만 해요. 더 많은 샘플, 즉 더 많은 프롬프트를 사용할수록 성공률이 높아지고, 이는 곧 더 강력한 AI 모델을 해킹하기 위해 더 많은 컴퓨팅 자원을 투입할 수 있음을 의미해요.

또한 'Best-of-N' 공격은 다른 해킹 기법과 결합하여 더욱 강력한 공격을 만들어낼 수 있어요. 앤트로픽은 'many-shot jailbreaking' 기법과 결합했을 때, 클로드 3.5 소넷(Sonnet) 모델 해킹 속도가 28배, 클로드 3 오푸스 모델은 70배 빨라지는 것을 확인했어요.

앤트로픽은 이러한 연구 결과를 공개하기 전, '프론티어 모델 포럼'(FMF)을 통해 다른 주요 AI 기업들에게 해당 취약점을 알렸어요. 이들은 AI 모델의 발전과 함께 해킹 위험도 커지고 있음을 강조하며, 'Best-of-N' 공격 기법에 대한 연구를 오픈소스로 공개하여 AI 보안 기술 발전에 기여하고자 했어요.

이번 연구는 AI 모델의 안전성에 대한 새로운 화두를 던졌어요. AI 기술의 발전과 함께 보안 취약점 또한 더욱 교묘해지고 강력해질 거에요. AI 개발자들은 이러한 공격에 대비해 AI 안전성 확보를 위한 노력을 지속해야 할 거에요.

댄스 마스터가 될 수 있는 AI!

인공지능(AI)은 방대한 데이터로 학습된 '파운데이션 모델'을 통해 특정 지시에 따라 다양한 작업을 수행하는 시대로 접어들었어요. 이제는 텍스트와 이미지를 넘어 행동까지 제어하는 '행동 파운데이션 모델(BFM)'이 주목받고 있어요. 이에, 메타(Meta)는 최신 연구를 바탕으로, 별도의 학습 없이도 복잡한 동작을 수행하는 '제로샷' 휴머노이드 아바타의 제어 기술을 공개했어요.

기존 '비정형 강화 학습(RL)'은 복잡한 환경에서 한계를 보였어요요. 메타는 이를 극복하기 위해 FB-CPR이라는 혁신적인 알고리즘을 개발했어요. FB-CPR은 순방향-역방향 표현(FB)과 조건부 정책 정규화(CPR)를 통해 로봇이 별도의 추가 학습 없이도 주어진 데이터를 기반으로 자연스럽고 효율적인 동작을 생성하도록 도와줘요.

그렇게 연구를 거듭한 끝에, FB-CPR을 적용한 최초의 전신 제어 휴머노이드 BFM, 메타 모티보(META MOTIVO)가 탄생했어요. 모티보는 모션 추적, 목표 도달, 보상 최적화 등 다양한 작업을 '제로샷'으로 수행하며, 기존 방식 대비 월등한 성능을 보여줬어요.

FB-CPR은 복잡한 휴머노이드 제어에 혁신을 가져왔어요. META MOTIVO는 BFM이 범용 인공지능 개발에 핵심적인 역할을 할 수 있음을 보여주는 중요한 사례에요. 앞으로 더 정교한 제어, 가상뿐만 아니라 현실 세계 등 다양한 환경 적응, 언어와의 연동 등을 통해 더욱 발전된 휴머노이드 로봇 기술을 기대해 볼 수 있어요. 이는 인공지능 로봇 기술 발전의 중요한 이정표이며, 앞으로 인간처럼 움직이는 휴머노이드가 등장하도록 도와줘서 우리 삶에 큰 영향을 미칠 것으로 예상돼요.

0:00
/0:27

끊임없이 넘어지면서 공중제비를 마스터하는 '모티보'

무한한 탐험

존스 홉킨스 대학교 연구진이 개발한 제넥스(GenEx)는 단 한 장의 RGB 이미지를 입력받아 무한히 탐험 가능한 3D 세계를 창조하는 혁신적인 AI 시스템이에요. 마치 마법과도 같이, 제넥스는 이미지를 기반으로 생생하고 역동적인 파노라마 비디오 스트림을 생성하여 AI 에이전트가 탐험하고 상호작용할 수 있는 무한한 3차원 공간을 만들어내요.

제넥스는 언리얼 엔진(Unreal Engine)에서 추출한 방대한 3D 세계 데이터를 기반으로 단 한 장의 이미지에서 시작하여 일관성 있고 3D적으로 완벽한 가상 세계를 생성해요. 마치 인간이 단편적인 정보를 보고 전체 풍경을 상상하듯, AI에게 무한한 탐험과 상호작용의 기회를 제공하는 가상 세계를 창조해요.

제넥스는 한편 ChatGPT의 핵심인 GPT 모델로 구동되는 지능형 에이전트를 활용해서 생성된 가상 세계를 탐험해요. 이 에이전트는 목표 지향적이거나 자유로운 탐험을 수행하며, 마치 인간처럼 미지의 영역에 대한 예측을 통해 주변 환경에 대한 이해를 높이고, 잠재적 결과들을 시뮬레이션하며 최적의 결정을 내려요.

특히 제넥스는 장거리 탐험에도 불구하고 높은 수준의 일관성과 3D 정합성을 유지하며 고품질의 세계를 생성해요. 3D 정합성 유지, 능동적 3D 매핑 등 뛰어난 3D 기능을 통해 현실감 넘치는 가상 세계를 구현할 수 있어요.

GPT 모델과 연계한다면, 주변 환경에 대한 예측과 시뮬레이션을 통해 지능적으로 탐험하고 의사결정을 내리는 상상력이 뛰어난 에이전트를 구동해요. 또, 사용자 제어, GPT 기반 자유 탐험, 목표 지향 탐험 등 다양한 탐험 모드를 제공하여 유연한 상호작용을 가능하게 해줘요.

제넥스는 다음과 같은 다양한 분야에 혁신을 가져올 잠재력을 지니고 있어요. 실제 세계 탐험에 앞서 가상 세계에서 안전하고 효율적인 사전 학습 및 시뮬레이션을 가능하게 하고, 게임 및 VR/AR 환경에 역동적이고 몰입감 넘치는 경험을 제공하여 새로운 차원의 엔터테인먼트를 선사해요. 또한, AI 에이전트가 가상 세계에서 학습하고 성장할 수 있는 기반을 제공하여 더욱 지능적이고 인간과 유사한 AI 개발에 기여해요.

사진 하나만으로 3D 세계를 생성하는 '제넥스'

소라가 가소로워

구글(Google)은 최근 비오 2(Veo 2)와 이마젠 3(Imagen 3)라는 최신 비디오 및 이미지 생성 모델을 발표했어요. 비오 2는 실제 물리학과 인간의 움직임을 더 잘 이해하여 더욱 현실적이고 세밀한 비디오를 생성할 수 있다고 해요. 이 모델은 4K 해상도까지 지원하며, 다양한 촬영 기법을 활용해 영화 같은 장면을 만들어내요. 예를 들어, 저각 추적 샷이나 과학자가 현미경을 들여다보는 클로즈업 샷 등을 생성할 수 있어요.

이마젠 3는 다양한 예술 스타일을 더 정확하게 반영하고, 더 밝고 잘 구성된 이미지를 생성해요. 이 모델은 포토리얼리즘부터 인상주의, 추상화, 애니메이션까지 다양한 스타일을 지원해요. 또한, 프롬프트를 더 충실히 따르고, 더 풍부한 디테일과 텍스처를 표현해요.

마지막으로, 위스크(Whisk)라는 새로운 도구가 소개되었어요. 위스크는 사용자가 입력한 이미지를 기반으로 아이디어를 시각화하고 리믹스할 수 있게 해주는 일종의 리페인팅 기능이라고 해요. 이 도구는 이마젠 3 모델과 제미나이(Gemini)의 시각적 이해 및 설명 기능을 결합해, 사용자가 원하는 주제, 장면, 스타일을 쉽게 조합할 수 있게 도와줘요.

이러한 혁신적인 도구들은 창작자들에게 새로운 가능성을 열어주며, 더 나은 품질의 비디오와 이미지를 생성할 수 있게 도와줘요. 구글은 앞으로도 이러한 기술을 발전시키며, 더 많은 사용자들이 접근할 수 있도록 할 계획이라고 해요.

0:00
/0:08

비오 2가 만들어낸 꿀벌과 양봉업자 비디오


영상 콘텐츠 제작의 새로운 지평을 열다

영상 콘텐츠 제작은 엄청난 계산량을 요구하는 작업이에요. 특히 확산 트랜스포머(Diffusion Transformer, DiT) 모델은 픽셀 수에 따라 계산 비용이 기하급수적으로 증가하기 때문에, 1분 길이의 영상을 생성하는 것은 매우 어려워요. 이는 기존 모델들이 10~20초 길이의 짧은 영상을 생성하는 데 그치는 이유이기도 해요.

이 문제를 해결하기 위해 획기적인 비디오 AI 프레임워크 린젠(LinGen)이 나왔어요. 린젠은 픽셀 수에 따라 계산 비용이 선형적으로 증가하는 독창적인 구조를 가지고 있어, 단일 GPU만으로도 고해상도의 1분 길이 영상 생성을 가능하게 합니다. 이는 영상 생성 기술의 혁명적인 도약이고, 기존 DiT 모델의 한계를 극복하는 새로운 패러다임을 제시해요.

린젠은 계산량이 많고 복잡한 셀프-어텐션(self-attention) 블록을 혁신적인 MATE 블록으로 대체해요. MATE 블록은 MA-branch와 TE-branch로 구성되어 있어요.

  • MA-branch: 단거리 및 장거리 상관 관계를 포착하는 데 중점을 둬요. 양방향 Mamba2 블록, 자체 개발한 토큰 재배열 방법인 Rotary Major Scan, 그리고 긴 영상 생성을 위한 리뷰 토큰을 결합하여 강력한 성능을 발휘해요.
  • TE-branch: 인접 토큰 간의 시간적 상관 관계를 포착하는 데 특화된 Temporal Swin Attention 블록이에요. 이를 통해 생성된 영상의 일관성을 프로 수준으로 크게 향상시켜요.

MATE 블록은 Mamba 모델의 인접성 보존 문제를 해결하고, 생성된 영상의 일관성을 크게 향상시켜요.

실험 결과는 린젠의 우수성을 입증했어요. 린젠은 영상 품질 측면에서 DiT를 압도했고(75.6% 승률), 최대 15배 더 빠른 속도(FLOPs 기준)와 11.5배 빠른 속도(지연 시간 기준)를 보여줬어요. 또한, 자동 평가 지표와 사용자 평가 모두에서 LinGen-4B 모델은 Gen-3, LumaLabs, Kling과 같은 최첨단 모델과 유사한 영상 품질(각각 50.5%, 52.1%, 49.1% 승률)을 보여줘요.

린젠은 영상 생성 기술의 새로운 지평을 열었어요. 이제 길이의 제약 없이 고품질의 영상을 생성할 수 있게 되었어요. 린젠은 장시간 영화 제작, 실시간 반응형 영상 생성 등 무한한 가능성을 열어줄 거에요.

0:00
/1:08

'린젠'으로 만든 1분짜리 구릉길 비디오

누구나 물리학자!

제네시스(Genesis)는 로봇 공학, 구현된 AI, 물리적 AI 응용 프로그램을 위한 종합적인 물리 시뮬레이션 플랫폼이에요. 이 플랫폼은 다양한 물질과 물리적 현상을 시뮬레이션할 수 있는 범용 물리 엔진으로, 사용자 친화적이고 초고속의 파이썬 기반 로봇 시뮬레이션 플랫폼을 제공해요. 또한, 제네시스는 사실적인 렌더링 시스템과 프롬프트에 따라 다양한 데이터를 생성하는 데이터 엔진을 갖추고 있다고 해요.

제네시스의 핵심은 GPU 가속 병렬 계산을 활용한 고도로 최적화된 물리 엔진이에요. 이 엔진은 충돌 검사, 자동 휴면, 접촉 섬 등 다양한 기능을 통해 전례 없는 물리 시뮬레이션 속도를 제공해요. 예를 들어, 단일 평면과 Franka 로봇 팔을 포함한 조작 장면을 시뮬레이션할 때 제네시스는 실시간보다 무려 430,000배 빠른 속도로 실행돼요.

제네시스는 물리적으로 정확하고 공간적으로 일관된 비디오, 카메라 모션 및 매개변수, 인간 및 동물 캐릭터 모션, 로봇 조작 및 이동 정책 등을 자동으로 생성하는 프레임워크를 제공해요. 이 플랫폼은 로봇 공학 뿐만 아니라 그 너머의 다양한 응용 프로그램에 적합한 데이터를 생성하는 데 중점을 두고 있어요.

제네시스는 현재 물리 엔진과 시뮬레이션 플랫폼을 오픈 소스로 제공하고 있고, 생성 프레임워크에 대한 접근은 점진적으로 제공될 예정이라고 해요. 이 플랫폼은 로봇 공학 및 AI 연구자뿐만 아니라 물리학에 관심이 있는 모든 사람들에게 큰 도움이 될거에요.

0:00
/0:58

'제네시스'로 만든 다양한 물리 시뮬레이션

수츠케버가 들려주는 초지능으로의 길!

2024년, 인공지능(AI) 분야는 10년 전과 비교하여 놀라운 발전을 이뤘어요. 그 중심에는 딥러닝, 즉 인공신경망을 기반으로 한 기계 학습 기술이 있어요. 2014년, 몬트리올에서 열린 NeurIPS 학회에서 발표된 "신경망을 이용한 시퀀스 학습" 논문은 딥러닝 발전의 이정표가 되었어요. 이 논문의 저자 중 한 명인 일리야 수츠케버(Ilya Sutskever)는 최근 NeurIPS 2024에서 10년 전 발표를 회고하며 딥러닝의 과거, 현재, 미래에 대한 통찰력을 공유했어요.

2014년은 지금과 비교하면 딥러닝이 훨씬 초보적인 단계였어요. 당시 발표에서 수츠케버는 "딥러닝 가설"을 제시하며, 인간의 빠른 인지 능력을 10층 신경망으로 모방할 수 있다고 주장했어요. 이는 당시 딥러닝의 잠재력을 보여주는 대담한 선언이었어요. 또한, 그는 자기 회귀 모델, 대규모 신경망, 대규모 데이터셋이라는 세 가지 핵심 요소를 강조하며 딥러닝 발전의 방향을 제시했어요.

10년이 지난 지금, GPT-4o1 같은 LLM의 등장은 딥러닝이 인간의 언어 능력을 모방하는 수준을 넘어섰음을 보여줘요. 하지만 수츠케버는 여전히 딥러닝의 한계 또한 명확히 인지하고 있어요. 그는 기계 번역과 같은 작업에서 딥러닝이 보여주는 성능은 놀랍지만, "에이전트", "추론", "이해", "자기 인식"과 같은 측면에서는 아직 갈 길이 멀다고 지적해요.

특히, 똑똑한 AI는 질좋은 데이터에서 나오고, 질좋은 데이터는 석유같이 유한하다고 비유했어요. 그는 석유와도 같이 유한한 데이터를 극복하려면 데이터를 직접 만들어내는 합성 데이터가 필요하다고 덧붙였어요.

수츠케버는 딥러닝의 미래는 매우 불확실하며, 특히 초지능(superintelligence)의 등장은 예측을 더욱 어렵게 만든다고 말했어요. 그는 초지능이 인간과 질적으로 다른 존재가 될 것이라고 예상하며, 그들과 어떻게 소통하고 협력할 수 있을지에 대한 고민이 필요하다고 강조했어요. 또한, 그는 생물학적 영감, 특히 뇌와 신체의 관계에 대한 연구가 딥러닝 발전에 새로운 돌파구를 제공할 수 있다고 조언해요.

아니메도 AI로

최근 애니메이션 제작 현장에 새로운 바람이 불고 있어요. 바로 인공지능, 특히 12월에 프로제게트가 발표된 '트윈스 히나히마'는 AI 기술을 적극 활용한 애니메이션으로 주목받고 있어요. 이 작품은 AI를 단순한 보조 도구를 넘어 창작의 파트너로 삼았다는 점에서 특별해요.

  • 콘티에서 캐릭터를 빚어내다: 러프한 콘티를 AI에게 주면, 놀랍게도 완성도 높은 캐릭터를 뚝딱 만들어내요. 콘티 속 뼈대에 AI가 생생한 표정과 움직임을 덧입히는 방식이에요.
  • 실사 사진을 애니메이션 배경으로: AI는 실제 사진을 애니메이션 풍의 배경으로 마법처럼 바꿔요. 마치 사진 속 세상이 살아 움직이는 애니메이션의 일부가 된 것 같이 말이죠.
  • 3D를 2D 애니메이션처럼: 딱딱한 3D 모델도 AI를 만나면 부드러운 2D 애니메이션처럼 변신해요. 여기에 애니메이터의 섬세한 손길이 더해지면 더욱 완성도 높은 캐릭터가 탄생해요.
  • 러프한 스케치를 생동감 넘치게: AI는 러프한 스케치에 색을 입히고, 그림자를 더하고, 움직임까지 불어넣어요. 마치 마법사가 생명을 불어넣듯, 그림에 생동감이 넘치게요.
  • 실사 영상을 애니메이션으로: 배우의 연기 영상을 AI에게 입력하면, 순식간에 애니메이션 캐릭터의 연기로 재탄생해요. 실사 영상의 현실감과 애니메이션의 상상력이 만나는 순간이에요.

'트윈스 히나히마'는 AI가 애니메이션 제작에 가져올 혁신을 보여주는 예시에요. 여기에 사용된 기술들은 기존에 존재했지만, 처음부터 끝까지 AI를 철저하게 사용한 경우는 이번이 처음이라고 해요. AI는 살인적인 업무 강도에 시달리는 애니메이터들의 창작 과정을 돕고, 제작 시간과 비용을 줄여줄 수 있어요. 또한, 새로운 표현 기법을 가능하게 하여 애니메이션의 예술적 지평을 넓힐 것으로 기대돼요.

AI를 철저하게 활용한 애니메이션 제작 과정

OpenAI의 새로운 비즈니스 모델

최근 OpenAI의 CFO인 사라 프라이어(Sarah Friar)는 비즈니스 사용자들에게 AI 도구를 월 수천 달러에 제공할 계획을 밝혔어요. 이는 AI 기술이 기업에 제공하는 가치를 반영하기 위한 조치로, 특히 법률, 학술 연구 등 다양한 분야에서 AI의 활용도가 높아지고 있는 상황에서 더욱 주목받고 있어요.

프라이어는 AI 도구가 마치 박사급 비서처럼 사용자의 업무를 지원할 수 있다면, 그 가치는 충분히 높은 가격을 정당화할 수 있다고 설명했어요. 현재 OpenAI는 소비자에게 월 $20의 구독료를 부과하고 있고, 최근에는 월 $200의 옵션도 도입했어요. 그러나 앞으로는 기업 사용자의 경우, AI 도구가 제공하는 가치에 따라 가격을 책정하는 모델로 전환할 가능성이 있어요.

이러한 변화는 AI 시스템 개발에 드는 막대한 비용을 상쇄하는 데 도움이 될 수 있어요. 또한, AI 에이전트가 복잡한 작업을 수행할 수 있는 능력을 갖추게 되면서, 기업의 경제적 가치를 더욱 높일 수 있을 것으로 기대돼요.

무한한 세계로

AI는 더 이상 단순한 기술이 아니에요. 인간의 창의력을 증폭하고, 불가능을 가능으로 만드는 창조의 동반자로 거듭나고 있어요. 2024년, AI는 텍스트, 이미지, 영상을 넘어 행동까지 제어하며 무한한 3D 세계를 창조하는 경지에 이르렀어요.

앤트로픽의 'Best-of-N' 공격은 AI 보안의 중요성을 일깨웠고 악용을 막고 안전하게 활용하기 위한 노력의 필요성을 입증했어요. 메타의 '모티보'는 로봇 공학의 혁신을 예고했어요. AI는 이제 인간처럼 움직이고 행동하는 로봇을 만들 수 있어요. 존스 홉킨스 대학교의 '제넥스'는 단 한 장의 이미지로 무한히 탐험 가능한 3D 세계를 창조하며, 가상 현실과 실제 세계의 경계를 허물고 있어요.

구글의 '비오 2'와 '이마젠 3'는 영상과 이미지 생성 기술의 비약적인 발전을 보여줘요. AI는 이제 인간의 창작 활동을 더욱 풍요롭게 만들 준비를 마쳤어요. '린젠'은 영상 길이의 한계를 뛰어넘어, 누구나 고품질의 1분 영상을 제작할 수 있는 시대를 열었어요. '제네시스'는 누구나 쉽게 물리 시뮬레이션을 할 수 있는 환경을 제공하며, AI 연구와 로봇 공학 발전에 기여할 거에요.

한편, 일리야 수츠케버의 통찰은 AI의 미래를 조망해요. 딥러닝은 인간의 언어 능력을 넘어섰지만, 아직 갈 길이 멀어요. 특히, 유한한 데이터를 극복할 수 있는 합성 데이터에 대한 고찰은 흥미로워요. 초지능의 등장은 인류에게 새로운 도전과 기회를 동시에 제공할 거에요. '트윈스 히나히마'는 AI를 활용한 애니메이션 제작의 가능성을 보여줘요.

이처럼, AI는 창작의 효율성을 높이면서 인간의 상상력을 무한히 확장하고, 새로운 예술의 지평을 열 거에요. 에코 멤버님들과 AI가 협력하여 창조하는 미래는 어떤 모습일까요? 무한한 가능성의 서막이 올랐어요.


같이 읽어보면 좋은 글

1분 게임도 AI로!
필즈상 수상자도 놀란 AI의 진화! 수학 올림피아드 제패부터 3D 세계 창조까지, AI 혁신의 숨 가쁜 현장을 만나보세요. 미래를 선도할 AI 기술의 전망과 가능성을 확인하세요!
AI도 노는게 제일 좋아
아마존 CTO, AI로 가짜뉴스 방지 예측! AI가 사실 검증 시간 단축, 가짜뉴스 확산 억제하며 신뢰도 높이는 기술 혁신을 이끈다.

Cinnamomo di Moscata (글쓴이) 소개

게임 기획자입니다. https://www.instagram.com/cinnamomo_di_moscata/


(1) Anthropic AI. (2024). "New research collaboration: “Best-of-N Jailbreaking”. We found a simple, general-purpose method that jailbreaks (bypasses the safety features of) frontier AI models, and that works across text, vision, and audio.". X. https://x.com/AnthropicAI/status/1867608917595107443

(2) arXiv:2412.03556 [cs.CL]

(3) Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, Matteo Pirotta. (2024). Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models. Meta. https://ai.meta.com/research/publications/zero-shot-whole-body-humanoid-control-via-behavioral-foundation-models/

(4) arXiv:2412.09624 [cs.CV]

(5) Beckschen. (2024). Beckschen/genex: Generative World Explorer. GitHub. https://github.com/Beckschen/genex

(6) Aäron van den Oord, Elias Roman. (2024). State-of-the-art video and image generation with Veo 2 and Imagen 3. Google. https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

(7) arXiv:2412.09856 [cs.CV]

(8) Zhou Xian, Yiling Qiao, Zhenjia Xu, Tsun-Hsuan Wang, Zhehuan Chen, Juntian Zheng, Ziyan Xiong, Yian Wang, Mingrui Zhang, Pingchuan Ma, Yufei Wang, Zhiyang Dou, Byungchul Kim, Yunsheng Tian, Yipu Chen, Xiaowen Qiu, Chunru Lin, Tairan He, Zilin Si, Yunchu Zhang, Zhanlue Yang, Tiantian liu, Tianyu Li, Kashu Yamazaki, Hongxin Zhang, Huy Ha, Yu Zhang, Michael Liu, Shaokun Zheng, Zipeng Fu, Qi Wu, Yiran Geng, Feng Chen, Milky, Yuanming Hu, Chelsea Finn, Guanya Shi, Lingjie Liu, Taku Komura, Zackory Erickson, David Held, Minchen Li, Linxi "Jim" Fan, Yuke Zhu, Wojciech Matusik, Dan Gutfreund, Shuran Song, Daniela Rus, Ming Lin, Bo Zhu, Katerina Fragkiadaki, Chuang Gan. (2024). Genesis: A Generative and Universal Physics Engine for Robotics and Beyond. GitHub. https://github.com/Genesis-Embodied-AI/Genesis

(9) seremot. (2024). Ilya Sutskever: "Sequence to sequence learning with neural networks: what a decade". YouTube. https://www.youtube.com/watch?v=1yvBqasHLZs

(10) ツインズひなひま. (2024). アニメ「ツインズひなひま」ティザーメイキングPV. YouTube. https://www.youtube.com/watch?v=dOUIEFT1OLI

(11) Shirin Ghaffary. (2024). OpenAI CFO Thinks Business Users Will Pay Thousands Monthly for AI Tools. BNN Bloomberg. https://www.bnnbloomberg.ca/business/technology/2024/12/10/openai-cfo-thinks-business-users-will-pay-thousands-monthly-for-ai-tools/

Comments