"인류의 지식이 바닥났다" 데이터 고갈문제를 해결하기 위한 빅테크의 전략

"인류의 지식이 바닥났다" 데이터 고갈문제를 해결하기 위한 빅테크의 전략

Sai

안녕하세요. 오늘은 AI 업계에서 가장 뜨거운 화두로 떠오른 '학습 데이터 고갈' 문제와 이를 해결하기 위한 혁신적인 접근 방법들에 대해 상황을 전달하고, 실제 머신러닝 AI 기법에 대한 내용을 전달드리려고 합니다. 마치 수능 공부를 하는 고3학생이 너무 공부를 잘해 이것저것 문제집을 풀다가보니 더 이상 풀 수 있는 문제가 없는 것과 같은 상황이라고 생각하시면 될 것 같습니다.

AI 학습의 새로운 위기와 도전

테슬라의 일론 머스크 CEO는 다음과 같이 말했습니다. "우리는 이제 기본적으로 AI 훈련에서 누적된 인간 지식의 총합을 고갈시켰다." 2024년에 이미 일어난 이 현상은 AI 업계 전반에 큰 파장을 일으키고 있습니다.

이는 단순한 우려가 아닙니다. 가트너의 분석에 따르면, 이미 지난해 AI 및 분석 프로젝트에 사용된 데이터의 60% 정도가 합성적으로 생성되었다고 합니다. 마이크로소프트, 오픈AI, 앤트로픽, 메타 등 주요 AI 기업들도 합성 데이터 활용으로 방향을 선회하고 있습니다.

월스트리트저널의 보도에 따르면, OpenAI 역시 18개월이 넘는 개발 기간 동안 최소 2차례의 대규모 훈련을 진행했지만, 기대했던 성과를 거두지 못했다고 했었는데요. 흥미로운 점은 기존 GPT-4보다 나은 성능을 보였음에도, 투입된 막대한 비용 대비 그 진보가 미미했다는 것입니다. 이러한 학습은 결국 데이터의 중요성을 한번 더 야기하고, 이러한 시장이 커질 것이란 예상이 듭니다.

하지만 듀크대학교의 에밀리 벵거 교수가 경고했듯이, AI가 생성한 콘텐츠의 급증은 AI 모델 자체에 치명적일 수 있습니다. 이러한 위기 속에서 데이터 증강과 합성의 새로운 방법론이 그 어느 때보다 중요해지고 있습니다. 이런 상황에서 우리는 어떻게 AI를 위한 새로운 데이터를 만들어낼 수 있을까요?

AI를 위한 새로운 데이터 만들기: 쉽게 알아보는 데이터 증강과 합성

데이터 증강: 기존 데이터로 새로운 데이터 만들기

데이터 증강이란 쉽게 말해 '하나의 데이터로 여러 개의 데이터를 만드는 것'입니다. 우리가 셀카를 찍을 때 여러 각도에서 찍는 것처럼, AI도 하나의 데이터를 여러 방식으로 변형해서 학습합니다.

예를 들어볼까요?

IBM
  • 고양이 사진 하나를 가지고 좌우로 뒤집거나
  • 밝기를 조절하거나
  • 크기를 조금씩 바꾸거나
  • 일부분만 잘라서 사용하는 거죠

이렇게 하면 한 장의 사진으로도 수십 장의 새로운 학습 데이터를 만들 수 있습니다.

텍스트도 마찬가지입니다. "오늘 날씨가 좋다"라는 문장을

  • "날씨가 오늘 참 좋네요"
  • "today is a nice day"로 번역했다가 다시 한국어로 번역하기
  • "기분 좋은 날씨예요" 이렇게 다양하게 바꿀 수 있죠.

합성 데이터: AI가 만드는 완전히 새로운 데이터

합성 데이터는 한 단계 더 나아가 완전히 새로운 데이터를 만들어내는 겁니다. 마치 화가가 상상으로 그림을 그리는 것처럼, AI도 새로운 데이터를 '창작'할 수 있게 된 거죠.

테슬라의 경우를 보면 정말 재미있습니다. 자율주행 학습을 위해 다양한 도로 상황을 만들어내는데요:

  • 비가 오는 도로
  • 눈이 쌓인 도로
  • 사고가 난 상황
  • 공사 중인 도로 이런 다양한 상황을 컴퓨터로 만들어서 AI를 학습시키고 있습니다.

의료 분야에서는 더 놀라운 일이 벌어지고 있습니다. 실제 환자의 개인정보를 보호하면서도, MRI나 CT 스캔 같은 의료 이미지를 인공적으로 만들어내 희귀 질병 진단을 위한 AI를 학습시키고 있죠.

이런 방식들이 정말 효과가 있을까요?

결과는 꽤 긍정적입니다. 마이크로소프트, 오픈AI, 메타 같은 대형 기업들이 이미 이 방식을 활발히 활용하고 있습니다. 특히 비용 면에서 큰 장점이 있는데요, 실제 데이터를 수집하는 것보다 훨씬 저렴하고 빠르게 필요한 데이터를 확보할 수 있기 때문입니다.

하지만 주의해야 할 점도 있습니다. 마치 복사본의 복사본을 계속 만들면 품질이 떨어지는 것처럼, AI가 만든 데이터로만 학습을 하면 점점 품질이 떨어질 수 있다는 우려가 있습니다. 그래서 실제 데이터와 적절히 섞어서 사용하는 것이 중요하죠.

앞으로는 어떻게 될까요?

AI 기술이 발전할수록 더 정교한 데이터 생성이 가능해질 것으로 예상됩니다. 특히 주목할 만한 발전 방향은:

  • AI가 스스로 학습하면서 데이터를 만들어내는 기술
  • 여러 종류의 데이터(텍스트, 이미지, 소리 등)를 동시에 만들어내는 기술
  • 실시간으로 필요한 데이터를 생성하는 시스템

이러한 발전은 AI 학습 데이터 부족 문제를 해결하는 새로운 길이 될 것입니다. 하지만 점점 데이터 증강과 합성이 넘쳐난다면 LLM의 새로운 환각현상이 나타날것이고, 우리가 사는 세상과 전혀 다른 답변을 할 수도 있을거라 예상합니다.

또한 AI 학습 데이터 부족 문제는 단순히 양적인 문제가 아닌 질적인 도전과제라는 것을 보여줍니다. 많은 빅테크들의 AI 개발 현장에서 이러한 현실을 잘 보여줍니다. 하지만 데이터 증강과 합성 기술의 발전은 새로운 돌파구를 제시하고 있습니다. 앞으로는 이러한 기술들을 더욱 정교화하고, 동시에 완전히 새로운 접근 방식도 모색해야 할 것입니다.

본 뉴스레터는 최신 AI 기술 동향을 바탕으로 작성되었습니다.

[저자 관련 정보] 이름: 김진환 이메일 주소: happydata1510@gmail.com 소속: 주식회사 위니브 데이터 Lead / 고려대학교 빅데이터사이언스학부 겸임교수, 경제통계학 박사수료


뉴스레터 광고 공간 (광고주를 모집합니다)

For newsletter banner advertising inquiries, please contact: Bopyo@aikoreacommunity.com

이곳에 서비스를 소개하세요!

뉴스레터 배너 광고 문의: Bopyo@aikoreacommunity.com


뉴스레터 편집장 소개

Comments