게시물 검색

ICT/정보통신 합성 데이터, AI 개발에서 필수. 2026년에 학습 소재 고갈

  • 관리자 (irsglobal1)
  • 2025-03-21 18:20:00
  • hit1396
  • 59.16.96.108

출처 : https://www.nikkei.com/article/DGXZQOUC017A80R01C24A0000000/

 

이탈리아의 Aindo는 고객 기업이 자사 데이터의 합성 복사본을 생성하여 개인정보 보호 규제를 지킬 수 있도록 돕는 서비스를 제공한다.

 

생성형 AI(인공지능)의 개발에 있어, 학습용 문서 및 이미지를 인공적으로 생성하는 합성 데이터가 필수적인 존재가 되고 있다. 입수하기 어려운 분야에서도 양을 확보할 수 있고, 개인정보 보호에 대한 우려도 사라지기 때문이다. 스타트업 세력이 난립하고 있지만, 마이크로소프트와 메타, IBM과 같은 미국 거대 기술 기업의 참여로 자금 조달은 저조하다. 양질의 학습 소재가 고갈될 것으로 보이는 2026년이 다가오는 상황에서, 경쟁이 심해지고 있는 합성 데이터 시장을 해설한다.

 

대규모 언어 모델(LLM)을 학습하는 데에는 대량의 데이터가 필요한데, 인터넷상에 있는 양질의 데이터는 2026년이면 고갈될 것으로 보인다.

 

그래서 모델 개발 회사들은 고액의 콘텐츠 사용 허가 계약을 체결하였으며, 특히 데이터를 입수하기 어려운 개인정보 보호에 대한 우려가 있는 분야에서는 AI 모델의 학습을 보완하기 위해 텍스트나 이미지 등의 데이터를 인공적으로 생성하는 합성 데이터에 눈을 돌리고 있다.

 

학습 데이터의 합성을 제공하는 기업은 약 50개 정도이며, 그중 거의 30개 기업이 2022년 이후 에퀴티(주식)를 통해 자금을 조달했다. 하지만 거대 기술 기업이 해당 분야를 기회로 보고 있으며, 생성형 AI 자체도 LLM이 주류가 되기 전에 창업한 데이터 시뮬레이션 기업의 비즈니스 모델에 타격을 미치고 있기 때문에, 합성 데이터 생성 기업의 자금 조달은 저조한 상황이다.

 

<그림1> 학습 데이터 합성 기업의 자금 조달, 거대 기술 기업의 참여로 저조하다(공표 기준 에퀴티에 의한 자금 조달액과 조달 건수, 2024917일 시점)

 

학습 데이터 합성 기업에 대한 인터뷰나 각사의 자금 조달 상황, 직원 수의 증감 등 CB 인사이트의 데이터에 근거하여 합성 데이터 분야의 새로운 기회와 기업에 의한 합성 데이터 도입에 대해 조사했다.

 

요점

 

미공개 시장은 속도가 느려지고 있지만, 표 형식 & 텍스트 데이터 합성 기업은 기세를 더하고 있다. 미공개 시장에 대한 투자는 느려지고 있지만, 이탈리아 Aindo나 영국 신시사이즈(Synthesized) 등 업계에 특화된 합성 텍스트 데이터를 생성하는 많은 스타트업은 최근 1년 사이 직원 수가 늘어났다.

 

합성 데이터 플랫폼을 사용하면 개인정보를 보호하고 규제를 준수하면서 AI를 개발할 수 있다. 개인정보(PII)는 리스크가 높기 때문에, 이 점은 의료ㆍ헬스케어 및 금융 서비스 등 기밀성이 높은 데이터를 취급하는 부문에서 특히 중요하다.

 

데이터 생성 스타트업은 거대 기술 기업과 격렬한 경쟁을 하게 된다. 마이크로소프트나 메타 등의 기술 대기업은 AI를 활용하여 독자적인 합성 텍스트 데이터를 생성한다. 한편 IBM과 엔비디아는 개발자를 대상으로 합성 데이터 생성툴을 제공한다.

 

미공개 시장은 감속하고 있지만, 표 형식 & 텍스트 데이터의 합성 기업은 기세를 띰

 

합성 학습 데이터(표 형식 & 텍스트, 미디어) 기업의 2024년 이후 자금 조달 건수는 5건으로서, 21건이었던 2022년에 훨씬 미치지 못한다.

 

한편, 직원 수가 1년 동안 변동이 없거나 감소한 기업은 절반에 가깝다. 특히 미국 패러럴 도메인(Parallel Domain) 및 신세시스AI(Synthesis.ai) 등 자율주행차용 합성 데이터를 제공하는 기업의 직원 수가 크게 줄어들고 있다. 2018년에 창업하여 7,200만 달러를 조달한 데이터젠(Datagen, 이스라엘)은 확산 모델이 발전한 덕분에 동사의 합성 비주얼 데이터 기반의 중요성이 낮아져 2024년에 경영 파탄을 맞았다.

 

그래도 많은 플랫폼이 직원을 늘려 계속해서 활발하게 활동하고 있다. 주요 4개 기업(직원 10명 이상)은 모두 텍스트 & 표 형식의 합성 데이터 기업이다.

 

<그림2>

 

이탈리아의 Aindo는 가장 적극적인 기업 중 하나이며, 직원 수는 최근 1년 사이 48% 증가했다. 금융, 의료ㆍ헬스케어, 거브테크(GovTech, 행정) 등 다양한 업계의 용도에 대응하고 있다. 예를 들어 고객 기업이 자사 데이터의 합성 복사본을 생성하여 개인정보 규제를 지키도록 지원한다.

 

<그림3>

 

주목할 만한 점은 최근 1년 사이 직원 수가 늘었거나 정체된 데이터 합성 기업(직원 수 10명 이상) 중 미국 이외에 거점을 둔 기업이 74%에 달한다는 점이다. 이것은 세계 각지에서 개인정보를 보존하는 데이터에 대한 니즈가 존재한다는 점을 시사한다.

 

신시사이즈 등은 AI 모델의 학습과 미세 조정을 지원하는 표 형식 & 텍스트 합성 데이터에 힘을 싣고 있다. 동사는, 예를 들어 중남미의 한 금융 기관의 부정 감지 시스템을 학습하고 테스트하기 위해 대표적인 부정 사례를 생성할 수 있는 합성 거래 데이터세트를 개발했다. 또한 구글 클라우드와 연계하여 미국 구글의 AI 개발 플랫폼 ‘Vertex(버텍스) AI’의 이용자에게 소프트웨어 개발 키트(SDK)를 제공하고 있다.

 

<그림4> 신시사이즈는 구글 클라우드와 연계하여 ‘Vertex AI’의 이용자에게 SDK에 대한 접근권을 제공한다.

 

이러한 합성 데이터 스타트업은 처음에는 기세가 좋았지만, 지금은 시장 재편에 직면해 있다. 데이터젠의 경영 파탄에 더하여, 20221~3월 분기 이후에 표 형식 & 텍스트 합성 데이터 스타트업 두 곳이 인수되었다. 독일 스타티스(Statice)는 미국 데이터 시큐리티 기업 Anonos, 레플리카 애널리틱스(Replica Analytics, 캐나다)는 실세계 데이터(RWD)를 제공하는 미국 에티온(Aetion)에 각각 인수되었다.

 

합성 학습 데이터 플랫폼, 개인정보를 보호하고 규제를 준수하면서 AI를 개발

 

기업은 합성 데이터를 활용함으로써 개인의 사생활을 침해하거나 엄격한 규제에 저촉하는 일 없이 현실에 입각한 데이터를 사용하여 AI 모델을 개발 및 테스트할 수 있다.

 

예를 들어, 포춘500AI 부문 책임자는 202312월의 CB 인사이트와의 인터뷰에서 모델 학습 플랫폼의 주요 차별화 요인으로 합성 데이터의 개인정보가 얼마나 중요한지 설명했다.

 

합성 데이터는 합성 데이터 생성 모델이나 사내 데이터세트에 근거하여 완전히 새로운 데이터세트를 생성하는 업자를 활용하여 입수한다. 이러한 데이터는 통계적으로는 동일하지만, 새롭게 생성된 인공적인 데이터이기 때문에, 고객 및 직원의 데이터를 사용하지 않을 수 있어 개인정보의 리스크를 줄일 수 있다.’

 

일부 합성 학습 데이터 플랫폼은 특정한 업계를 대상으로 한다. 예를 들어, 미국 그레텔(Gretel)(업계 특유의 성질 때문에) RWD에 제한이 있거나 입수하기 어려운 금융 등의 업계에 주목하여, 부정 감지 모델에 사용되는 현실적인 합성 금융 데이터의 생성을 지원한다.

 

한편, syntheticAIdata(덴마크)는 자동차 업계의 보행자 감지 및 농업의 원격 환경 모니터링 등 다양한 업계의 특유의 시각 학습 데이터를 제공한다.

 

데이터 생성 스타트업, 거대 기술 기업과의 엄격한 경쟁에 직면

 

합성 데이터 생성 스타트업은 최근 몇 년 사이 투자가의 관심을 받고 있다. 한편, 마이크로소프트 등의 대형 기술 기업은 AI를 활용하여 독자적인 합성 데이터를 생성하고 있다.

 

마이크로소프트는 이번에 모델이 다양한 데이터를 접할 수 있도록 소규모 언어 모델(SLM) ‘Phi-3’의 학습 일부에 LLM이 생성한 합성 콘텐츠를 활용했다. 한편 메타는 합성 데이터를 사용하여 LLM ‘Llama 3’의 학습용 장문을 생성했다.

 

개발자를 위한 툴을 만드는 대형 기술 기업도 있다.

 

IBM20247월에, 모델을 미세 조정하는 데 사용하는 합성 데이터를 생성하는 새로운 도구 인스트럭트 랩을 발표했다.

 

IBM의 아르빈드 크리슈나 최고 경영 책임자(CEO)20244~6월 분기 결산 설명회에서 동사는 이번에 합성 데이터를 생성하여 모델의 미세 조정 효율을 높이는 툴 인스트럭트 랩을 제공하기 시작했다. 고객은 자사의 데이터와 전문 지식을 활용하여 모델의 맞춤화 효율을 높인다라고 말했다.

 

엔비디아도 20246월에 상용 LLM의 학습에 사용하는 합성 데이터를 생성하는 모델군 ‘Nemotron(네모트론) -4 340B’를 제공하기 시작했다.

 

향후 전망

 

미국 오픈AI의 샘 알트만 CEO20245월에 동사가 대량의 합성 데이터 생성을 시도하고 있음을 밝힌 한편 필요한 것은 양질의 데이터다. 질 낮은 합성 데이터도 있는가 하면 질 낮은 사람이 만든 데이터도 있다라고 강조했다.

 

합성 데이터는 데이터를 입수하기 어렵거나 개인정보 보호에 대한 우려가 있는 모델에 도움이 될 가능성이 있다. 한편 실세계를 반영하지 않을 위험성도 있다. 다양성이 결여되면 모델의 출력 편향이 고정화될 우려가 있다.

 

기업은 합성 데이터의 실세계에서의 성능을 주시하면서 기밀성이 높은 용도로 사용되는 경우 개인정보 보호 면에서의 이점을 고려해야 한다. 또한 거대 기술 기업의 역할이 커지고 있다는 점과 업계 특화형 스타트업은 자금 조달이 저조하더라도 미래성이 있다는 점도 인식해야겠다.

 

 

[AIX(AI transformation)에 대응하는, 2025년 AI기반 솔루션, 서비스 플랫폼 기술, 시장동향과 사업화 전략] 보고서 상세보기

https://www.irsglobal.com/shop_goods/goods_view.htm?category=02000000&goods_idx=98316&goods_bu_id=

게시글 공유 URL복사