게시물 검색

ICT/정보통신 AI 주역으로 급부상하는 GPT-3

  • 관리자 (irsglobal1)
  • 2021-09-13 11:27:00
  • hit3301
  • 118.47.187.105

1. GPT-3이란?

 

GPT-3은 2015년 12월에 일론 머스크 등 유력한 투자가가 참가하면서 주목을 받은 OpenAI가 개발한 언어 모델의 최신 버전이다.

 

약 45TB의 대규모 텍스트 데이터 코퍼스를 약 1750억 개의 파라미터를 사용하여 학습하기 때문에 높은 정밀도로 단어의 다음에 올 단어를 예측할 수 있어, 마치 인간이 쓴 것과 같은 문장을 자동으로 생성한다.

 

그러면 특정한 단어의 다음에 올 단어를 예측하는 것은 구체적으로 어떤 것일까? 예를 들어 ‘내일 날씨는’이라는 단어열이 주어졌을 경우, 다음에 올 단어의 확률을 맑음 : 40%, 흐림 : 30%, 비 : 15%, 밝음 : 5%, 기쁘다 : 5%, 맛있다 : 3%, 는 : 2%라고 한다면, ‘내일 날씨는’ 다음에 올 단어는 날씨를 나타내는 단어인 ‘맑음’, ‘흐림’, ‘비’ 순으로 확률이 높을 것이며, ‘밝다’, ‘기쁘다’, ‘맛있다’, ‘는’이 올 확률은 낮다. GPT-3은 이처럼 특정한 단어의 다음에 올 단어를 높은 정밀도로 예측함으로써 자동으로 문장을 완성한다.

 

<그림> 언어 모델의 이미지

 

GPT-3의 라이선스는 2020년 Microsoft가 OpenAI로부터 단독 라이선스를 취득했다. 또한 GPT-3은 오픈소스로서 제공되지 않고 있어, 현재 OpenAI의 API를 통해 이용할 수 있게 되어 있다. 하지만 API를 이용하려면 따로 신청해야 하며, 현재는 순서를 기다리고 있는 상태이다.

 

2. 거대한 데이터 세트와 네트워크

 

앞서 기술한 것처럼 GPT-3은 약 45TB의 대규모 덱스트 데이터를 사전 학습한다. 이것은 GPT-3의 이전 버전인 GPT-2의 사전 학습에 사용되는 텍스트 데이터가 40GB였음을 생각하면 약 1100배 이상에 달한다. 또한 GPT-3에는 약 1750억 개의 파라미터가 존재하는데, 이것은 GPT-2의 파라미터가 약 15억 개였던 것에 비하면 약 117배에 달한다. 이처럼 GPT-3은 GPT-2에 비해 훨씬 큰 데이터 세트를 사용하여 대량의 파라미터로 사전 학습하고 있음을 알 수 있다.

 

3. GPT-3의 특징

 

그럼 이처럼 높은 정밀도로 문장을 생성하는 GPT-3의 특징에 대해 정리한다.

 

첫째로, GPT-3은 사전 학습한 모델에 대해 파인 튜닝이라는 기존의 모델을 이용하여 파라미터를 미세 조정하여 추가 학습함으로써, 새로운 모델을 재구축하지 않고도 높은 정밀도로 예측할 수 있다. 일반적으로 기계학습에서 높은 정밀도로 예측하는 경우, 사전에 범용적인 데이터로 학습한 모델에 대해 예측하고자 하는 영역(도메인)의 데이터를 추가 학습시킴으로써 더욱 높은 정밀도의 예측을 실현한다. 예를 들어, 금융기관에 적용하는 경우에는, 사전에 범용적인 데이터 세트를 학습한 모델에 대해 금융기관에서 사용하는 데이터 세트를 추가로 학습시킨다. 그런데 GPT-3은 파인 튜닝을 하지 않고도 높은 정밀도로 예측할 수 있다는 점이 첫 번째로 뛰어난 점이라 할 수 있다.

 

둘째로, GPT-3은 ‘Few Shot learning’이라 불리는 문장의 주제 및 제목의 일례, 프로그래밍 코드의 일부를 태스크로 부여하여 실행하기만 하면 다양한 케이스(문장 생성, 빈칸 채우기 문제, 기계 번역, 질의응답 등)에 맞는 태스크를 수행할 수 있다. 이것은 GPT-3이 적은 수의 사례로 학습한다는 것을 의미한다. 또한 ‘Few Shot learning’을 설정하면, 충분히 학습된 모델의 정밀도를 뛰어넘게 된다는 사례도 보고된 바 있다. 구체적으로 말하면, 문장의 마지막 글자를 맞히는 빈칸 채우기 문제 태스크, 문장 생성 태스크, 지식을 검증하는 태스크에서 정밀도 높은 결과를 제시한다. 특히 문장 생성에 있어서, GPT-3은 인간이 쓴 것처럼 보이는 자연스러운 문장을 만들 수 있다. 해외에서 GPT-3을 활용하여 가짜 블로그를 작성해본 결과, GPT-3이 쓴 것임을 깨달은 사람은 거의 없었다는 사례도 있고, GPT-3을 사용하여 해외 사이트의 게시판에 글을 올렸더니 약 일주일 동안 아무도 눈치채지 못하고 GPT-3과 대화했다는 사례가 있다. 가짜 블로그나 페이크 뉴스를 쉽게 작성할 수 있다는 점은 GPT-2 때부터 일컬어져 왔던 점이지만, GPT-3에서는 더욱더 인간적인 문장을 생성할 수 있게 되었다고 할 수 있다.

 

4. GPT-3의 활용 사례

 

GPT-3의 활용 사례로는 어떤 것이 있을까? 백 오피스 업무라면, GPT-3을 활용하여 제안서, 품의서, 매뉴얼, 사양서 등 업무에서 사용하는 각종 서류를 자동으로 생성할 수 있다. 또한 매뉴얼과 같은 서류를 가지고 FAQ를 자동으로 생성하여 업무에 활용할 수도 있다.

 

더욱이 GPT-3을 질의응답에서 이용할 수도 있다. 실제로 개발사인 OpenAI가 질의응답 태스크를 위해 설계한 훈련용 문장을 학습한 후 지식을 필요로 하는 상식 문제를 내봤더니 높은 정답률을 기록한 사례도 있어, 챗봇에 활용하거나 콜센터의 오퍼레이터 업무에서 메일 자동 발송에 활용할 수 있을지도 모르겠다. 회의의 효율 향상이라는 면에서는, 의사록의 내용을 높은 정밀도로 자연 요약하는 데에도 사용할 수 있다.

 

다음으로 영업 업무에서는 GPT-3에 상품의 개요 및 사진을 입력함으로써 자동적으로 캐치프레이즈를 작성하게 할 수도 있다. 이처럼 GPT-3을 활용하여 업무의 효율을 향상할 뿐 아니라 고품질의 서비스를 제공할 수 있는 미래가 올지도 모르겠다.

 

5. GPT-3의 과제

 

GPT-3에는 현재 몇 가지 과제가 남아 있다. 여기에서는 그 중에 중요한 3가지를 소개한다.

 

(1) 문장 생성과 문장의 관계성에 관한 과제

 

GPT-3이 만든 문장은 과거의 정보를 바탕으로 단어를 나열하고, 문법적으로 그럴싸한 문장을 만드는 것이기 때문에, 장문을 생성하게 되면 같은 의미의 단어를 반복하거나 결론이 모순되는 문장을 만들어내는 경우가 있다. 또한 인간과 같은 상식을 갖고 있지 않기 때문에, 사회 통념상 맞지 않는 문장을 만들 수도 있다. 또한 두 문장의 관계성을 비교하는 능력에도 과제가 있다. 구체적으로 말하면, 두 문장 안에 사용된 단어가 같은 의미인지 아닌지 비교하거나 두 문장 중에서 한쪽이 다른 쪽을 암묵적으로 나타낸다는 것을 비교할 수 없다. 이것은 GPT-3이 앞 문장에 있는 단어와의 관계성을 패턴 학습하기 때문에 일어나는 문제이며, 뒤에 있는 단어를 가지고 앞 단어와의 관계성을 물어보는 문제를 푸는 것을 어려워한다. 하지만 두 문장의 관계성을 이해하는 능력은 원래 자연언어 처리 분야에서는 어려운 과제 중 하나이다.

 

(2) 추론에 대한 과제

 

GPT-3은 물리적 현상의 추론 문제에 약하다는 보고가 있다. 유명한 사례를 들자면, ‘냉장고에 치즈를 넣으면 녹을까?’라는 질문에 대해, GPT-3은 올바로 답변하지 못한다. 또한 인간이라면 ‘의미를 알 수 없다’고 대답할 만한 난센스 질문에도 제대로 답변하지 못한다. 예를 들어 ‘태양의 눈은 몇 개인가?’라는 질문에 대해, ‘태양의 눈은 하나다’라고 답한다. 이처럼 인간이 가진 상식이나 추론에 근거한 자연언어 이해를 실현하고자 하는 시도는, ‘그것이 실현 가능한가?’하는 문제까지 포함하여 크게 의논되는 안건 중 하나이다. 또한 추론 및 상식을 요구하는 태스크에 대해, 텍스트와 지식 기반을 융합시켜 심층학습을 실시함으로써 인간 수준의 자연언어 이해력을 획득하게 하려는 접근방식이 하나의 트렌드로 자리 잡았다.

 

(3) 방대한 운용 비용 문제

 

GPT-3을 운용하는 데 들어가는 비용도 문제이다. 구체적으로 말하면, GPT-3의 토대가 되는 인프라를 정비하는 비용과 방대한 파라미터를 사용하는 사전 학습 등의 운용 비용이 존재하며, 그것을 고려하면 가볍게 운용할 수는 없는 수준이다. 이러한 문제에 대해서는, 향후 사전 학습 알고리즘이 발전함에 따라 더욱 적은 비용으로 GPT-3을 이용할 수 있게 해야 한다.

 

이처럼, GPT-3은 현재로서는 문제가 있기는 하지만, 앞으로 기술이 진화되면, 인간 수준의 자연언어 이해력에 근거하여 자연언어 처리 분야가 더욱더 발전하게 될 가능성이 있다.

 

 

[2022 차세대 AI(인공지능) 혁신 기술 트렌드 및 시장 전망] 보고서 상세보기

https://www.irsglobal.com/shop_goods/goods_view.htm?category=02000000&goods_idx=85038&goods_bu_id=

게시글 공유 URL복사