게시물 검색

바이오/의료 의료 AI 개발의 ‘3가지 장애물’, 왜 니즈는 있는데 개발은 되지 않을까?

  • 관리자 (irsglobal1)
  • 2021-07-13 11:26:00
  • hit108
  • 220.126.211.51

출처 : https://www.sbbit.jp/article/cont1/38036

미츠무라 나오키의 ‘이제 와서 묻지 못할’ 기술 강좌

 

딥러닝을 비롯한 인공지능(AI) 기술이 발전함에 따라 의료 분야에서도 AI를 개발하기 시작했다. 의사가 찾아내지 못한 질환을 IBM의 Watson이 발견하거나, 조기 발견이 중요한 안구 질환을 발견하는 데 구글의 AI가 도움을 주는 등 성과를 보이기 시작했다. 내시경 화상을 진단하는 AI 개발은 세계적인 트렌드가 되었다. 이러한 의료 AI는 일손 부족이 심각한 의료를 구할 비장의 무기가 될 것이라는 기대를 받고 있지만, 사실은 의료용 AI 개발에는 커다란 장애물이 존재한다.

 

장애물(1) 의사는 바쁘고, 라벨을 매길 일손이 부족하다

 

의료용 AI 개발의 첫 번째 장애물은 학습 데이터를 만드는 인재가 부족하다는 것이다. 더욱 엄밀히 말하면, 의료용 데이터에 라벨을 매기는 인재가 부족하다. 여기서 말하는 ‘라벨을 매긴다’는 것은 AI에게 학습시키기 위한 데이터에 ‘정답 정보’를 부여하는 작업(어노테이션)이다.

 

예를 들어 X레이 사진을 보고 화상 진단을 하는 AI를 만들 경우, 각각의 X레이 사진이 무슨 사진인지 축적하지 않으면 AI는 효율적으로 학습을 진행할 수 없다. 누군가가 화상을 보고 ‘이건 폐암이고, 저건 심장질환, 이건 골절...’이라고 분류해주어야 한다. 문제는 누가 어떻게 그 정보를 갖추게 할 수 있는가 하는 것이다.

 

견(犬)종 진단 AI를 만든다면, 아무나 라벨을 매길 수 있다. 각 견종의 샘플 사진을 보고, 인터넷에서 모아온 데이터를 분류하기만 하면 되니까.

 

그런데 의료 화상은 그럴 수 없다. X레이 사진의 샘플 사진을 보여주고 ‘비슷한 것을 분류하라’고 해도, 아무것도 모르는 초보자는 할 수 없을 것이며, 생명과 관련된 분류 작업이므로 아무렇게나 라벨을 매길 수도 없다. 이러한 학습 데이터를 사용하여 AI가 학습하고, 그 데이터를 통해 AI의 정밀도가 결정된다. 정밀도 높은 학습 데이터가 필요하다. 그렇다면, 그 분야의 전문가인 의사가 하는 수밖에 없다.

 

또한 의사의 세계에는 의료용 화상 진단의 전문가인 ‘방사선 진단 전문의’가 있다. 이 자격을 취득하려면 의사 면허를 취득한 후 5년간 임상 연수를 하고, 또 2년간 부문 연수를 한 후에 시험을 통과해야 한다. 게다가 시험을 치르려면 일정 기간 동안 수천 건의 증례를 다루었다는실적이 있어야 한다. 의사들 중에서도 뛰어난 엘리트라 할 수 있다. 그런 엘리트 의사에게 ‘수만 건의 의료용 화상을 그냥 분류해달라’고 부탁해서 승낙을 구하려면, 얼마나 많은 보수를 주어야 할까?

 

또한 안 그래도 포화 상태의 화상 진단 업무를 안고 있는 병원에서 그런 의사를 빼내오는 것은 어려운 일이다. 가령 ‘짬 나는 시간에 해달라’고 부탁하더라도, 한두 사람 가지고는 필요한 라벨을 다 매기기까지 오랜 시간이 걸릴 것이다. 그럴 땐 많은 의사에게 부탁하여 조금씩 진행하게 해야 한다. 그렇게 되면 또 다른 문제가 발생한다.

 

의료용 화상을 진단하는 일은 견종을 식별하는 것과 달리 뚜렷이 알 수 있는 일이 아니다. 같은 환자라도 진행 상황에 따라 다르게 봐야 하고, 다양한 증상이 나타나는 경우나 특수한 형태를 띠는 경우, 거의 다 낫고 있는 경우를 포함하면, 라벨을 매기는 방법은 무수히 많다. 모호한 상태로 학습 데이터를 만들면, 의료용 AI의 정밀도가 낮아진다. 기준을 통일하기 위해 협력하는 의사 한 사람 한 사람과 상담하여 ‘이 경우는 이렇게 하세요’라고 설명해야 한다. 참고로 전자 진료기록의 정보를 이용하는 경우에도 기준을 통일시키는 작업이 필요하다.

 

관련된 의사가 늘어나면 늘어날수록 이러한 커뮤니케이션을 취하는 시간도 늘어나고 비용도 많이 들어가게 된다. 이러한 학습용 데이터를 조정하는 작업은 화상 진단 AI 이외에서도 필요하며, 일정한 수준의 의료 정보를 다루는 의료용 AI라면 어느 부분에서든 의사의 협력이 필요하기 때문에, 작업에 대한 이해와 원활한 커뮤니케이션이 필요하다.

 

장애물(2) 부족한 연구 예산

 

이미 말한 바와 같이, 의료용 AI의 학습 데이터를 만들려면 의사에게 장시간 동안 단순 작업을 시켜야 한다. 그러려면 당연히 그에 맞는 보수가 필요하다. 독영(讀影) 진단 업무를 기준으로 생각하면, 시급으로는 10만 원 정도, 장수로는 1장당 만원 정도를 주어야 한다.

 

물론 실제로 환자가 존재하는 진단 업무는 아니기 때문에, 가벼운 마음으로 할 수 있다는 점을 생각한다면 이보다는 보수를 적게 줄 수도 있을 것이며, 어느 정도 분량을 모아서 의뢰함으로써 더욱 예산을 낮출 수 있다. 그래도 AI를 학습시키려면 수만 장의 화상 데이터가 필요하다는 점을 생각하면, 화상에 라벨을 매기는 작업만으로도 가볍게 수천만원에서 수억원은 들어갈 것으로 예상된다.

 

게다가 라벨을 매기기 전에 화상 데이터 자체를 모아야 하며, 알고리즘 및 개발환경을 구축하고, 학습과 평가, 시범 운용 과정에 들어가는 비용을 고려하면, 몇십억은 넘어갈지도 모른다. 그에 더해, 질환마다 라벨을 매겨야 하기 때문에 AI가 진단할 수 있는 환자를 증가시키려 할 때마다 비용이 들어간다. 그리고 그만한 연구 예산을 내놓을 수 있는 조직은 별로 없다.

 

또한 연구 프로젝트 자체도 무수히 많기 때문에, 국가에서도 어디에 예산을 투자해야 하는지 알 수 없어, 충분한 예산을 얻는 프로젝트가 있는가 하면, 그렇지 못한 프로젝트도 있다. 사용할 수 있는 예산에 따라 충분한 학습 데이터를 준비할 수 있는지가 결정되기 때문에, 프로젝트의 명운을 예산을 보면 금방 점칠 수 있다.

 

장애물(3) 개인정보 보호의 장벽

 

한편, 학습 데이터 자체는 어느 정도 돌려가며 사용할 수 있다. 그래서 학습 데이터를 사용하는 비즈니스를 전개하는 기업도 생겨나게 되었고, 수요가 큰 학습 데이터는 저렴하게 손에 넣을 수 있게 되었다. 하지만 의료용 학습 데이터는 앞서 말한 것처럼 비용이 걸리는 데다 증상 및 병원마다 데이터가 분산되어 있으며, 개인정보의 장벽이 높아, 어느 조직에서도 쉽게 다룰 수 없다.

 

특히 개인의 의료 데이터는 개인정보 보호법 중에서도 특별히 신중하게 다루어지는 요배려 개인정보로 규정되어 있어, 개인의 동의가 없으면 이용할 수 없다. 데이터를 익명화하면 이용할 수 있긴 하지만, 의료 데이터를 다루는 병원에서 법률에 준거하는 형태로 익명화 처리를 실시하여 연구자에게 건네는 데에는 시간과 비용이 들어가며, 그 장벽을 뛰어넘어 연구자에게 협력하는 병원은 많이 없다. 이것은 전자 진료기록에 기재된 진단 정보와 의료용 화상의 라벨을 그대로 연결 지을 수 없는 이유 중 하나이다.

 

상황을 타개하는 ‘의료용 데이터베이스 플랫폼 구상’

 

이처럼 의료용 인공지능을 만들기 위해 필요한 학습 데이터를 준비하려면 ‘항상 바쁘고 인원이 부족한 의료관계자의 협력’, ‘높은 전문성을 가진 협력자에게 보수를 줄 수 있을 만큼의 충분한 예산’, ‘개인정보 보호의 장벽을 뛰어넘는 의료기관의 존재’, 이렇게 3가지 조건이 갖추어져야 하며, 이것이 일본에서 AI 개발의 장애물이 되고 있다. 이러한 문제들이 해결되지 않으면, 일본에서 훌륭한 의료용 인공지능을 개발하기는 어렵다.

 

하지만 이러한 문제를 근본적으로 해결하는 것이 불가능한 것은 아니다. 임상 현장에서 사용되는 전자 진료기록 정보나 진단에 사용되는 의료용 화상을 익명화하여 데이터베이트에 저장하고, 그것을 연구자가 이용할 수 있는 플랫폼을 제공하면 된다.

 

이러한 ‘의료용 데이터베이스 플랫폼’ 구상은 세계적으로 진행되고 있으며, 일본에서도 AMED(국립 의료 연구개발 기구)가 채택한 의료용 화상을 대상으로 하는 데이터베이스 플랫폼이 구축되고 있으며, 화상 데이터뿐 아니라 전자 진료기록을 통해 수집되는 개인의 건강정보(PHR : Personal Health Record)를 의료 연계 네트워크(HER : Electric Health Record)에 집약하여, 의료기관 및 연구자가 이용할 수 있게 하는 ‘천년 카르테’라는 프로젝트도 진행되고 있다.

 

플랫폼에 의해 현장이 어떻게 달라질까

 

플랫폼이 있으면 모든 의료 데이터를 연구에 이용할 수 있는 것은 아니지만, 의료용 인공지능을 개발하는 데 필요한 데이터를 이용하기가 더 쉬워지기 때문에 큰 변화가 있을 것으로 기대된다. 지금까지는 쉽게 이용할 수 있는 의료용 데이터가 대부분 서양의 것이었으므로, 일본인에게는 사용하기 어려워, 일본 국내에서는 실용 수준의 의료용 인공지능을 만들기에는 충분하지 않았다.

 

일본 국내에서 이러한 의료용 데이터베이스가 만들어지게 되면, 의료용 AI의 개발도 원활하게 진행될 뿐 아니라, 환자와 관련된 상황을 공유하거나 대책을 세우는 속도가 더 빨라진다. 지방 병원에서는 원인을 알 수 없는 질환을, 도시에 있는 병원에서 곧바로 분석할 수 있으며, 개인 수준에서는 약 수첩을 들고 다닐 필요가 없어지게 될지도 모른다.

 

2020년 신종 코로나 바이러스가 유행했을 때 감염증에 관한 의료기관의 보고가 FAX로 이루어졌다는 사실이 화제를 모은 바 있는데, 앞으로는 신속하게 정보를 공유할 수도 있을 것으로 보인다.

 

또한 이러한 의료용 데이터를 필요로 하는 AI는 화상 진단뿐 아니라 의료품 및 백신 개발에서도 중요한 도구이다. 코로나 바이러스의 치료약이나 백신을 개발하는 데에도 인공지능이 활용되고 있으므로, 인공지능이 세계적인 팬데믹에 대항하는 비밀병기가 될지도 모르겠다.

 

또한 AI를 효과적으로 활용하기 위해서는 뛰어난 알고리즘뿐 아니라 그것을 뒷받침하는 데이터가 필요하다. 의료용 데이터 플랫폼이 가동되어도 의료용 학습 데이터의 질과 의료용 인공지능의 성능을 평가하기 위해 의료종사자의 협력이 필요하다는 점은 달라지지 않는다. 의료 뿐 아니라 인공지능의 개발로 인한 과제 및 어려움이 널리 공유되어 관계자 및 관계기관의 협력을 신속하게 얻을 수 있게 된다면, 인공지능 개발은 더욱 원활하게 진행되지 않을까.

 

 

[의료ㆍ헬스케어ㆍ제약 분야의 AIㆍ빅데이터 핵심기술 개발 및 활용 동향 분석] 보고서 상세 보기

https://www.irsglobal.com/shop_goods/goods_view.htm?category=02000000&goods_idx=84560&goods_bu_id=

 

게시글 공유 URL복사
게시물 검색
List of articles
번호 분류 제목 작성자 작성일 조회수
596 에너지/환경 [물 이용ㆍ물 처리] 분야 신기술 개발 및 기술 토픽 new photo 관리자 2021-07-29 hit2
595 자동차/로봇 “서비스 로봇(Service Robot)” 연구개발 동향 new photo 관리자 2021-07-28 hit1
594 ICT/정보통신 식문화의 혁명으로 다가오는 ‘3D 푸드 프린터’ photo 관리자 2021-07-15 hit127
593 바이오/의료 의료 AI 개발의 ‘3가지 장애물’, 왜 니즈는 있는데 개발은 되지 않을까? photo 관리자 2021-07-13 hit108
592 에너지/환경 생물다양성 연구개발 동향 photo 관리자 2021-07-12 hit119
591 에너지/환경 기후변화 예측 관련 기술 개발 및 토픽 photo 관리자 2021-07-12 hit138
590 ICT/정보통신 마이크로 러닝(Micro Learning) photo 관리자 2021-06-28 hit279
589 ICT/정보통신 에듀테크(EduTech) 스타트업 TOP 5 photo 관리자 2021-06-28 hit310
588 에너지/환경 태양광발전 / 우주 태양광의 주요국별 연구개발 동향 photo 관리자 2021-06-21 hit295