ICT/정보통신 기계학습에서의 학습 데이터의 중요성? 작성 방법 및 종류 해설
- 관리자 (irsglobal1)
- 2023-12-07 18:15:00
- hit5247
- 220.126.211.144
최근 AI 기술이 발전하면서 다양한 기업이 AI를 도입하고 있으며, 직원의 일하는 방식에도 조금씩 변화가 생기고 있다. 특히 오늘날에는 일하는 방식 개혁이 이루어지고 있기 때문에 AI를 활용함으로써 직원 한 사람 한 사람의 부담을 줄이는 기업도 적지 않다.
그렇지만 AI를 활용하여 업무 효율을 높이려면 더욱 예측 정밀도가 높은 AI를 도입해야 한다. 그 AI의 예측 정밀도에 크게 관여하는 것이 ‘학습 데이터’이며, 학습 데이터의 AI 활용의 성패를 좌우한다고 해도 과언이 아니다.
그래서 이번에는 기계학습에서의 학습 데이터의 중요성에 대해 소개하고 그 작성 방법 및 종류도 함께 해설한다.
▣ 기계학습 모델의 정밀도는 학습 데이터에 달려 있다.
학습 데이터란 기계학습 모델을 학습시키는 데 필요한 정보이다. AI는 이 정보를 계속해서 사용하면서 예측을 조정함으로써 정답률을 높인다.
학습 데이터는 다양한 방법으로 활용되는데, 그것은 어디까지나 예측의 정밀도를 높이는 것을 목적으로 한다. 그러한 학습 데이터 중에는 ‘입력 데이터’와 ‘출력 데이터’라는 두 종류의 데이터가 있다. 이 두 종류의 데이터는 ‘그라운드 트루스(ground truth)’라 불리는데, 기계학습 모델은 그라운드 트루스를 바탕으로 뉴럴 네트워크 등의 기술을 활용하여 알고리즘을 생성한다.
또한 변수 및 관련된 세부점은 기계학습 프로세스에서 꼭 필요한 것이며, 서로 다른 기계학습 태스크의 데이터세트(입력 데이터와 출력 데이터)의 겉모습은 크게 다르다.
● 기계학습이란?
기계학습이란 기계가 방대한 양의 데이터를 학습함으로써 스스로 규칙을 배우고 그 규칙에 따라 예측 및 판단하는 기술이다. 학습 방법으로는 방대한 양의 데이터를 학습하여 특징을 파악하는 ‘지도 학습’과 다양한 차원에서 데이터를 분류하는 ‘비지도 학습’, 그리고 스스로 시행착오를 거쳐 정답을 찾는 ‘강화학습’이 있다.
AI에서의 기계학습의 위치는 ‘AI의 요소 기술 중 하나’라고 표현할 수 있다. 그러한 기계학습에서는 ‘이미지 판별’ 및 ‘미래 예측’을 할 수 있다.
‘이미지 판별’은 Facebook 등의 서비스에 탑재된다. 사람의 얼굴을 판별하는 기능에는 기계학습이 활용된다. 이를 통해 자신의 얼굴이 찍힌 사진을 자동으로 판별하여 ‘○○ 씨와 함께 있습니다’라고 표시할 수 있다. 사진의 판별은 기계학습을 통해 사람의 얼굴을 인식하기 때문에 실현된다.
‘미래 예측’에서는 지금까지 축적해 온 데이터를 기계학습함으로써 미래가 어떻게 될지 예측한다. 이러한 알고리즘 자체는 다양하게 존재하지만, 적절한 것을 선택한다면 정밀도 높은 예측을 할 수 있다. 경우에 따라서는 스포츠 경기의 결과나 주가 등도 예측할 수 있을지 모른다.
● AIㆍ딥러닝과의 차이
AI는 ‘Artificial Intelligence’의 약자이며, 번역하면 ‘인공지능’이라는 뜻이다. 일반적으로 인간의 뇌에서 이루어질 법한 작업을 컴퓨터가 똑같이 모방하여 자연언어를 이해하거나 논리적으로 추측하거나 경험에 근거하여 학습하는 것을 목적으로 하는 프로그램을 ‘AI’라 부른다. 그리고 AI가 방대한 양의 데이터를 학습하고 예측ㆍ판단하는 기술을 ‘기계학습’이라고 한다.
또한 딥러닝은 방대한 양의 데이터를 학습하고 공통점을 자동으로 추출함으로써 상황에 따른 유연한 판단을 내릴 수 있는 ‘기계학습 기술 중 하나’를 가리킨다. 기존의 기계학습과 다른 점은 더욱 정확하게 분석할 수 있다는 점이다. 또한 딥러닝의 위치를 따지자면, 기계학습의 일부인 ‘지도 학습’에 속한다고 할 수 있다.
● 정밀도를 향상하려면 대량의 질 좋은 학습 데이터가 필요
기계학습의 정밀도를 높이려면 대량의 질 좋은 학습 데이터가 필요하다. 축적된 학습 데이터의 양과 질에 따라 결과의 정확성이 크게 달라지기 때문이다. 그러므로 학습 데이터를 통해 특징량을 취득하는 것이 기계학습에 있어 가장 중요한 포인트라 해도 과언이 아니다.
기계학습에서 주로 이용되는 학습 데이터로는 ‘이미지 데이터’ ‘음성 데이터’ ‘텍스트 데이터’ ‘수치 데이터’가 있다. AI를 도입하는 경우에는 목적에 따라 최적의 데이터를 대량으로 수집하는 것이 중요하다.
AI는 ‘아무것도 모르는 상태’에서 구축해야 하기 때문에, 무(無)의 상태에서 더욱 많은 데이터를 받아들이고 축적하여 학습하는 것이 중요하다. 하지만 ‘그냥 대량의 데이터를 모으기만 하면 되는 것’은 아니다. 모호한 데이터나 잘못된 데이터를 학습시키게 되면 AI의 판단과 예측의 정밀도에도 악영향이 미치기 때문이다.
최근에는 무료로 이용할 수 있는 API나 데이터세트도 존재하기 때문에, 그러한 것들을 이용하는 것도 효과적이다. 또한 유료로 데이터세트를 제공하는 기업도 있으므로, 그러한 기업의 서비스를 활용하는 것도 한 가지 방법이다.
▣ 학습 데이터의 3가지 종류
AI의 목표는 더욱 정확한 모델을 작성하는 것이며, 그 모델의 질을 높이려면 ‘훈련 데이터’ ‘검증 데이터’ ‘테스트 데이터’, 이렇게 3가지로 학습 데이터를 구분하여 활용해야 한다. 이러한 3가지 학습 데이터의 주요 역할은 다음과 같다.
- 데이터 : 모델이 똑똑해지는 데 사용되는 데이터
- 데이터 : 하이퍼 파라미터를 조정하는 데 사용되는 데이터
- 데이터 : 학습이 끝난 모델의 범용성을 평가하는 데 사용되는 데이터
▣ 학습 데이터를 만드는 방법
그렇다면 실제로 학습 데이터를 만들 때 어떤 순서대로 진행해야 할까. 이제 학습 데이터를 만드는 방법에 대해 자세히 설명한다.
● 과제 설정
학습 데이터를 작성하는 것에만 국한하지 않아도, 일반적으로 기업이 어떤 프로젝트를 진행할 때 제일 먼저 해야 하는 것이 바로 ‘과제ㆍ목적을 명확히 하는 것’이다. 이 과정을 거침으로써 어떤 방침으로 임해야 하는지 우선순위를 명확히 할 수 있고, 프로젝트가 길을 잃게 될 리스크를 줄일 수 있다.
그러므로 학습 데이터를 작성할 때도 먼저 ‘프로젝트를 통해 달성하고자 하는 목표’ ‘지금 기업이 가지고 있는 과제’ 등을 명확히 해야 한다. 예를 들어 ‘마케팅에서 수요 예측의 정밀도를 높이는 것’ ‘정형 업무의 자동화를 통해 생산성을 높이는 것’ 등이 목표가 될 수 있다.
AI를 도입하는 것, 기계학습을 실천하는 것은 목적이 아니며, 어디까지나 ‘기업의 이익이나 생산성을 향상시키기 위한 한 가지 수단’임을 염두에 두어야 한다.
● 데이터 수집
학습 데이터를 작성하는 목적이 명확해졌다면, 다음으로 그 목적에 맞는 최적의 ‘학습 데이터’를 수집해야 한다. 학습 데이터를 수집하는 데에는 다양한 방법이 있으며, 대표적인 것으로 ‘자사 데이터ㆍ공개된 데이터를 이용하는 방법’ ‘인터넷에서 스크래핑하는 방법’ 등이 있다.
또한 자사 데이터의 일례로는, 소매업이라면 ‘판매 데이터’ ‘고객 정보’ ‘제조업에서의 품질 검사 결과’ 등을 들 수 있다. 공개된 데이터의 일례로는 ‘기상청이 공개한 기상 데이터’ ‘정부가 공개한 조사 결과’ 등을 들 수 있다. 인터넷상에서 스크래핑한다는 것은 인터넷에 공개되어 있는 사이트에 접속하여 정보를 취득하는 것을 말한다.
이처럼 학습 데이터를 수집하는 방법은 다양하기 때문에, 목적을 명확히 한 다음 최적의 데이터를 수집하는 방법을 모색해야 한다.
● 데이터 클린징
데이터 수집이 끝나면 데이터를 클린징해야 한다. 데이터 클린징이란 데이터에 포함된 에러나 결손값, 노이즈와 같은 부적절한 부분을 제거하는 작업을 말한다.
기계학습에서의 학습 데이터는 그저 양이 많으면 좋은 것이 아니다. 어디까지나 질 좋은 학습 데이터를 대량으로 수집하는 것이 중요하다. 그러므로 부적절한 부분을 제거하여 학습 데이터의 질을 높이는 클렌징 작업은 기계학습에 없어서는 안 되는 과정이라 할 수 있다. 또한 학습 데이터를 클렌징할 때는 판정하기 어려운 데이터나 부적절한 라벨 부여, 부적절한 오브젝트 설정이 없는지 여부를 확실하게 확인해야 한다.
● 데이터 통합ㆍ변환
기계학습에서 빼놓을 수 없는 학습 데이터는 자사 시스템뿐만 아니라 외부의 SNS 등 폭넓은 소스에 존재하는데, 이러한 차이를 ‘사일로’라고 한다.
학습 데이터를 전처리할 때는 사일로를 제거한 다음 데이터를 연결 지어 통합해야 한다. 그리고 여러 데이터를 조합하여 기계학습을 실시함으로써 예측ㆍ분석의 정밀도를 더욱 높일 수 있다.
또한 필요에 따라 수집한 학습 데이터를 특정 포맷으로 변환해야 하는 경우도 있다. 데이터의 정합성을 유지하면서 확장성을 배제하는 ‘정규화’, 특정 분야뿐만 아니라 폭넓은 분야에 데이터를 응용할 수 있도록 하는 ‘범용화’ 등은 대표적인 변환 작업이다.
지금까지 소개한 작업은 기계학습의 70%를 차지하는 매우 중요한 과정이다. 그러므로 만약 이러한 과정을 AI를 통해 자동화할 수 있다면, 기계학습의 효율을 한층 더 높일 수 있다.
● 데이터 부풀리기
학습 데이터 부풀리기(Data augmentation)는 학습용 데이터를 다양한 방법으로 변환하여 데이터의 총량을 늘리는 작업을 말한다. 예를 들어 이미지 데이터의 경우라면, 데이터를 회전ㆍ확대시키거나 상하좌우로 이동시키는 처리를 한다. 이 작업을 통해 수집한 데이터의 양이 적더라도 학습 정밀도를 높일 수 있다.
한정된 데이터로 고정밀 예측을 하는 방법은 전이학습이라고도 불리며, 스탠포드 대학의 Andrew Ng 교수가 ‘기계학습을 성공적으로 추진하려면 전이학습이 필요하다’고 말하는 등 최근 매우 큰 주목을 받고 있다.
▣ 학습 데이터가 AI 활용의 성패를 좌우한다.
이번에는 기계학습에서 꼭 필요한 ‘학습 데이터’에 대해 소개했다. 학습 데이터가 없으면 AI를 활용할 수 없다. 그러므로 학습 데이터의 질이 AI 활용의 성패를 좌우한다고 해도 과언이 아니다.
질 나쁜 데이터를 이용하게 된 경우, AI가 엉터리 예측을 하게 될 리스크도 크기 때문에 그 중요성을 이해하고 학습 데이터를 만들어야 한다.
[2024 AI X 비즈니스 구현을 위한 국내 AI기술기업 2000사 디렉토리] 상세보기
https://www.irsglobal.com/shop_goods/goods_view.htm?category=02000000&goods_idx=94096&goods_bu_id=
| 번호 | 분류 | 제목 | 작성자 | 작성일 | 조회수 |
|---|---|---|---|---|---|
| 1053 | 에너지/환경 | ESG/지속가능경영 공급망 실사 의무화(CSDDD) 도입과 협력사 환경 사회 리스크 관리의 중요성 photo | 관리자 | 2026-05-04 | hit255 |
| 1052 | 에너지/환경 | ESG 지속가능경영 유럽연합 기업지속가능성보고지침(CSRD) 도입과 이중 중대성 원칙의 파급 효과 photo | 관리자 | 2026-05-04 | hit183 |
| 1051 | 바이오/의료 | [AI 바이오] - 의료기기 & 바이오 제조 photo | 관리자 | 2026-04-30 | hit219 |
| 1050 | 바이오/의료 | [AI 바이오] - 신약개발 & 뇌·역노화 photo | 관리자 | 2026-04-30 | hit236 |
| 1049 | ICT/정보통신 | 제조업에서 디지털 트윈 활용 트렌드 photo | 관리자 | 2026-04-30 | hit218 |
| 1048 | 에너지/환경 | 글로벌 에너지 저장 장치(ESS) 시장의 구조적 전환과 주요국별 대응 전략 photo | 관리자 | 2026-04-17 | hit507 |
| 1047 | 바이오/의료 | [2026 AI 바이오 트렌드] 150세 무병장수 시대, AI가 설계하는 '비만 치료'와 '역노화'의 미래 photo | 관리자 | 2026-03-24 | hit887 |
| 1046 | 바이오/의료 | [2026 AI 첨단 의료] 스마트폰 앱 치료제부터 나노 로봇까지, SF 영화를 현실로 만드는 융합 헬스케어 photo | 관리자 | 2026-03-24 | hit417 |
| 1045 | ICT/정보통신 | 2026 의료 AI 유망 분야별 기술, 시장 트렌드와 대응 전략 (2) photo | 관리자 | 2026-03-10 | hit3328 |





