Supervised   Learning

 

신경망 (Neural Network) 에서 학습기가 분류 (classification) 하려는 대상이 자갈과 모래라는 것을 미리 알고서 훈련예 (training example) 로서 학습시켜 어떤 대상이 자갈에 속하는지 모래에 속하는지를 분류하는 것이 지도학습 (supervised learning) 이다. 반면에 분류하려는 대상에 대한 어떤 정보도 주어지지 않고 학습기로 하여금 그것이 자갈인지 또는 모래인지 또는 그 밖의 어떤 것인지를 분류하는 것이 자율학습 (unsupervised learning) 이다 (패턴인식 (Pattern Recognition)에서의 분류는 학습 (Learning) 과 같은 의미이다) ....................... (홍대식 1998)

지도학습 (supervised learning) 은 훈련 데이터로부터 함수를 만들어내는 기계 학습 (Machine Learning) 기술이다. 훈련 데이터는 입력 대상 (전형적으로 벡터)의 쌍과 원하는 출력으로 구성된다. 함수의 출력은 연속값 (소위 regression) 일 수 있고 또는 입력 대상의 분류명 (소위 classification) 을 예상할 수도 있다. 지도학습기 (supervised learner) 의 일은 단지 소수의 훈련예 (즉  입력쌍과 목표 출력) 들만을 보고서 유효한 입력대상을 위한 함수의 값을 예측하는 것이다. 이를 위해서 learner 는 이성적인 (reasonable) 방법으로 현재의 데이터로부터 보이지 않는 상황까지 일반화해야 한다. 지도학습의 주어진 문제 (예를들면 필기체 문자를 인식하도록 학습하는 것) 를 해결하기 위해서는 다음의 step 들을 고려하여야 한다.

  1. 훈련예들의 유형 (type) 을 결정한다. 다른 것을 하기전에 엔지니어는 예로서 사용되는 데이터가 어떤 종류의 데이터 인지를 결정해야 한다. 예를들면, 이것이 단 하나의 필기체 문자인지, 전체 필기체 단어인지, 전체 필기체 문장인지 와 같은 것이다.
  2. 훈련 집합을 모은다. 훈련집합은 함수가 실세계에서의 특징을 보일 필요가 있다. 그래서 전문가에 의해서든 측정을 해서 얻어지든, 입력대상 집합이 모아지고 동등한 출력이 모아져야 한다.
  3. 학습함수 (learned function) 의 입력 특징 (feature) 표현 을 결정한다. 학습함수의 정확성은 입력대상이 어떻게 표현되느냐에 크게 좌우된다. 보통 입력대상은 feature vector 로 바뀌고, 대상을 묘사하는 특징적인 수를 포함한다. Feature 의 갯수는 차원의 한계 (curse of dimensionality) 때문에 너무 커서는 안되지만, 출력을 정확히 예상할 수 있을 정도로는 충분히 커야 한다.
  4. 학습함수의 구조와 동등한 학습 알고리즘을 결정한다. 예를들면 엔지니어는 신경망 (Neural Network) 을 사용할건지, 의사결정 트리 (Decision Tree) 를 사용할 것인지를 선택할 수 있다.
  5. 설계를 완성한다. 그리고 나서 모아진 훈련집합 상에서 훈련 알고리즘을 작동시킨다. 학습알고리즘 의 인수 (parameter) 들은 subset (소위 validation set) 에서의 성능을 최적화 함으로써, 또는 cross-validation 을 통해 조정될 수 있다. Parameter 조정과 학습 후에, 알고리즘의 성능은 훈련집합에서 분리된 test set 상에서 측정될 수 있다. ....... (Wikipedia : supervised learning)

example :

역전파 (Back-propagation)

베이즈 추론 (Bayesian Inference)

사례기반 추론 (Case Based Reasoning)

의사결정 트리 (Decision Tree)

나이브 베이즈 분류 (Naive Bayesian Classification)

Support Vector Machine 

계산학습이론 (Computational Learning Theory)

버전공간 (Version Space)

term :

지도학습 (Supervised Learning)   자율학습 (Unsupervised Learning)   신경망 (Neural Network)   패턴인식 (Pattern Recognition)   기계 학습 (Machine Learning)

video :

머신러닝의 세가지 타입 :  DevMento : 김승일 모두의연구소 소장 : 2016/09/28

 

article :

AI 를 두려워하지 않아도 되는 이유? - 서준범 교수 : 의협신문 : 박소영 기자 : 2017/03/06 : 정확하고 지치지 않는, 언제나 안정적인 인공지능 (Artificial Intelligence) 는 인간보다 훌륭한 결과를 낼 수 있다. 의료분야에서도 마찬가지다. 기술이 발전하면 할수록 언젠가 우리 모두는 기계로 대체돼 쓸모없어질지 모른다는 불안감이 사그라들지 않는 이유다. 그러나 2일 본지와 만난 서준범 교수(서울아산병원 영상의학과) 는 "AI가 의사를 대체할 수는 없을 것" 이라 단언했다. 하지만 딥 러닝 (Deep Learning)  기술을 탑재한 AI 가 전문의와 비슷한 어쩌면 조금 더 나은 결과를 제시할 수도 있다는 놀라운 연구결과도 소개했다. 먼저 지난해 말 JAMA에 발표된 당뇨망막병증 진단 연구결과 (Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs) 다. 안저촬영 영상 12만장을 주고 구글과 미국 안과의사 54명에게 당뇨병 진단을 내리라고 했는데, 둘의 결과는 크게 다르지 않았다. 또 올 초 네이처에 발표된 논문(Dermatologist-level classification of skin cancer with deep neural networks) 에 도 주목할 만 하다. 피부암을 양성과 악성, 종양이 아닌 것으로 분류시키고, 이들을 비슷한 치료법을 적용하는 9개종으로 분류시켜본 결과에서도 구글과 피부과의사 간 차이가 크지 않았다. 한 마디로 의사 고유의 역할을 AI가 완벽하게 수행한 것이다. 서 교수는 "안과 표준으로 촬영한 안저영상 12만장에서 인공지능은 정확하게 당뇨병을 구분해냈다. 그동안 많은 연구가 있었지만 이를 방대한 데이터로 증명한 것은 이 연구가 처음"이라고 말했다. 이어 "피부암 연구의 경우 더 발전된 케이스다. 의사보다 인공지능이 판별을 더 잘한다는 결과에 가깝다. 논문에서는 스마트폰으로 촬영한 피부 영상으로도 구글은 판독할 수 있다는 언급이 있다"고 설명했다. 미국 샌디에고의 '엘리'라는 AI 사례도 소개했다. 의료진이 말을 건네도 말문을 열지 않던 외상 후 스트레스 장애 (PTSD) 환자가, '감정적 상호작용'이 탑재된 엘리가 말을 건네자 오히려 마음을 터놓고 이야기를 더 잘했다는 것이다. 서 교수는 그럼에도 AI가 의사를 대체할 수 없는 이유로 '지도학습 (Supervised Learning)' 시스템을 들었다. 위 연구결과들이 의미하는 것은 '우리가 만들어낸 기술이 얼마나 데이터 판별을 잘 하느냐'에 불과하다는 것이다. 그는 "지도학습이란 정답을 주고 얼마나 잘하는지를 보는 것이다. 지금은 의사가 정답을 주고 있다. 지도학습을 탑재하는 한 의사를 뛰어넘기 어렵다. AI는 의사를 도와주는 형태로 갈 수밖에 없을 것"이라 전망했다. 현재 연구 중인 '인공지능 의료영상 사업단'의 의의도 '조력자' 역할에 있다고 설명했다. 그는 "영상을 활용한 병의 분류기술을 연구 중이다. 이는 의사가 하는 수많은 반복적인 일 중 하나이며, 시간을 많이 빼앗기는 일이다. 이것만 AI가 도와줘도 의사는 아주 편해진다"고 말했다. 이어 "의료의 효율을 떨어뜨리는 분야, 즉 정확도가 낮거나 시간이 오래 걸리는 분야를 AI가 자동화공정으로 만들어주면 전체 효율이 증가할 것이다. 이러한 목적에서 왓슨과 다르다"라고 말했다. 물론 왓슨도 크게 두려워할 필요가 없다고 했다. 그는 "왓슨은 데이터를 분석해 기존 가이드라인을 찾고 가장 적절한 해답을 제시하는 메커니즘을 사용한다. 결정론에 기반한 기술에 가깝다"라며 "외국에서는 우리나라만큼 왓슨을 두려워하지 않는다. 한 병원에서 잘 작동하던 왓슨이 다른 병원에서 새로운 데이터를 만나면 다른 결과를 낼 수 있다. 그렇다면 널리 쓸 수 있겠는가"라고 반문했다. 또 "보통 AI를 이야기하면 사람처럼 모든 것을 배우고 행동하는 인간급 머신을 떠올린다. 그러나 이같은 강 인공지능 (Strong AI) 는 전 세계에서 제대로 시도된 바 없다. 알파고 (AlphaGo) 도 약인공지능(weak AI) 에 속한다. 이세돌을 이겼다고 모든 면에서 뛰어난 게 아니다. 인간이 수행하는 특정 부분을 잘 하는 것"이라 밝혔다. 서 교수는 "작년에 알파고 사태가 터진 게 우리나라에 굉장히 다행스러운 일이었다고 생각한다. 딥러닝 기술 연구는 수년 전부터 활발하게 일어나고 있었지만 국내 산업에서 적용되지 않고 있었다"라며 발전 가능성을 긍정적으로 점쳤다. 한편, 서준범 교수는 14년간 컴퓨터 소프트웨어의 의료융합을 연구해왔다. 아산병원 연구전담교수로서 영상 소프트웨어를 통해 정량적·객관적 질병평가 기술 연구를 계속해왔다. 4년째 국내 AI 벤처들과 연구협력 중인 그는 최근 산업통상자원부가 100억원의 예산으로 지원하는 '인공지능 의료영상 사업단'의 사업단장도 맡아 국책과제를 수행 중이다.