Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Regression Model Tree Using Multi-task Learning

Title
Regression Model Tree Using Multi-task Learning
Authors
조세은
Date Issued
2020
Publisher
포항공과대학교
Abstract
실제 취급되는 데이터셋은 일반적으로 독립 변수와 종속 변수 사이의 관계가 서로 이질적인 부분 데이터셋으로 구성되어 있다. 서로 이질적인 부분 데이터셋이 하나로 통합되는 경우, 각 부분 데이터셋의 특징이 전혀 드러나지 않거나 오히려 실제 경향성에 반대되는 경향성을 나타내기도 한다. 따라서 부분 데이터셋 간의 이질성이 존재하는 경우 복잡도가 높은 예측 모델이 필요하지만, 이러한 예측 모델은 학습의 결과를 해석하기 어렵다는 단점이 있다. 반면 모델 트리는 이질적인 데이터셋을 부분 데이터셋으로 나누고, 각 부분 데이터셋에 대한 해석 가능한 예측 모델을 제공한다. 이러한 이점으로 인해 많은 모델 트리 방법론이 개발되었지만, 기존 모델 트리 방법론의 대부분은 학습하는 과정에서 두 가지 문제가 발생한다. 첫 번째 문제는 모델 트리가 하나의 데이터셋을 부분 데이터셋으로 나누기 때문에, 특정 부분 데이터셋의 데이터 개수가 부족해질 수 있다는 것이다. 학습 데이터의 개수가 부족할 경우, 예측 모델의 과적합이 발생하여 모델의 성능을 저하시킬 수 있다. 두 번째 문제는 모델 트리는 각 부분 데이터셋에 대해 예측 모델을 독립적으로 학습시키기 때문에, 서로 다른 노드에서 공유되는 전역 효과를 반영하지 못할 수 있다는 것이다. 본 연구는 멀티태스크 학습 기법을 사용하여 말단 노드의 선형 회귀 모델을 학습하는 회귀 모델 트리 알고리즘을 제안한다. 멀티태스크 학습 기법은 여러 개의 태스크 사이에 공유되는 정보를 활용하여 관련되어 있는 다수의 태스크를 동시에 학습하는 방법론이다. 멀티태스크 학습 기법은 훈련 데이터가 적은 태스크의 예측 성능을 높일 수 있다고 알려져 있으며, 여러 태스크의 정보를 동시에 활용하기 때문에 전역 효과 또한 효과적으로 반영할 수 있다. 본 연구에서 제안하는 방법론은 기존의 모델 트리 방법론인 GUIDE와 SLRT를 결합한 방법을 이용하여 데이터셋을 분해하고, 멀티태스크 학습 방법론인 GO-MTL을 이용하여 최종 모델을 학습시킨다. 또한 제안하는 방법론에서 사용되는 GO-MTL은 말단 노드의 예측 모델 간의 관계에 대한 해석을 제공한다는 장점을 가진다. 본 방법론의 성능을 검증하기 위해서, 임의로 생성한 데이터셋과 실제 데이터셋에 대한 실험을 진행하였다. 실험 결과를 통해서 제안된 방법론이 비교 방법론들에 비해 다수의 데이터셋에서 높은 예측 성능을 보이는 것을 확인하였다. 일부 학습 결과 예시를 분석한 결과, 제안된 방법론은 전역 효과가 있을 때 좋은 성능을 보이는 것은 물론, 국소 효과가 지배적인 경우에도 기존 학습 모델과 대등한 성능을 가지는 것을 확인하였다. 본 방법론은 기존 모델 트리의 예측력을 향상시킴과 동시에 모델 사이의 관계 해석을 제공하므로, 다양한 분야에서 활용될 수 있을 것이다.
A real-world dataset commonly consists of heterogeneous subsets that have a different relationship between explanatory variables and a response variable. Heterogeneity between subpopulations increases the complexity of a predictive model, which makes the learning result difficult to interpret. A model tree algorithm is developed to deal with this problem. The model tree recursively partitions the data space into homogeneous subsets and fits the interpretable prediction model to each subset. Although the model tree attains both the prediction accuracy and the interpretability, two challenges arise when the model tree trains the prediction models for each leaf node: 1) the lack of training data, and 2) failure to reflect a global effect across the whole dataset. Because a model tree divides feature space into smaller subsets, overfitting can occur in the nodes with a small number of training data. Besides, the shared information between different nodes cannot be reflected in independently trained models. This research proposes a model tree algorithm that employs a multi-task learning method to train the linear regression models at leaf nodes. Multi-task learning is a methodology that learns related tasks simultaneously while exploiting and utilizing shared information among tasks. By applying multi-task learning to model tree algorithm, the proposed method prevents the overfitting in node with limited training data and takes into account both the local effect and the global effect. Moreover, the multi-task learning algorithm used in the proposed method, GO-MTL, also provides the interpretation of the relationship between different nodes. The experimental results on synthetic and real datasets show that the proposed method improves both the prediction performance and interpretability over the baseline methods. By the examination of several examples, this research also verifies that the proposed method has better performance when there are both the local and global effects. Also, even when only local effect exists, it performs as well as the locally trained model does.
URI
http://postech.dcollection.net/common/orgView/200000332848
https://oasis.postech.ac.kr/handle/2014.oak/111916
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse