dc.description.abstract인간은 흔적을 남기며 살아간다. 최근의 정보 기술 발전과 함께 이러한 사람들 의 행동 흔적 데이터를 더 쉽게 얻을 수 있게 되었다. 이러한 대규모 행동 흔적 데이터는 개인과 집단에 대한 사회학적 이해를 향상시키고자 다양한 계산방법론을 적용을 가능하게 하였으며, 계산사회과학 분야의 탄생 및 발전으로 이어졌다. 본 논문은 인간의 풍부한 흔적 데이터를 활용하고 복잡한 사회시스템에 대한 더 나은 이해를 위해, 기계 학습과 사회 과학의 상승 효과의 잠재력을 최대한 활용하는 것을 목표로 한다. 네트워크는 널리 퍼져 있는 다양한 시스템을 이해하기 위한 강력한 통합 프레임 워크로 오랫동안 간주되어 왔다. 하지만 사람들의 행동에 관한 고해상도 데이터를 사용하여 네트워크를 구성할 때 고차원 정보를 잃거나 개체 간의 복잡한 관계를 잃 을 수 있다는 단점을 가지고 있다. 네트워크 구축 시 고차원 정보를 보존하려고 하는 여러 연구가 존재하지만 한계점을 보여왔고, 최근 들어 급속도로 발전 중인 컴퓨터 과학 분야의 표현 학습 접근 방식은 이러한 어려움에 대한 새로운 해결방법을 제 시하고 있다. 우선 방법론적 기여로서, 본 논문은 네트워크 과학을 표현 학습 접근 방식과 연결하려고 한다. 본 논문은 네트워크 과학의 발견과 표현 학습 방법을 융합 하여 더 나은 표현 학습 방법론을 제시하고자 하였다. 이 논문은 네트워크 과학에서 널리 관찰되는 중첩 커뮤니티 구조의 개념을 활용하여 주변 컨텍스트 기반 노드 의 다중 표현을 효율적으로 학습하는 그래프 임베딩 프레임워크인 persona2vec를 소개한다. 또한 이 논문은 널 모델의 개념을 적용하여 네트워크의 구조적 편향을 명시적으로 제거할 수 있는 그래프 표현 학습 알고리즘인 residual2vec를 제공한 다. 이러한 기여는 네트워크 표현 학습이 네트워크 접근 방식의 약점을 보완할 수 있으며 네트워크 과학자로서의 관점 역시 표현학습법 연구에도 기여할 수 있음을 의미한다. 더 나은 표현식은 과학적 연구 및 데이터의 동기를 통찰력 및 응용과 연결하는 직관적인 측정을 가능하게 한다. 본 논문은 표현 학습 정근 방식을 활용한 네트워크 과학 방법론을 계산 사회 과학에서 적용하는 방법에 대한 일반적인 프레임워크를 제공한다. 본 논문에서는 주로 Science of Science, 사람들의 이동성에 관한 사회과 학적 통찰력을 얻기 위해 네트워크 접근 방식을 적용한다. 이를 위해, 본 논문은 두 가지 특정 유형의 데이터: 사회 경제적 상호 작용과 같은 상호 작용 구조와 인간의 이동성 및 구매 이력과 같은 인간 활동흔적에 중점을 두었다. Science of Science 분야에서, 본 논문은 집단 지성 데이터인 Wikipedia로부터 기 존 분류보다 적응력이 높으면서 더 자세한 과학 기술 분류 체계를 추출하는 방법을 제안한다. 이 결과는 집단지성 데이터로부터 지식 구조를 구축할 수 있음을 의미한 다. 이어서 이러한 발견을 바탕으로, 본 논문은 각기 다른 언어로 쓰여진 Wikipedia 에서 지식 구조를 추출한 후 언어 그룹간 지식구조 유사도를 측정하였다. 결과적 으로, 인구 집단사이에 문화적, 언어적, 역사적 특성과 같은 사회경제적 상호작용이 많을 수록 지식 구조가 더 비슷해 짐을 밝혔다. 또한 데이터를 잘 설명하는 기계론적 모델을 개발 하여 지식 구조 동기화의 기본 메커니즘을 밝혔다. 사람 이동성 및 비즈니스 분야에서, 본 논문은 네트워크 표현 기반 방법이 데이터 기반 연구의 새로운 방향을 열 수 있는 잠재력이 있음을 보여주었다. 본 논문에서는 대표적인 표현 학습 방법 word2vec과 이동성의 중력 모델 사이의 수학적 동등성을 입증했다. 이는 이동성을 연구할 때 표현 학습 접근 방식을 사용하는 것에 대한 이론 적 정당성을 제공한다.또한, 획득한 벡터 표현이 기본 대수 연산을 사용하여 문화적,역사적, 언어적, 심지어 계층적 패턴을 조사할 수 있음을 보여주었다. 마지막으로 본 논문은 대규모 신용카드 거래 데이터에 표현 학습 방법 적용하여, 상권의 다양성이 상점들의 수익에 미치는 영향을 조사하였다. 상권의 동질성과 수입이 역-U자형 관계를 가짐을 보여 상권과 도시개발 연구에 대한 새로운 통찰력을 제공한다.-
dc.description.abstractHuman lives their lives leaving traces. Recent technological advances have made obtaining these traces of people’s behavior easier. These large-scale datasets from social systems enable computational approaches to enhance the understanding of individuals and collectives, resulting in the emergence of computational social science. This thesis aims to leverage the abundant digital traces of humans through machine learning methods and unlock the full potential of the combination of machine learning and social science to seek insights into complex social systems. As methodological contributions, this thesis tries to connect network science with representation learning approaches. Networks are prevalent in many complex systems and have long been regarded as a powerful unifying framework for comprehending diverse systems. When constructing networks using high-resolution data, such as raw trajectory, we may lose high-order information or intricate relationships between elements. While efforts to build a network high-order model exists, the representation learning approach from the field of computer science offers a novel solution to such difficulties. This thesis provides the representation learning methods inspired by the findings from network science. As a result, from the concept of pervasively observed overlapping community structure, this thesis introduce persona2vec, a graph embedding framework that efficiently learns multiple representations of nodes based on their structural contexts. Also, this thesis provide a residual2vec, a graph representation learning algorithm that can explicitly remove structural biases in networks by employing concept of null models. This contribution implies that network representation learning can compensate for the weakness of the network approaches, and perspective as a network scientist can also contribute to the community. Better representation enables an intuitive measurement that connects the motivation of the scientific study and data with insights and applications. This thesis provides the general framework of how to apply network science with the representation learning approach in computational social science. We apply the network approach to obtaining insights from the social system, mainly in the science of science and human mobility & business. Especially this thesis focuses on two specific types of the data: interaction structure, such as knowledge structure and socio-economic interactions, and traces of human activity, such as human mobility and purchasing history. In the field of science of science, this thesis proposes an unbiased classification scheme from the collective intelligence data; Wikipedia, an Internet encyclopedia edited by millions of individuals. Constructed classification schemes show a landscape of science and technology while being more adaptive than traditional classifications. This result implies that we can build a plausible knowledge structure from the collective intelligence data. Based on these findings, this thesis compares the similarity of knowledge structure, which is extracted from each Wikipedia language edition, between different demographic groups based on language usage. The result implies knowledge structures are more synchronized when population groups are more involved with one another, as evidenced by socio-economic ties such as cultural, linguistic, and historical characteristics. Furthermore, we integrate our data into a mechanistic model to better understand the underlying process, regenerate the similarity of empirical knowledge structures from various socio-economic ties and uncover the potential mechanism underlying the synchronization of the knowledge structure. In the field of human mobility & business, this thesis shows the network representation based method has the potential to open up new directions for data-driven research. We demonstrated the mathematical equivalence between a simple representation learning method word2vec and the gravity model of mobility. It provides the theoretical justification for using representation learning approaches in studying mobility. Furthermore, this thesis shows that the obtained vector representation is able to investigate cultural, historical, linguistic, and even hierarchical patterns using basic algebraic operations. Lastly, this thesis investigates the effect of the commercial districts’ diversity on merchant revenue with a representation learning method, utilizing large-scale geo-tagged credit card transaction data. The result shows the homogeneity of a commercial district and merchant revenue had an inverted U-shape relation, providing new insights into studying commercial districts and urban development.-
dc.titleConnecting network science with representation learning and its application in computational social science-
