연구분야

대용량 텐서 마이닝

네트워크 침입 로그 (출발지 IP, 목적지 IP, 포트번호, 기록 시간) 같은 대용량의 실세계 데이터에서 여러 특성들을 동시에 고려하면서 어떻게 유용한 패턴과 이상 신호를 찾을 수 있을까? 텐서는 다차원 데이터 모델링에 적합하며 소셜 네트워크, 웹 데이터, 네트워크 트래픽, 그 외 다른 환경들에서의 분석을 위해 널리 사용되고 있다. 그러나 현재의 텐서 분해 기법은 실제 데이터에서 나타나는 수백만 그리고 수십억의 행, 열, 'fiber'를 포함하는 텐서에 적용할 수 없다.

데이터 마이닝 연구실에서는 고확장성 텐서 분석 알고리즘을 설계하고 개발한다. 프로젝트의 목표는 성능 증가를 위하여 실세계 텐서의 희소성을 완벽히 이용하는 알고리즘을 만드는 것이다. 지원하는 알고리즘은 PARAFAC 분해, 결합 행렬-텐서 분해, Tucker 분해, 음수 미포함 텐서 분해를 포함한다.

응용:

데이터 마이닝 연구실에서 제안한 툴들은 다음과 같은 응용 분야에서 다양한 실세계 행렬 또는 텐서 데이터를 분석한다.

  • 시간 변화 그래프의 경향 분석
  • 네트워크 보안 (즉, 이상 사용자 또는 행동을 감지)
  • 헬스케어 데이터 분석 (예: fMRI)
  • 지식 기반 분석 (예: FreeBase, Yago)

소프트웨어

  • BigTensor: 분산 플랫폼에서의 고확장성 텐서 분석 툴.

연구실적

  • Jun-gi Jang, Dongjin Choi, Jinhong Jung, and U Kang., "Zoom-SVD: Fast and Memory Efficient Method for Extracting Key Patterns in an Arbitrary Time Range", ACM International Conference on Information and Knowledge Management (CIKM) 2018, Lingotto, Turin, Italy. [BIBTEX] [HOMEPAGE] [PDF]
  • Sejoon Oh, Namyong Park, Lee Sael, and U Kang., "Scalable Tucker Factorization for Sparse Tensors - Algorithms and Discoveries", 34th IEEE International Conference on Data Engineering (ICDE) 2018, Paris, France. [BIBTEX] [HOMEPAGE] [PDF]
  • Namyong Park, Sejoon Oh, and U Kang, "Fast and Scalable Distributed Boolean Tensor Factorization", IEEE International Conference on Data Engineering (ICDE) 2017, San Diego, CA, USA. [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF]
  • Kijung Shin, Lee Sael, and U Kang, "Fully Scalable Methods for Distributed Tensor Factorization", IEEE Transactions on Knowledge and Data Engineering (TKDE), vol. 29, no. 1, pp. 100-113, Jan. 1 2017. [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF]
  • Namyong Park, Byungsoo Jeon, Jungwoo Lee, and U Kang, "BIGtensor: Mining Billion-Scale Tensor Made Easy", ACM International Conference on Information and Knowledge Management (CIKM) 2016, Indianapolis, Indiana, USA. [BIBTEX] [HOMEPAGE (CODE)] [PDF]
  • Inah Jeon, Evangelos E. Papalexakis, Christos Faloutsos, Lee Sael, and U Kang, "Mining Billion-Scale Tensors: Algorithm and Discoveries", VLDB Journal, vol. 25, issue 4, pp. 519-544, August 2016. [BIBTEX] [PDF] [HOMEPAGE (CODE, DATA)]
  • ByungSoo Jeon, Inah Jeon, Sael Lee, U Kang, "SCouT: Scalable Coupled Matrix-Tensor Factorization-Algorithms and Discoveries", 32nd IEEE International Conference on Data Engineering (ICDE) 2016, Helsinki, Finland. [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF]
  • Inah Jeon, Evangelos E. Papalexakis, U Kang, and Christos Faloutsos, "HaTen2: Billion-scale Tensor Decompositions", 31st IEEE International Conference on Data Engineering (ICDE) 2015, Seoul, Korea. [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF] [SUPPLEMENTARY DOCUMENT]
  • Lee Sael, Inah Jeon, and U Kang, "Scalable Tensor Mining", Big Data Research Journal, Feb. 2015. [BIBTEX] [PDF]
  • Evangelos E. Papalexakis, U Kang, Christos Faloutsos, Nicholas D. Sidiropoulosx, and Abhay Harpale, "Large Scale Tensor Decompositions: Algorithmic Developments and Applications", Bulletin of the Technical Committee on Data Engineering, vol. 36, no. 3, September 2013. [BIBTEX] [PDF]
  • U Kang, Evangelos Papalexakis, Abhay Harpale, and Christos Faloutsos, "GigaTensor: Scaling Tensor Analysis Up By 100 Times - Algorithms and Discoveries", ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 2012, Beijing, China. [BIBTEX] [PDF]
  • U Kang, Brendan Meeder, and Christos Faloutsos, "Spectral Analysis for Billion-Scale Graphs: Discoveries and Implementation", Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD) 2011, Shenzhen, China. (acceptance rate 9.7 %) [BIBTEX] [PDF]