프로젝트

초고속 스트림 마이닝

어떻게 빠른 속도의 스트림 데이터에서 정확하게 예측과 분석을 할 수 있을까? 어떻게 실시간으로 흥미로운 패턴들을 찾아낼 수 있을까? 어떻게 가능한 빨리 이상 행동들을 감지할 수 있을까? 이런 질문들은 스트림 마이닝과 깊게 연관되어 있으며 최근 스트림 마이닝에 대한 관심이 증대되고 있다. 스트림 데이터는 실세계에서 매우 흔하게 찾아볼 수 있으며 그 예로는 IoT 데이터, 센서 데이터, 환경 감지 데이터, 전자상거래 사이트에서의 공동구매 상품 기록, 금융 거래, 소셜 네트워크에서의 메시지, 웹에서의 클릭 스트림, 네트워크 트래픽 등이 있다. 이런 종류의 데이터의 한가지 중요한 특징은 데이터가 매우 빠르게 끊임없이 생성된다는 것이다. 따라서 스트림 마이닝 도구는 다음과 같은 요구사항을 만족해야 한다.

  • 효율적인 공간 사용: 스트림 데이터 정보는 너무 커서 메모리나 디스크에 저장할 수 없다. 그러므로 사용하는 저장공간을 최소화하는 것이 중요하다.
  • 실시간 처리: 스트림 데이터는 단 한번만 읽어져야 하기 때문에 처리와 결정을 실시간으로 하는 것이 중요하다.
  • 신속한 질의 응답: 질의에 대한 응답이 매우 빨라야 한다.

데이터 마이닝 연구실에서는 빠른 속도의 스트림 데이터를 분석하기 위해 빠르고 효율적인 스트림 마이닝 소프트웨어인 Swift Stream Miner를 개발하고 연구한다. 특히 다음과 같은 두 가지 사항에 초점을 두고 있다.

  • 데이터 스트림 지능: N차원 데이터가 끊임없이 도착하고 데이터의 차원이 자주 바뀔 수 있는 일반적인 데이터 스트림에서 패턴, 경향성, 이상 행동을 찾고 예측하기 위해 필수적인 데이터 스트림 분석 기능을 제공한다.
  • 그래프 스트림 지능: 스트림에서 끊임없이 도착하는 인접 리스트 형식 또는 희소 인접 행렬 형식의 그래프 데이터로부터 필수적인 특징들을 추출하고 패턴, 경향성, 이상 행동들을 찾아내고 예측하기 위해 그 특징들을 사용한다.

Swift Stream Miner는 분산 플랫폼과 단일 환경을 포함하여 다양한 플랫폼에서 동작할 예정이다.

응용:

Swift Stream Miner는 다음과 같은 다양한 응용분야에서 사용될 예정이다.

  • IoT 데이터 (온도 조절 장치, 스마트 미터 등) 관찰
  • 헬스케어 관찰 및 예측
  • 구조물 (빌딩, 다리, 수도관 등) 관찰

연구실적

  • Jun-gi Jang, Dongjin Choi, Jinhong Jung, and U Kang., "Zoom-SVD: Fast and Memory Efficient Method for Extracting Key Patterns in an Arbitrary Time Range", ACM International Conference on Information and Knowledge Management (CIKM) 2018, Lingotto, Turin, Italy. [PDF]
  • Yongsub Lim, Minsoo Jung, and U Kang, "Memory-efficient and Accurate Sampling for Counting Local Triangles in Graph Streams: From Simple to Multigraphs", ACM Transactions on Knowledge Discovery from Data (TKDD), vo. 12, issue 1, Feburuary 2018. [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF]
  • Yongsub Lim, and U Kang, "Time-weighted Counting for Recently Frequent Pattern Mining in Data Streams", Knowledge and Information Systems (KAIS). doi:10.1007/s10115-017-1045-1 [BIBTEX] [PDF]
  • Minsoo Jung, Sunmin Lee, Yongsub Lim, U Kang, "FURL: Fixed-memory and Uncertainty Reducing Local Triangle Counting for Graph Streams", arXiv: 1611.06615 [cs.DS], 26 November 2016. [BIBTEX] [PDF]
  • Yongsub Lim, and U Kang, "MASCOT: Memory-efficient and Accurate Sampling for Counting Local Triangles in Graph Streams", 21st ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 2015, Sydney, Australia [BIBTEX] [HOMEPAGE (CODE, DATA)] [PDF]
  • Yongsub Lim, Jihoon Choi, and U Kang, "Fast, Accurate, and Space-efficient Tracking of Time-weighted Frequent Items from Data Streams", 23rd ACM International Conference on Information and Knowledge Management (CIKM) 2014,Shaghai, China [BIBTEX] [PDF]
  • Dongyeop Kang, DongGyun Han, NaHea Park, Sangtae Kim, U Kang, and Soobin Lee, "Eventera: Real-time Event Recommendation System from Massive Heterogeneous Online Media", IEEE International Conference on Data Mining (ICDM) 2014, Shenzhen, China. [BIBTEX] [PDF]