멀티 모달 딥 러닝 | [Open Dmqa Seminar] Multimodal Learning 343 개의 새로운 답변이 업데이트되었습니다.

당신은 주제를 찾고 있습니까 “멀티 모달 딥 러닝 – [Open DMQA Seminar] Multimodal Learning“? 다음 카테고리의 웹사이트 th.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: th.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 ‍김성범[ 소장 / 인공지능공학연구소 ] 이(가) 작성한 기사에는 조회수 2,063회 및 좋아요 40개 개의 좋아요가 있습니다.

멀티모달 딥러닝이란, 여러개의 데이터를 사용하여 주어진 문제를 해결하는 모델을 구축하는 방법론을 말한다. 모달이란 데이터의 형태를 의미하는 것으로, 멀티모달 딥러닝은 각각의 모달로 부터 feature를 연결시키거나, 앙상블 방법을 사용해서 통합하는 방식으로 학습한다.

멀티 모달 딥 러닝 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 [Open DMQA Seminar] Multimodal Learning – 멀티 모달 딥 러닝 주제에 대한 세부정보를 참조하세요

최근 딥러닝 알고리즘과 컴퓨팅 파워의 발전으로 vision, text, audio 등 다양한 데이터 형태에서 우수한 분류/인식 성능을 보여주고 있다. 그러나 인간 행동 인식(human activity recognition) 문제나 감정인식 문제 등에서는 비디오, 오디오, 텍스트 등의 여러 데이터 형태(multimodal data)를 함께 활용해야 더욱 정교한 분석이 가능하다. 본 세미나에서는 multimodal learning의 연구흐름을 파악해보고, 최근 어떠한 방식으로 학습하며 각 데이터 형태의 특징을 어떻게 병합하는 지에 대해 소개하도록 하겠다.
참고 문헌:
[1] Hou, J. C., Wang, S. S., Lai, Y. H., Tsao, Y., Chang, H. W., \u0026 Wang, H. M. (2018). Audio-visual speech enhancement using multimodal deep convolutional neural networks. IEEE Transactions on Emerging Topics in Computational Intelligence, 2(2), 117-128.
[2] Rastgoo, M. N., Nakisa, B., Maire, F., Rakotonirainy, A., \u0026 Chandran, V. (2019). Automatic driver stress level classification using multimodal deep learning. Expert Systems with Applications, 138, 112793.
[3] Ma, Y., Hao, Y., Chen, M., Chen, J., Lu, P., \u0026 Košir, A. (2019). Audio-visual emotion fusion (AVEF): A deep efficient weighted approach. Information Fusion, 46, 184-192.
[4] Zadeh, A., Chen, M., Poria, S., Cambria, E., \u0026 Morency, L. P. (2017). Tensor fusion network for multimodal sentiment analysis. arXiv preprint arXiv:1707.07250.
[5] Akbari, H., Yuan, L., Qian, R., Chuang, W. H., Chang, S. F., Cui, Y., \u0026 Gong, B. (2021). Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text. arXiv preprint arXiv:2104.11178.

멀티 모달 딥 러닝 주제에 대한 자세한 내용은 여기를 참조하세요.

멀티 모달(Multi Modal) 딥러닝 – Ohs_

사람의 심전도, 피부 온도, 피부전도도를 이용하여 사람의 감정을 예측하는 연구도 진행되었으며 해당 연구에서 부정적인 감정으로 인한 스트레스 유발, …

+ 더 읽기

Source: ohs-o.tistory.com

Date Published: 8/13/2021

View: 4599

Multimodal Learning 소개

multi-modal : y=f(Xdocterm,Xcolorx,y,Xvoicetime,Xsensortime). Key Point : 어떻게 특징 차원이 다른 데이터를 “동시”에 잘 학습할 수 있을까?

+ 여기를 클릭

Source: seunghan96.github.io

Date Published: 11/29/2021

View: 3568

멀티 모달 – 연구개발특구진흥재단

멀티모달 딥러닝 및 이미징 기술은 인간과의 원활한 협업을 위한 AI. 서비스에 활용되는 기술로 영상 데이터 기반 AI 서비스는 영상과 이미지에.

+ 더 읽기

Source: www.innopolis.or.kr

Date Published: 4/12/2021

View: 3083

Mutimodal 멀티모달

Multimodal Deep Learning? 이렇게 성능을 개선하기 위해 서로 다른 modality를 가지고 있는 데이터를 결합하는 것은 재미있어 보이지만 실제로는 다양한 …

+ 더 읽기

Source: my-coding-footprints.tistory.com

Date Published: 2/14/2022

View: 947

Multimodal Deep Learning and AI Research : 멀티모달 연구에 …

Multimodal Deep Learning and AI Research : 멀티모달 연구에 대한 생각. LittleFox 2021. 2. 16. 14:08. 휴가 낸 김에 AI 연구 방향에 대해 평소 가지고 있던 생각을 …

+ 여기에 자세히 보기

Source: littlefoxdiary.tistory.com

Date Published: 10/17/2022

View: 3078

멀티 모달(Multi Modal) 딥러닝

사람의 심전도, 피부 온도, 피부전도도를 이용하여 사람의 감정을 예측하는 연구도 진행되었으며 해당 연구에서 부정적인 감정으로 인한 스트레스 유발, …

+ 더 읽기

Source: sorrow16.tistory.com

Date Published: 3/8/2022

View: 6567

[보고서]멀티모달 데이터 분석을 위한 기계학습 기법 연구

딥 러닝.베이지안 학습.멀티모달 학습.표현 학습.다중 관계형 데이터 분석.추천 시스템.machine learning.probabilistic graphical model.matrix factorization.deep …

+ 더 읽기

Source: scienceon.kisti.re.kr

Date Published: 12/27/2022

View: 472

멀티모달 딥러닝을 이용한 음악 장르 분류 – 한국HCI학회 학술대회

기계학습의 한 분야인 딥러닝은 최근 다양한 분야에서 비약적인 성능 향상에 기여하였다. 본 논문은 음악 장르분류 문제에 있어서 최초로 멀티모달 딥러닝 구조를 …

+ 더 읽기

Source: www.dbpia.co.kr

Date Published: 2/18/2021

See also  증명 사진 스캔 | 이력서 문서에 증명사진📸 넣는 방법! 증명사진 파일이 없어도 괜찮아요! 사진만 있으면 됩니다! 상위 165개 베스트 답변

View: 1725

주제와 관련된 이미지 멀티 모달 딥 러닝

주제와 관련된 더 많은 사진을 참조하십시오 [Open DMQA Seminar] Multimodal Learning. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

[Open DMQA Seminar] Multimodal Learning
[Open DMQA Seminar] Multimodal Learning

주제에 대한 기사 평가 멀티 모달 딥 러닝

  • Author: ‍김성범[ 소장 / 인공지능공학연구소 ]
  • Views: 조회수 2,063회
  • Likes: 좋아요 40개
  • Date Published: 2021. 11. 7.
  • Video Url link: https://www.youtube.com/watch?v=f4caa0izZBg

고려대학교 DMQA 연구실

최근 딥러닝 알고리즘과 컴퓨팅 파워의 발전으로 vision, text, audio 등의 각 데이터 형태에서 우수한 분류/인식 성능을 보여주고 있다. 그러나 인간 행동 인식(Human Activity Recognition) 문제나 감정인식 문제 등에서는 비디오, 오디오, 텍스트 등의 여러 데이터 형태(multimodal data)를 함께 활용해야 더욱 정교한 분석이 가능하다. 따라서 Multimodal Learning의 연구흐름을 파악해보고, 최근에는 어떠한 방식으로 학습하며 각 데이터 형태의 특징을 어떻게 병합하는 지에 대해 소개하는 시간을 가지고자 한다.

참고 문헌:

[1] Hou, J. C., Wang, S. S., Lai, Y. H., Tsao, Y., Chang, H. W., & Wang, H. M. (2018). Audio-visual speech enhancement using multimodal deep convolutional neural networks. IEEE Transactions on Emerging Topics in Computational Intelligence, 2(2), 117-128.

[2] Rastgoo, M. N., Nakisa, B., Maire, F., Rakotonirainy, A., & Chandran, V. (2019). Automatic driver stress level classification using multimodal deep learning. Expert Systems with Applications, 138, 112793.

[3] Ma, Y., Hao, Y., Chen, M., Chen, J., Lu, P., & Košir, A. (2019). Audio-visual emotion fusion (AVEF): A deep efficient weighted approach. Information Fusion, 46, 184-192.

[4] Zadeh, A., Chen, M., Poria, S., Cambria, E., & Morency, L. P. (2017). Tensor fusion network for multimodal sentiment analysis. arXiv preprint arXiv:1707.07250.

멀티 모달(Multi Modal) 딥러닝

멀티 모달(Multi Modal)

멀티 모달은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미한다. 멀티 모달에서 모달은 모달리티(Modality)를 의미하는데 모달리티는 인터랙션 과정에서 사용되는 의사소통 채널을 말한다. 여기서 인터랙션은 통신을 주고받는 형태 즉, 단방향의 통신이 아닌 양방향 통신을 의미한다. 멀티 모달 인터페이스는 전통적으로 텍스트 외에 음성, 제스처, 시선, 표정, 생체신호 등 여러 입력 방식을 융합하여 인간과 컴퓨터 사이에 자연스러운 의사소통이 가능한 사용자 친화형 기술이다. 과거에는 기계가 이해하기 쉬운 형태로 입력을 줬다면 최근에는 사용자가 이해하기 쉬운 형태로 컴퓨터에게 입력을 전달하는 형태로 발전한 것이다.

이러한 멀티 모달을 이용하면 사람의 여러 신체 부위에 컴퓨터와 소통할 수 있는 모달 장치를 부착하고 해당 장치들을 통해 행동 분석, 감정 분석 등을 할 수 있다. 즉, 사람과 컴퓨터를 연결하여 데이터를 수집하고 분석할 수 있는 것이다. 이러한 데이터 수집을 기반으로 불규칙적인 사람의 여러 감정과 행동에 대한 데이터를 수집할 수 있고 해당 데이터를 기반으로 사람의 감정에 대한 행동 분석을 할 수 있는 모델을 구현할 수 있다.

사람의 심전도, 피부 온도, 피부전도도를 이용하여 사람의 감정을 예측하는 연구도 진행되었으며 해당 연구에서 부정적인 감정으로 인한 스트레스 유발, 집중력 저하 등의 문제를 해결하기 위해 부정적인 감정이 나타나는 것을 미리 인지할 수 있는 모델을 만드는 연구이다. 멀티 모달 장치를 착용한 사용자들에게 여러 장르의 영화를 보여주며 감정의 변화를 수집했으며 수집된 데이터를 이용하여 모델 학습에 적용시켰다. 학습에 사용된 모델은 DNN과 DBN을 이용했다.

DNN(Deep Neural Network)

DNN은 인공 신경망을 깊게 쌓아놓은 구조이다. 즉 입력, 은닉, 출력의 층에서 은닉층의 갯수를 깊게 쌓아서 학습 결과를 향상시키는 방법이다. 해당 과정을 통해 스스로 분류 레이블을 만들게 되며 데이터를 구분짓는 과정을 반복하여 최적의 구분선을 도출한다. 여러 종류의 활성화 함수를 사용할 수 있으며 대표적으로 시그모이드(Sigmoid), ReLU, Softmax 등이 있다.

DBN(Deep Belief Network)

DBN은 DNN과 유사한 구조를 가진다. 하지만 DNN에서는 오차를 줄이기 위해 오류 역전파 알고리즘을 사용하지만 DBN에서는 층을 쌓는 초기 과정에서 부터 가중치를 조정하는 알고리즘을 활용한다. 여기서 오류 역전파 알고리즘은 지도 학습에 사용되며 오차를 줄이기 위해 사용한다. 지도학습은 데이터의 특징과 특징에 대한 답을 알려준 상태로 모델에게 학습시키는 것으로 모델은 특징에 대한 정답을 알고있는 상태이다. 즉, 답을 알고있는 상태에서 자신이 학습하여 도출해낸 결과와 정답을 비교하고 그 오차가 얼마나 차이나는지 확인 후 가중치를 갱신하는 알고리즘이다. 즉, DNN에서는 입력층 부터 출력층 가지 모든 과정을 거친 후 역전파를 통해 가중치를 갱신하는 반면, DBN은 각 노드에서 학습한 결과를 바로 역전파로 확인하며 가중치를 갱신하는 형태이다.

해당 연구에서는 총 4개의 은닉층을 이용하고 각각의 은닉층은 [64,64,32,16]개의 은닉 노드로 설정하여 실험한다. 그 결과 93% 이상의 정확도를 보이는 모델을 구현했다.

이처럼 멀티 모달 장치를 이용하여 사람에게 여러 생체 데이터를 수집할 수 있으며 수집된 데이터로 사람의 감정을 더욱 잘 이해하는 모델을 만들 수 있다. 하지만 모델에 학습한 데이터를 제공해야 하기 때문에 모달 장치를 장착한 상태로 해당 모델을 동작해야 한다는 점을 생각해야한다. 즉, 간단하게 착용할 수 있는 웨어러블 장비를 통해 수집한 데이터로 모델을 만들면 쉽게 데이터를 인식시켜서 모델을 동작시킬 수 있지만 복잡한 기계를 통해 수집된 데이터는 특수한 목적으로 사용될 확률이 높다. 특정 질병을 예측해야 하거나 영화에서만 보던 거짓말 탐지기 같은 형태이다.

반응형

Mutimodal 멀티모달

Multimodal Data?

우리의 경험은 실제로 복합적(multimodal)이다.

보고, 듣고, 촉감을 느끼고, 향기를 맡고, 맛을 음미한다.

Modality는 어떤 일이 일어나거나 우리가 무언가를 경험하는 다양한 방식을 말한다.

그리고 이것을 활용하기 위해서는 멀티모달로 특징화해야한다.

Multimodal Data는 서로 다른 형태의 정보로 이루어져 뚜렷한 특성이 구분되는 데이터이다.

이미지 데이터, 텍스트 데이터, 센서 데이터 등 다양한 형태로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하고, 데이터 통학적인 분석을 하기 위해서 중요하다.

Multimodal Deep Learning?

이렇게 성능을 개선하기 위해 서로 다른 modality를 가지고 있는 데이터를 결합하는 것은 재미있어 보이지만 실제로는 다양한 잡음과 modality간의 충돌이 일어나 어렵다.

위 구조에서는 현실 상황과는 달리 sub-network에 중요성(weight)을 동일하게 취급해버릴 가능성이 있다.

따라서 이렇게 각 데이터의 형태에 따라 가중치를 달리한 subnetwork를 결합한다.

정확성과 해석 가능성

Sentiment Intensity 데이터셋의 Multimodal 뭉치 (Text, Audio, Speech)

Reference

Multimodal Deep Learning and AI Research : 멀티모달 연구에 대한 생각

휴가 낸 김에 AI 연구 방향에 대해 평소 가지고 있던 생각을 글로 적어 보자 🦊

사고는 언어의 틀 속에 존재하고, 따라서 우리가 사용하는 말의 체계에 의해서만 세상을 인지한다.

예를 들어 아래의 사진을 보고, 일반적인 사람은 일반적인 <고양이> 사진이라고 판단할 것이다.

고양이에 관심이 많은 사람이라면 <벵갈 고양이> 사진이라고 생각할 것이며 <호랑이 무늬> 등을 연상할 수도 있다.

이토록 인간의 사고에서 개념이란, 언어 체계에서 다른 말과의 관계에 의해 결여된 관념으로 정의된다.

반면에 내가 좋아하는 속담 중에 이런 말이 있다.

[ 백문이 불여일견 ]

” 털 무늬는 스팟(점박이), 로젯(표범 무늬), 마블 등의 타입이 있다. 스폿 타입은 토종 고양이 중에도 비슷한 무늬를 가진 것이 있으나(그래서 잘 모르는 사람은 코숏으로 오해하는 경우도 있다), 명백한 차이가 존재한다. 기본적으로 벵갈은 호랑이 모양의 전신수트를 몸 전체 발끝까지 깔끔하게 입은 유전자를 가져서 다리의 양말처럼 신은 하얀 색깔의 무늬 부분이 없다. 또한 턱 밑에 무늬가 없으며, 배에 동그란 점(스팟)이 많이 있다. 육구 색깔이 검다는 점도 특징. ”

– 출처 : 나무위키, 벵갈 고양이

벵갈 고양이에 대한 기나긴 설명 텍스트를 읽는 것보다 사진을 한 번 보는 것이 해당 개념을 이해하는 데에 도움이 된다.

반대로, 사진만 보는 것보다는 텍스트를 통해 다리에 하얀 색깔의 무늬가 없다던지 배에 점이 많다던지 하는 세세한 부분을 관측할 수도 있다.

벵갈 고양이의 냄새, 울음소리, 털의 감촉 등을 설명해 놓은 텍스트와, 실제 오감으로 느낄 수 있는 감각들도 마찬가지이다.

이렇게 우리 사람은 감각 기관과 그에 대한 언어 체계를 복합적으로 사용하여 세상을 인지한다.

신경을 통해 들어오는 자극과 추상적인 언어의 틀은 상호작용하여 인간의 사고를 형성한다.

자연스럽게 AI 연구에 있어서도, 입력 정보와 언어간의 상호작용에 따른 시너지 효과를 낼 수 있지 않을까 하는 생각이 든다.

시각/ 청각 입력에 상응하는 텍스트를 통해 기계는 세상에 대해 더 나은 지식을 학습할 수 있을지도 모른다.

특히 수많은 데이터로부터 기계가 스스로 representation을 학습하는 self-supervised learning의 성공 사례는

multimodal 딥러닝 연구를 통해 언어와 시각 모두에 있어 AI의 성능을 강화할 수 있을지도 모른다는 비전을 가지게 한다.

향후에는 멀티모달 데이터에 대한 자기지도학습, 아키텍처 디자인,

그리고 이러한 모델링에 필요한 데이터 수집 방향성 등에 대해 연구해보고 싶다.

멀티모달 연구 사례들

[ OpenAI DALL-E ]

텍스트 입력에 대해 이미지를 생성해내는 120억개 파라미터의 GPT 모델

(예) 아보카도 모양의 의자를 그려줘

(예) 위에 있는 고양이 사진에 대해 스케치를 그려봐

작년에 OpenAI가 발표한 GPT-3 모델은 트랜스포머 계열의 뉴럴네트워크 모델을 scale-up함으로써 다양한 텍스트 생성 과제를 뛰어나게 수행할 수 있다는 것을 보였다. ImageGPT모델을 통해 트랜스포머 네트워크를 활용하여 이미지를 잘 생성할 수 있음도 확인하였다. 이에 OpenAI는 언어를 사용하여 시각적인 컨셉을 다룰 수 있는 모델을 연구, DALL-E를 발표하였다.

GPT-3와 마찬가지로 DALL-E는 트랜스포머 계열의 언어 모델로, 텍스트와 이미지를 같은 형식으로 입력받을 수 있다.

최대 1,280 토큰까지 입력을 받을 수 있으며, autoregressive LM 스타일로 모델을 학습하였다.

이 과정에서 DALL-E는 이미지를 from-scratch로 생성할 수 있게 되었을 뿐만 아니라,

어떠한 이미지를 이미지 조각만 가지고도 텍스트 입력 내용과 일관된 전체 이미지를 완성하는 능력을 가지게 되었다.

> OpenAI DALL-E : https://openai.com/blog/dall-e/

> GPT-3 설명 : https://littlefoxdiary.tistory.com/44

> Image GPT 설명 : https://littlefoxdiary.tistory.com/51

(추가 업데이트 예정)

멀티 모달(Multi Modal) 딥러닝

728×90

멀티 모달(Multi Modal)

멀티 모달은 여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미한다. 멀티 모달에서 모달은 모달리티(Modality)를 의미하는데 모달리티는 인터랙션 과정에서 사용되는 의사소통 채널을 말한다. 여기서 인터랙션은 통신을 주고받는 형태 즉, 단방향의 통신이 아닌 양방향 통신을 의미한다. 멀티 모달 인터페이스는 전통적으로 텍스트 외에 음성, 제스처, 시선, 표정, 생체신호 등 여러 입력 방식을 융합하여 인간과 컴퓨터 사이에 자연스러운 의사소통이 가능한 사용자 친화형 기술이다. 과거에는 기계가 이해하기 쉬운 형태로 입력을 줬다면 최근에는 사용자가 이해하기 쉬운 형태로 컴퓨터에게 입력을 전달하는 형태로 발전한 것이다.

이러한 멀티 모달을 이용하면 사람의 여러 신체 부위에 컴퓨터와 소통할 수 있는 모달 장치를 부착하고 해당 장치들을 통해 행동 분석, 감정 분석 등을 할 수 있다. 즉, 사람과 컴퓨터를 연결하여 데이터를 수집하고 분석할 수 있는 것이다. 이러한 데이터 수집을 기반으로 불규칙적인 사람의 여러 감정과 행동에 대한 데이터를 수집할 수 있고 해당 데이터를 기반으로 사람의 감정에 대한 행동 분석을 할 수 있는 모델을 구현할 수 있다.

사람의 심전도, 피부 온도, 피부전도도를 이용하여 사람의 감정을 예측하는 연구도 진행되었으며 해당 연구에서 부정적인 감정으로 인한 스트레스 유발, 집중력 저하 등의 문제를 해결하기 위해 부정적인 감정이 나타나는 것을 미리 인지할 수 있는 모델을 만드는 연구이다. 멀티 모달 장치를 착용한 사용자들에게 여러 장르의 영화를 보여주며 감정의 변화를 수집했으며 수집된 데이터를 이용하여 모델 학습에 적용시켰다. 학습에 사용된 모델은 DNN과 DBN을 이용했다.

DNN(Deep Neural Network)

DNN은 인공 신경망을 깊게 쌓아놓은 구조이다. 즉 입력, 은닉, 출력의 층에서 은닉층의 갯수를 깊게 쌓아서 학습 결과를 향상시키는 방법이다. 해당 과정을 통해 스스로 분류 레이블을 만들게 되며 데이터를 구분짓는 과정을 반복하여 최적의 구분선을 도출한다. 여러 종류의 활성화 함수를 사용할 수 있으며 대표적으로 시그모이드(Sigmoid), ReLU, Softmax 등이 있다.

DBN(Deep Belief Network)

DBN은 DNN과 유사한 구조를 가진다. 하지만 DNN에서는 오차를 줄이기 위해 오류 역전파 알고리즘을 사용하지만 DBN에서는 층을 쌓는 초기 과정에서 부터 가중치를 조정하는 알고리즘을 활용한다. 여기서 오류 역전파 알고리즘은 지도 학습에 사용되며 오차를 줄이기 위해 사용한다. 지도학습은 데이터의 특징과 특징에 대한 답을 알려준 상태로 모델에게 학습시키는 것으로 모델은 특징에 대한 정답을 알고있는 상태이다. 즉, 답을 알고있는 상태에서 자신이 학습하여 도출해낸 결과와 정답을 비교하고 그 오차가 얼마나 차이나는지 확인 후 가중치를 갱신하는 알고리즘이다. 즉, DNN에서는 입력층 부터 출력층 가지 모든 과정을 거친 후 역전파를 통해 가중치를 갱신하는 반면, DBN은 각 노드에서 학습한 결과를 바로 역전파로 확인하며 가중치를 갱신하는 형태이다.

해당 연구에서는 총 4개의 은닉층을 이용하고 각각의 은닉층은 [64,64,32,16]개의 은닉 노드로 설정하여 실험한다. 그 결과 93% 이상의 정확도를 보이는 모델을 구현했다.

이처럼 멀티 모달 장치를 이용하여 사람에게 여러 생체 데이터를 수집할 수 있으며 수집된 데이터로 사람의 감정을 더욱 잘 이해하는 모델을 만들 수 있다. 하지만 모델에 학습한 데이터를 제공해야 하기 때문에 모달 장치를 장착한 상태로 해당 모델을 동작해야 한다는 점을 생각해야한다. 즉, 간단하게 착용할 수 있는 웨어러블 장비를 통해 수집한 데이터로 모델을 만들면 쉽게 데이터를 인식시켜서 모델을 동작시킬 수 있지만 복잡한 기계를 통해 수집된 데이터는 특수한 목적으로 사용될 확률이 높다. 특정 질병을 예측해야 하거나 영화에서만 보던 거짓말 탐지기 같은 형태이다.

728×90

[보고서]멀티모달 데이터 분석을 위한 기계학습 기법 연구

초록

□ 연구의 목적 및 내용

본 연구의 목표는 멀티모달 데이터 분석을 위한 기계학습 알고리즘을 기법을 개발하는 것이다. 이를 위해 본 연구과제에서는 다음과 같은 세 가지 접근방법을 통해 멀티모달 데이터를 효과적으로 분석하고자 하였다…

□ 연구의 목적 및 내용

본 연구의 목표는 멀티모달 데이터 분석을 위한 기계학습 알고리즘을 기법을 개발하는 것이다. 이를 위해 본 연구과제에서는 다음과 같은 세 가지 접근방법을 통해 멀티모달 데이터를 효과적으로 분석하고자 하였다.

▪ 다중 소스 데이터의 표현 학습을 위한 딥 러닝 알고리즘 개발

▪ 다중 관계형 데이터 분석을 위한 다중 행렬 분해 기법을 개발

▪ 확률 그래프 모델 및 베이지안 학습을 활용하여 멀티모달 데이터의 공통 공간을 효과적으로 찾는 알고리즘을 개발

□ 연구결과

(1) 다중 소스 데이터의 표현 학습을 위한 딥 러닝

– 다중 소스 데이터의 모달리티 간 공유하는 특징과 각기 독립된 특징을 분리해 추출하는 딥 네트워크를 개발하였다. 여기에 스위치 변수를 도입하여 데이터로부터 공유하는 특징과 각기 독립된 특징을 자동으로 분리하도록 한다. 또한 다수의 영상 기술자를 효과적으로 조합하기 위하여 영상 기술자들로부터 특징을 추출하여 영상 분류 성능을 향상시키는 컨볼루션 구조의 딥 네트워크를 개발한다. 마지막으로 동적 멀티모달 시계열 데이터를 분석하기 위한 컨볼루셔널 딥 네트워크 구조를 새롭게 디자인하고 이를 효과적으로 학습할 수 있는 알고리즘을 개발하였다.

(2) 다중 관계형 데이터 분석을 위한 베이지안 행렬 분해

– 추천 시스템의 성능 향상을 위해 컨텐츠 정보 및 소셜 네트워크 정보를 활용하는 베이지안 행렬분해를 빠르게 학습 할 수 있는 알고리즘을 개발하여 기계학습 최고 권위의 학회인 AISTATS’14에 발표하였다. 또한, 일반적으로 행렬 분해에 사용하는 데이터는 특정한 누락 매커니즘이 존재하여 희소 행렬로 표현되는 경우가 많다. 따라서 이를 효과적으로 다루기 위해 누락 데이터 매커니즘을 고려한 베이지안 이항 혼합 모델 및 학습 알고리즘을 개발하여 추천 시스템 분야의 유명 학회인 RecSys’14에 발표하였다.

(3) 확률 그래프 모델 및 베이지안 학습

– 이미지 태깅, 행렬 분해 등의 전처리 과정에서 사용되는 기본적인 알고리즘인 군집화 문제를 위해 비모수 베이지안 모델의 일종인 디리클레 과정 혼합 모델을 도입하고, 대규모 데이터를 처리하기 위해 트리기반 점층 추론 기법을 개발하여 기계학습 최고 권위의 학회인 AISTATS’14에 발표하였다. 또한, 트리 기반의 추론 알고리즘은 정확한 사후 분포에대한 수렴성이 보장되지 않기 때문에 샘플링 기법과 트리 기반 추론 알고리즘을 결합하여 샘플링 방법론에 비해 빠르면서 수렴성도 보장되는 새로운 추론 알고리즘을 개발하여 NIPS’15에 발표하였다.

□ 연구결과의 활용계획

본 연구는 다변량 데이터와 관계형 데이터에 대해 기존에 사용되는 싱글 모달 데이터 분석 시스템들의 한계를 넘어 멀티모달 데이터의 통합 분석 모델을 제시하고, 검색 및 데이터 마이닝 분야에도 보다 유용한 분석 도구를 제공할 수 있다. 멀티모달 딥 러닝 연구는 대부분의 다변량 데이터를 처리할 수 있어 데이터 분석 전 분야에서의 성능 향상을 가능하게 하며, 다중 관계형 데이터의 행렬 공동 분해 기법은 데이터베이스 분석이 필요한 모든 문제를 위한 도구로써 활용될 수 있다.

( 출처 : 요약문 4p )

멀티모달 딥러닝을 이용한 음악 장르 분류

(이)가 구독하지 않는 논문으로 ‘미리보기’만 가능합니다.

도서관의 ‘원문복사 서비스’를 통해 원문을 이용하실 수 있습니다. 원문복사 서비스 이용방법은 도서관 사이트를 확인해 주세요.

키워드에 대한 정보 멀티 모달 딥 러닝

다음은 Bing에서 멀티 모달 딥 러닝 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 [Open DMQA Seminar] Multimodal Learning

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기
[Open #DMQA #Seminar] #Multimodal #Learning


YouTube에서 멀티 모달 딥 러닝 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 [Open DMQA Seminar] Multimodal Learning | 멀티 모달 딥 러닝, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment