AI의 다중 관점 파도가 오고, 그것은 강력할 것입니다

AI의 다중 관점 파도가 강력해질 것입니다

이러한 다중 뷰(multi-view)란 서로 다른 신호를 연결하는 방법으로, 서로 다른 점이 있음에도 불구하고 같은 객체에 대한 정보를 고려하여 공유하는 방식입니다. 다중 뷰는 세계의 구조에 대한 더욱 풍부한 감각을 가진 기계를 가능하게 하며, “추론”과 “계획”을 수행할 수 있는 기계에 기여할 수 있을 것입니다.

ChatGPT나 DeepMind의 AlphaFold와 같은 인공 지능은 가장 성공적인 형태로, 단 하나의 차원에 갇혀 있습니다. 인공 지능은 단어, 이미지, 공간의 좌표 등 다양한 형태의 데이터로 사물을 보지만, 한 번에 하나씩만 볼 수 있습니다. 

매우 짧은 시간 안에 신경망은 생명을 다양한 관점에서 바라볼 수 있는 데이터 형태의 융합으로 크게 확장될 것입니다. 이는 신경망에게 세상이 어떻게 조화롭게 어우러지는지, 물체가 어떻게 함께 유지되는지에 대한 더 큰 기반을 제공할 수 있으며, 언젠가 세상에 대해 “추론”과 “계획”을 수행할 수 있는 프로그램을 구현하는 데 중요한 단계가 될 수 있습니다.

또한: Meta가 ‘Seamless’ 음성 대 음성 번역기를 공개

다중 면적 데이터의 오는 파도는 기계 학습과학자들의 연구 결과로부터 시작되었으며, “다중 뷰” 또는 “데이터 융합”이라는 이름으로 일반적으로 알려져 있습니다. 학문적 출판 거인인 Elsevier가 발행하는 Information Fusion이라는 학술 저널이 심지어 이 주제에 전념하고 있습니다.

데이터 융합의 깊은 아이디어는 조사하려는 세상의 모든 것이 동시에 여러 가지 면을 가지고 있다는 것입니다. 예를 들어, 웹 페이지에는 맨 눈으로 볼 수 있는 텍스트와 해당 페이지에 링크되는 앵커 텍스트, 또는 페이지의 구조인 HTML 및 CSS 코드와 같은 세 번째 요소가 있습니다. 

한 사람의 이미지에는 이름에 대한 레이블과 이미지의 픽셀이 모두 있을 수 있습니다. 비디오에는 비디오 프레임과 해당 프레임과 함께 있는 오디오 클립도 있습니다. 

오늘날의 AI 프로그램은 이러한 다양한 데이터를 세상에 대한 별개의 정보로 취급하며, 그들 사이에는 거의나 전혀 연결이 없습니다. 신경망이 텍스트와 오디오와 같은 여러 종류의 데이터를 처리할 때라도, 가장 할 수 있는 일은 이러한 데이터 세트를 동시에 처리하는 것뿐이며, 이러한 데이터가 동일한 객체의 다른 관점이라는 점에 대한 이해를 명확하게 하지는 않습니다. 

예를 들어, 페이스북, 인스타그램 및 WhatsApp 소유주인 Meta Properties는 화요일에 다중 모달리티 데이터를 사용하는 기계 번역의 최신 기술인 SeamlessM4T를 공개했습니다. 이 프로그램은 음성 데이터와 텍스트 데이터를 동시에 훈련시키며, 모든 작업에 대해 텍스트와 오디오를 생성할 수 있습니다. 

하지만 SeamlessM4T는 각 신호의 각 유닛을 동일한 객체의 한 면으로 인식하지 않습니다. 

또한: Meta의 AI 이미지 생성기는 언어만 있으면 충분하다고 말합니다

이러한 사물의 분열된 관점은 점점 변화하고 있습니다. 뉴욕 대학교 조교수이자 교수 연구원인 라비드 쉐와츠-지브(Ravid Shwartz-Ziv)와 Meta의 주요 AI 과학자인 얀 르쿤(Yann LeCun)이 최근에 발표한 논문에서 두 사람은 다중 뷰를 활용하여 깊은 학습 신경망을 풍부하게 만들고 여러 관점에서 객체를 표현하는 목표에 대해 논의합니다. 

오늘날의 심층 신경망에서는 사물이 관련 없는 신호로 분열됩니다. 이미지와 사운드, 텍스트와 포인트 클라우드, 그래프 네트워크 및 다양한 종류의 신호를 결합하는 다중 모달리티의 파도는 사물의 구조에 대한 더 풍부한 모델을 만들기 시작할 수 있습니다.

이론적이고 매우 기술적인 논문인 4월에 arXiv 사전 인쇄 서버에 게시된 쉐와츠-지브와 르쿤의 논문에서 두 사람은 “다양한 응용 분야에서 심층 학습의 성공은 성공적인 다중 뷰 방법에 대한 흥미를 불러일으켰다”고 쓰고 있습니다.

다중 뷰는 “다중 모달” 인공 지능이라고도 불리는 오늘날의 점점 커져가는 대규모 신경망인 SeamlessM4T와 같은 다양한 모드를 적용하는 방향으로 나아가고 있습니다.  

또한: 2023년 최고의 AI 챗봇: ChatGPT와 대안들

ChatGPT와 Stable Diffusion과 같은 프로그램과 같은 미래의 생성적 AI는 텍스트, 이미지, 비디오뿐만 아니라 포인트 클라우드, 지식 그래프, 심지어 생물 정보학 데이터와 같은 다양한 모달리티를 하나의 프로그램에 결합할 것입니다. 이 많은 다양한 모달리티는 사물의 다양한 “시각”을 포함할 수 있으며, 이 시각에는 상호 정보가 포함될 수 있으며, 이는 세계를 이해하는 매우 풍부한 접근 방식이 될 수 있습니다. 그러나 이는 동시에 도전을 제기합니다.

깊은 신경망의 다중 뷰에서의 핵심은 Shwartz-Ziv 외 다른 사람들이 “정보 병목 현상”이라는 가설로 제기한 개념입니다. 모달리티의 수가 증가함에 따라 정보 병목 현상은 문제가 될 수 있습니다.

정보 병목 현상은 기계 학습에서 핵심 개념입니다. 깊은 네트워크의 숨겨진 계층에서는 네트워크의 입력이 입력의 재구성을 출력하기 위해 가장 필수적인 요소로 축소되는 것으로 생각됩니다. 이는 압축과 해제의 형태입니다.

정보 병목 현상에서는 여러 입력이 동일한 객체의 다른 시각으로 공유하는 중요한 세부 정보를 추출하는 “표현”으로 결합됩니다. 두 번째 단계에서는 해당 표현이 해당 객체에 해당하는 출력을 예측하는 데 필요한 입력의 기본 요소만 포함 된 압축 형태로 축소됩니다. 상호 정보를 모으고 필수적인 요소만 남기거나 압축하는 이 과정이 정보의 병목 현상입니다.

대규모 다중 모달 네트워크에서의 다중 뷰에 대한 도전 과제는 다양한 시각에서 모든 다른 시각과 관련된 정보가 거대한 신경망이 모든 다양한 모달리티로 수행 할 많은 작업에 필수적인지를 알아내는 것입니다.

또한: 이 드래그 앤 드롭 도구로 직접 AI 챗봇을 만들 수 있습니다

간단한 예로, 텍스트 기반 작업을 수행하는 신경망인 ChatGPT가 텍스트 문장을 생성하는 과제를 수행하는 동안, 압축 단계에서 후자 작업에 필요한 세부 사항이 버려진 경우 이미지를 생성하는 것과 같은 작업에서 문제가 발생할 수 있습니다.

Shwartz-Ziv와 LeCun은 “[정보를 관련성이 있는 부분과 그렇지 않은 부분으로 분리하는 것은 도전적이며 종종 최적의 성능을 제공하지 않을 수 있습니다]”라고 씁니다.

학자들은 아직 이 문제에 명확한 답이 없다고 선언합니다. 추가 연구가 필요할 것이며, 특히 객체의 두 가지 다른 시각만 포함하는 것에서 여러 시각을 포함하는 것으로 다중 뷰를 재정의하는 것입니다.

“이 목표의 최적성을 보장하기 위해 여러 시각 이상을 포함하는 다중 뷰 가정을 확장해야한다”고 그들은 씁니다. 특히, 다중 뷰에 대한 전통적인 접근 방식은 “모든 다른 시각 및 작업 간에 관련 정보가 공유된다고 가정하며, 이는 지나치게 제한적일 수 있다”고 추가합니다. 특정 상황에서만 일부 정보를 공유할 수도 있습니다.

또한: 생성적 AI가 기존 경제를 개선할 것입니다

그들은 결론적으로 “이러한 순진한 해결책의 더 정교한 버전을 정의하고 분석하는 것이 필수적이다”고 말합니다.

많은 모달리티의 발전은 다중 뷰의 과학을 새로운 솔루션을 개발하도록 밀어붙일 것입니다. 실제에서의 다중 모달리티의 폭발은 AI에 대한 새로운 이론적 투성이를 이끌 것입니다.