홈으로 🏠

언어 모델의 비언어적 추론 능력

대형 언어 모델(LLM)은 현재까지 변환기 아키텍처를 사용하여 쿼리에 대한 응답으로 필요한 다음 단어(즉, 언어 토큰)를 효과적으로 예측하는 데 큰 성공을 거두었습니다. 그러나 복잡한 추론 작업에서는 이러한 "언어 공간"을 통해 모든 것을 해석하는 것이 문제를 일으킬 수 있습니다. 이는 특히 추상적 논리나 복잡한 문제 해결이 필요한 경우에 두드러집니다.

잠재 공간에서의 처리

최근 연구자들은 "잠재 공간"에서 잠재적인 논리적 해결책을 작업할 수 있는 모델을 개발하고 있습니다. 잠재 공간은 변환기가 언어를 생성하기 전의 숨겨진 계산 층으로, 이 공간에서의 처리는 언어적 제약 없이 논리를 전개할 수 있는 가능성을 제공합니다. 이러한 접근 방식은 LLM의 추론 능력에 큰 변화를 주지는 않지만, 특정 유형의 논리 문제에서 정확성을 향상시키는 데 도움이 됩니다.

COCONUT 모델

메타의 연구팀은 COCONUT 모델을 통해 "연속적인 잠재 공간에서 추론하는 대형 언어 모델 훈련" 방법을 제안했습니다. 이 모델은 각 단계에서 자연어로 변환할 필요 없이 "잠재적 사고"를 인코딩하여 추론 과정을 최적화합니다. 이는 언어적 표현의 필요성을 줄이고, 논리적 사고의 자유도를 높여줍니다.

다중 경로 추론

잠재 공간에서의 논리 처리는 모델의 효율성을 높이는 데 도움이 되며, 여러 잠재적 다음 단계를 동시에 인코딩할 수 있는 가능성을 보여줍니다. 이는 "너무 탐욕적인" 방식으로 개별 논리 옵션을 추구하는 대신, 즉각적인 백트래킹을 가능하게 합니다. 이러한 방식은 그래프 탐색에서의 너비 우선 탐색과 유사한 방식으로, 여러 경로를 동시에 고려할 수 있게 합니다.

결론: 새로운 연구 방향

이러한 연구는 대형 언어 모델의 기본 신경망 수준에서 작동하는 방식을 이해하고 활용하려는 노력의 일환입니다. 비록 큰 돌파구는 아직 없지만, 이러한 "연속적 사고"로 사전 훈련된 모델은 더 넓은 범위의 추론 시나리오에서 일반화할 수 있는 가능성을 열어줍니다. 이는 AI가 인간의 복잡한 사고 과정을 모방하고, 더 나아가 인간과 협력하여 문제를 해결할 수 있는 새로운 길을 제시합니다.