0.4초 실시간 대화형 AI, 대화 구조가 바뀐다

TML ‘인터랙션 모델’이 보여준 0.4초 실시간 AI: 대화 방식이 바뀌면 제품도 바뀐다
AI랑 대화할 때, 내가 말을 끝낼 때까지 기다렸다가 답하는 느낌 때문에 답답했던 적 있으신가요?
미라 무라티 전 오픈AI CTO의 싱킹 머신즈 랩스(TML)가 공개한 ‘인터랙션 모델(Interaction Models)’은 그 답답함 자체를 모델 구조로 해결하려는 시도예요.
1) 턴 기반 대화의 한계: 사람이 AI에 맞춰 “정리”해야 했다
요약: 지금 대부분의 AI는 입력-대기-출력 순서로 움직여요. 그래서 자연스러운 협업이 어렵습니다.
TML은 기존 AI의 대화 구조를 ‘턴(turn) 기반’이라고 짚었어요. 사용자가 말(또는 입력)을 끝내면 그때부터 AI가 처리하고, 결과를 한 번에 내놓는 방식이죠.
문제는 이 구조 때문에 사람이 질문을 “이메일처럼” 정리해서 던지게 된다는 점이에요. 즉, AI를 쓰려고 사람이 사고 흐름을 접고(왜곡하고) 정돈해야 하니까, 회의/코딩/현장 모니터링처럼 흐름이 중요한 작업에서 불편이 커집니다.
TML의 핵심 메시지는 간단해요. 상호작용(interactivity)은 UI 기능이 아니라 모델의 본체 설계 요소가 되어야 한다는 거죠.
2) 멀티 스트림·마이크로 턴: 200ms 단위로 동시에 듣고 말한다
요약: TML은 200밀리초(ms) 단위로 입력과 출력을 함께 굴리는 구조를 제시했어요.
TML이 제안한 건 multi-stream, micro-turn 구조예요. 텍스트만이 아니라 음성·영상 신호를 실시간으로 분석하면서, 출력도 끊기지 않게 맞물리게 설계합니다.
이 방식의 포인트는 “모든 입력이 끝난 뒤 한 번에 답하기”가 아니라, 입력이 들어오는 동안에도 작은 단위로 이해/반응을 반복한다는 거예요.
사람 입장에서는 AI가 “잠깐만요…” 하고 멈춰 서는 게 아니라, 상황에 맞춰 **즉각적인 추임새(백채널)**를 주거나 필요한 순간에 끼어드는 형태가 가능해집니다.
결국 대화형 AI가 ‘채팅’이 아닌 ‘대화’에 가까워지는 기반이죠.

3) 풀 듀플렉스(full-duplex): 말하는 도중에도, 화면이 바뀌면 먼저 개입한다
요약: full-duplex(동시 송수신)로 사용자 발화 중에도 반응하고, 영상 변화에도 선제 대응합니다.
TML은 ‘풀 듀플렉스’ 아키텍처를 통해 AI가 사용자가 말하는 중에도 반응할 수 있다고 설명했어요. 예를 들어 사용자가 코드를 붙여 넣는 순간 버그 패턴을 감지하면, “여기 null 처리 빠졌어요”처럼 바로 개입하는 식이죠.
또 화상회의 중 화면에 새로운 사람이 등장하면, 이를 인식하고 “지금 새 참가자가 들어왔네요. 소개할까요?” 같은 반응도 가능해집니다.
이게 왜 중요하냐면, 실무에서 진짜 생산성을 갈라놓는 건 ‘정답률’도 있지만 흐름을 끊지 않는 보조거든요. 입력이 끝난 뒤 분석하는 AI는 이미 한 박자 늦고, 그 한 박자가 누적되면 협업 도구로서의 만족도가 크게 떨어집니다.
4) 인코더 없는 초기 융합: 위스퍼 없이 원시 신호를 바로 학습한다
요약: encoder-free early fusion(인코더 없는 초기 융합)로 원시 오디오/이미지 패치를 경량 임베딩 후 트랜스포머에서 공동학습(co-training)합니다.
기존 음성 AI는 Whisper 같은 대형 음성 인식 인코더를 앞단에 두고, 그 결과를 LLM에 넘기는 구조가 흔해요. 그런데 TML은 이 단계를 줄이고, 원시 오디오 신호와 이미지 패치를 경량 임베딩 계층에 넣어 트랜스포머 내부에서 처음부터 함께 학습시키는 접근을 택했습니다.
이 설계는 실시간성에 유리한 선택으로 읽혀요. 중간 단계가 무거우면 지연 시간이 늘고, 모달리티(음성/영상/텍스트) 사이 정보가 “번역”되면서 손실될 수도 있으니까요.
정리하면, TML은 “모달 입력을 따로따로 처리 후 합치기”가 아니라 처음부터 같이 굴리는 구조에 힘을 준 셈입니다.
5) TML-Interaction-Small과 이중 모델: 반응은 즉시, 복잡한 일은 뒤에서
요약: 핵심 모델은 TML-Interaction-Small이며, 인터랙션 모델 + 백그라운드 모델로 역할을 나눴습니다.
이번 프리뷰의 대표 모델은 **TML-Interaction-Small**이에요. 2760억 매개변수의 MoE(Mixture of Experts, 전문가 혼합) 기반인데, 실제 활성화되는 매개변수는 120억 수준이라고 합니다.
또 하나 중요한 설계는, “실시간 대화”와 “복잡한 추론/도구 호출”이 충돌한다는 문제를 이중 구조로 풀었다는 점이에요.
- 인터랙션 모델: 사용자의 대화 흐름을 유지하고 즉각 반응(실시간성 담당)
→ 말 끊김 없이 이어가는 것이 핵심이라, UX 체감이 크게 좋아질 수 있어요. - 백그라운드 모델: 비동기적으로 웹 검색, 장기 추론, 복잡한 도구 호출 수행
→ 오래 걸리는 일을 뒤에서 처리해 결과만 전달하면, 대화가 멈추지 않습니다.
공개 영상에서는 반응 속도를 설명하면서 동시에 막대그래프를 생성하는 장면이 시연됐다고 해요. 이런 형태가 가능해지면, “대화하다가 분석 요청하면 갑자기 멈춤” 같은 순간이 줄어들겠죠.

6) 벤치마크와 활용 시나리오: 0.40초 지연이 만들어낼 산업 변화
요약: FD-벤치에서 평균 턴 응답 지연 0.40초, 상호작용 품질 77.8점을 기록했습니다.
TML은 상호작용 품질 전용 벤치마크인 **FD-벤치**를 사용했다고 밝혔고, TML-Interaction-Small은 평균 0.40초로 보고됐어요. 비교로 기사에서는 제미나이 3.1 플래시 라이브(0.57초), GPT-리얼타임-2.0 미니멀(1.18초)이 언급됐습니다.
또 RepCount-A(영상 반복 동작 세기)나 ProactiveVideoQA(상황 변화에 선제 반응) 같은 테스트에서, 다른 모델이 침묵/오답을 내는 동안 더 적극적인 대응을 보였다고 해요.
이게 실제로 어디에 꽂히냐면, 사용 시나리오가 꽤 선명합니다.
- 제조/연구소 실시간 영상 감시: 영상 피드를 보다가 안전 위반/공정 이상을 감지하면 즉시 경고
→ “사후 분석 리포트”가 아니라 현장 개입형 AI가 됩니다. - 콜센터: 1~2초 지연이 줄어들면 대화가 자연스러워지고, “음/네/알겠습니다” 같은 백채널 반응으로 끊김을 줄일 수 있어요.
→ 상담 품질과 고객 이탈을 동시에 건드릴 포인트죠. - 시간 개념의 네이티브 처리: “4분마다 온도 확인”, “이번 공정이 더 오래 걸리면 경고” 같은 요청을 더 자연스럽게 수행
→ 프롬프트 텍스트로 시간을 ‘설명’하는 게 아니라 시간을 신호로 다루는 방향에 가깝습니다.
마무리: 실시간 AI는 ‘성능’보다 ‘리듬’을 바꾸는 기술이에요
TML의 인터랙션 모델은 아직 일반 공개 단계는 아니고, 수개월 내 제한적 연구 프리뷰 후 올해 안 광범위 공개를 목표로 한다고 했어요.
하지만 메시지는 분명합니다. 앞으로 경쟁의 중심은 “똑똑함”만이 아니라 사람의 업무 리듬을 끊지 않는 상호작용 설계로 옮겨갈 가능성이 커요.
여러분이 지금 쓰는 AI 업무 도구에서 가장 답답한 순간이 “기다림”이라면, 그 기다림이 줄어든 제품을 상상해보세요.
그게 단순한 편의가 아니라, 업무 방식 자체를 바꾸는 전환점이 될 수 있습니다.






