Transcend Borders: Software & Design The lines between Designers & Software Engineers are starting to blur. But here's the thing - it's not just another "AI is going to replace jobs" story. Something way more interesting is happening. We're seeing completely new approaches pop up, fresh ways of thinking about how we build things (@jshguo) |
|
|
About 데일리 노트
- 12월 첫째 주 뉴스레터로 인사드립니다. 이번 주는 Hume과 Anthropic의 모델 연계를 통해 만들어진 음성 기반 컴퓨터 제어 기능에 대한 얘기와 가상과 현실을 연결하려는 시뮬레이션 프로젝트를 소개 드리고자 합니다.
- 이번 데일리 노트도 재미있게 읽어나가시길 바라며, 12월 둘째 주 뉴스레터로 다시 찾아뵙겠습니다.
목차
- 공감 만랩 현실판 자비스(JARVIS)의 등장
- 가상과 현실을 이어주는 시뮬레이션 프로젝트
- 소프트웨어 & 디자인 라이브러리
|
|
|
공감 만랩 현실판 자비스(JARVIS)의 등장
혹시 T/F세요? 한국에 살고 있는 사람이라면 누구나 한 번쯤 들어봤을 법한 질문입니다. 사실 이 질문은 상대의 MBTI가 정말 궁금해서 묻는 말이 아니라 화자의 목소리/얼굴표정에서 느낀 감정을 우회적인 방법으로 표현하는 데 활용된다고 생각합니다. 청자는 화자로부터 공감적인 어조와 다채로운 표정 변화가 느껴진다면 ‘F’의 성향을, 직설적인 어조와 무표정을 관찰하면 ‘T’의 성향이 있는지 묻게 됩니다.
|
|
|
인간-인간의 상호 소통이 아닌, 인간-컴퓨터의 상호작용을 생각해 볼 때, 컴퓨터는 T와 F 중 어느 성향을 보인다고 생각하십니까? 텍스트 입력 문구에 대해 출력 결과를 의무적으로 수행하는 컴퓨터와의 상호작용을 생각해본다면, T의 성향에 더 가깝다고 여길 것입니다. 그러나, 만약 우리가 컴퓨터와 상호작용 하는 방식이 음성 대화로 이뤄진다면, 컴퓨터와 상호 소통하는 대화 환경이 한결 부드럽게 흘러갈 것이라는 점을 추측해 볼 수 있습니다.
이번 장에서는 음성 AI 기반 감정 전달 방식을 연구하고 있는 Hume Labs가 Anthropic의 컴퓨터 제어 기능과 연계해 “음성 기반 PC 제어 기능”을 선보여 현실판 공감 만랩 JARVIS 어시스턴트를 개발한 프로젝트에 관한 얘기를 전해드리고자 합니다.
Hume AI 연구소의 미션은 “인공지능이 인간의 목표와 정서적 행복을 위해 구축되도록 하는 것”이며, 주요 연구 성과는 음성/얼굴 기반의 감정 표현 방식을 프로그래밍화 하는 데 있습니다. 올해 9월에는 음성 기초 모델 EVI 2을 발표하여 목소리 톤, 말하기 속도 등을 조절하며 기계와 인간 사이의 자연스러운 대화를 가능케 하는 API를 출시하며 많은 주목을 받았습니다.
|
|
|
Anthropic사의 컴퓨터 제어 기능이 출시된 이후, 컴퓨터 제어를 자동화하는 GUI 에이전트에 대한 많은 관심이 쏟아졌습니다. 이에 Hume AI 연구소는 컴퓨터 디바이스의 작동 방식을 음성으로 통제하는 흥미로운 실험을 기획하여, Low-Code 툴 Replit Agent를 통해 Hume사의 EVI 2 음성 기초 모델 API와 Anthropic사의 Computer Use API를 결합한 애플리케이션을 제작하였습니다.
Hume의 EVI2 기초 모델이 사용자의 음성을 텍스트로 변환하여 Claude에 전달하면, Claude는 텍스트 명령에 따라 마우스를 움직이고 버튼을 클릭하며 컴퓨터를 제어합니다. Claude가 컴퓨터 제어 결과를 자연어로 출력하면, EVI2 모델이 그 텍스트를 자연스러운 사람 음성으로 변환해 사용자에게 들려줍니다. 아래 그림은 ‘Empathic voice computer use’ 프로그램으로 Fireflox 브라우저 내 체스 게임을 하는 데모 영상의 한 장면입니다. |
|
|
공감 음성 컴퓨터 제어 애플리케이션을 활용한 체스 게임 데모
|
|
|
또 하나 흥미로운 부분은 Hume이 Claude를 기본 보조 LLM으로 선택한 이유입니다. Hume CEO Cowen님은 공식 보도 자료를 통해 Claude 모델의 분위기와 자연스러운 대화 능력을 높아 평가하며, “사람들이 즐겁게 대화할 수 있는 좋은 성격”을 가졌음을 언급하며 ‘공감되는 음성 인터페이스’를 만들려는 Hume사의 가치와 부합한다는 점을 강조했습니다. Anthropic사가 출시 초창기부터 “책임감 있는 AI 기업”을 내세우며, 지속적으로 AI 개발의 윤리적 원칙을 세운다는 움직임도 Hume사의 결정을 정당화하는데 한몫했다고 생각합니다.
III. 생각 정리
이번 발표가 놀라운 점은 AI 업계가 지켜보고 있는 2025년 주요 트렌드 두 가지 ‘음성 AI’와 ‘컴퓨터 제어’ 기능을 융합한 ‘음성 AI 기반 컴퓨터 제어’를 실험한 데 있다고 생각합니다. 음성 기반 AI 유저 인터페이스의 다양성이 더 많이 나타날 것이라는 예측이 나오고 있는 와중에, Hume사의 실험은 이러한 사회적 기대에 부합해 커뮤니티의 많은 주목을 받은 것으로 해석됩니다.
|
|
|
음성 기반 컴퓨터 제어가 대중화된다면 우리 삶에 어떤 변화가 생길까요? 첫째, 멀티태스킹이 쉬워질 것입니다. 손을 쓰기 어렵거나, 여러 장치를 동시에 사용해야 하는 경우, 말로 주문을 냄으로써 한 개인이 수행할 수 있는 작업량이 몇 배 증가할 수 있게 될 것입니다.
또한, 상대방과의 비대면 소통으로 인해 생기는 온라인 상호소통의 문제점을 완화하는데 일부 이바지할 것입니다. 인터넷 활동의 큰 문제 중 하나는 익명성을 기반으로 한 무분별한 악플입니다. 만약말로써 생각을 먼저 전달해야 한다면, 자동 언어 필터가 작동해 이전처럼 생각을 직설적으로 하는 전달하는 경우가 줄어들지 않을까 싶습니다. |
|
|
가상과 현실의 경계를 이어주는 시뮬레이션 프로젝트
1999년에 개봉한 영화 Matrix(메이트릭스)는 ‘무엇이 진짜인가?’라는 질문을 던지게 해줍니다. “우리가 아는 세상은 신경상호작용에 의한 시뮬레이션이고, 그것이 바로 꿈나라 현실의 매트릭스다”라는 대사에서 살펴보듯, 어쩌면 지금 우리는 가상 현실 세계 속에서 살아가고 있을 수 있기 때문입니다. |
|
|
이번 장에서는 메이트릭스 영화에서의 나온 아이디어를 현실로 실현시키고자 하는 프로젝트를 두가지 소개드리려고 합니다. 첫 번째 프로젝트는 일론 머스크가 2016년 개시한 프로젝트 ‘Neuralink’로, 인간의 실제 뇌와 컴퓨터를 연결하려는 프로젝트입니다. 두 번째 프로젝트는 실제와 같은 물리적 환경을 구현 하는 것 목표로 하는 비디오 시뮬레이션 프로젝트 ‘The Matrix’입니다.
뉴럴링크는 “일반화된 뇌 인터페이스(Brain Computer Interface, BCI)를 만들어 현재 해결되지 않은 의료 문제에 처한 사람들의 자율성을 회복하고 미래의 잠재력을 실현”하는 목표를 가지고 있는 기업입니다.
인간의 뇌에 컴퓨터 칩을 심은 뒤, 뇌에서 만들어낸 신호를 컴퓨터가 이해할 수 있는 디지털 신호로 바꾼다면 뇌와 컴퓨터를 연결할 수 있다는 생각으로 시작되었습니다. 지난 3월에는 척추 손상 환자 뇌에 칩 이식 시술 성공해 생각만으로 온라인 체스를 두는 영상을 공개했습니다. 8월에 두번째 척수 손상 환자 뇌에 칩을 이식 시술을 성공해, 지금까지 2명의 환자가 해당 시술을 받은 상황입니다.
|
|
|
첫 칩 이식 환자인 놀런드 아보가 온라인 체스를 두는 모습
|
|
|
지난 주 월요일(현지시간 11월 25일)에는 “신체장애인의 뇌에 칩 이식을 통해 생각만으로도 로봇 팔을 제어할 수 있는 기술에 대한 임상시험” 프로젝트 CONVOY가 승인을 받아 시작된다는 소식을 알리며, 인간의 뇌와 컴퓨터를 연결하는 프로젝트가 더이상 영화 속의 이야기가 아니라는 사실을 보여줍니다.
The Matrix는 Tongyi Lab, University of Hong Kong, University of Waterloo, Vector Institute 소속 연구진이 공동 연구하고 있는 비디오 게임 시뮬레이터 프로젝트입니다. 정밀한 움직임 제어를 통해 무한히 긴 720p 고화질 비디오 스트리밍 동영상을 생성할 수 있으며, 일반 세계의 물리적 법칙을 이해하도록 학습 시킨 ‘월드 시뮬레이션’ 환경을 구축한 사례입니다. |
|
|
대표 논문을 통해 The Matirx 팀은 총 3개의 실적을 만들어 냈음을 공표했습니다. 첫 번째는 현실적인 세계 구현을 위한 최초의 비디오 게임 시뮬레이터/월드 모델 Matrix입니다. 두 번째는 신규 디퓨전 기법 Shift-Window Denoising Process Model (SwinDPM)으로, 사전 학습된 자료를 기반으로 연속적이며 무한히 확장 가능한 비디오 제작을 할 수 있도록 도와줍니다. 마지막은 GameData 플랫폼으로, 게임 상태(In-game state)와 비디오 프레임 (video frame) 페어 데이터를 매칭하고 구축해 월드 모델을 구축하는 데 필요한 라벨링 비용과 업무 복잡성을 줄이는 데 기여합니다. |
|
|
연구진들은 이번 연구가 막대한 비용을 투자해야 하는 AAA 게임 제작 환경의 문제점을 해결할 수 있는 솔루션으로 지목하며 더욱더 창의적인 게임 제작 환경에 기여할 수 있을 거라고 합니다. 현재 공개한 데모 영상 모음집을 통해서는 다양한 시뮬레이션 환경에서 운전하는 차량 움직임을 관측할 수 있으며, 곧 모델과 직접 상호작용 할 수 있는 데모를 공개할 것이라고 밝혔습니다. |
|
|
III. 생각 정리
사뭇 달라 보이는 두 종류의 프로젝트를 같이 소개 드린 이유는 현실 세계와 가상 세계를 연결하려는 방향성이 비슷하다고 보기 때문입니다. Neuralink의 경우, 현실 세계에서 가상 공간을 만들어 나가는 시도로 보았고, Matrix의 경우, 가상 세계에서 현실 공간을 만들어 내는 시도라고 여겼습니다. 양쪽에서 개발이 이뤄진다면, 언젠가 한 곳에서 수렴하는 지점이 나타날 수 있을 것이며 현실 세계와 가상 공간을 선택적으로 오갈 수 있는 미래가 나타나지 않을까 싶습니다. |
|
|
출시/업데이트
- Ai2: OLMo 2 7B, 13B 모델 관련 정보 공개
- Anthropic: Model Context Protocol (MCP) — LLM앱과 데이터 소스를 연결하기 위한 표준 프로토콜 | AWS과의 협력 확대 | Style — Claude 답변 형식 지정 (간단, 상세, 형식)
- Chai Discovery: 생체 분자 구조 예측을 위한 Chai-1 (r) 모델 코드, 가중치 공개
- Chatbot Arena: RepoChat Arena — Github 내 소프트웨어 작업 처리 퍼포먼스 비교 평가
- Crew AI: Awesome CrewAI Repository — 커뮤니티 오픈소스 프로젝트 컬렉션
- Cursor: v0.43 — Agent 기능 출시 | v0.43 — 최근 사례, 팁, 피드백 | Cursor를 활용한 AI 코딩 치트키
- E2B: 샌드박스 내 가상 데스크탑 스트리밍 지원
- Github: Copilot — 프롬프트 입력 통해 프로젝트 요약 설명 추출 | Github Copilot이 코드 성능을 향상 시키는지 알아보기 위한 연구 결과
- Google: Results about you — 검색 내 개인정보 탐색 (한국 지원 불가)
- Google AI: Health AI Developer Foundations (HAI-DEF) — 헬스케어 애플리케이션용 오픈 모델 리소스
- Grok: 페이지 내 방해 요소를 없애는 “포커스 모드” | .webp 이미지 업로드 지원
- Hugging face: SmolVLM 2B VLM 모델 출시
- LangChain: AI 에이전트 개념 가이드
- Meta AI: Meta Sparsh — 시각 기반 촉각 감지를 위한 범용 인코더
- Mistral AI: Mistral Large 모델 Cookbook
- Neuralink: N1 Implant 통제를 연구용 보조 로봇으로 확장하기 위한 타당성 시험 승인
- NotebookLM: 공식 트위터 핸들 | Convert notes to sources — 모든 노트를 하나의 소스로 변환하는 옵션 제공
- Nvidia AI: Hymba-1.5B 모델 가중치 발표
- Open AI: 타 애플리케이션 통합 — VS Code 포크, JetBrains, Nova & Prompt, BBEdit
- Perplexity AI: Quartr API 연결 — 실적 보고에 대한 실시간 녹취록 제공 | 쇼핑 의도 분류기 업데이트 — 검색 결과의 관련성, 정확도 향상
- Qwen: QwQ 오픈소스 모델 프리뷰 | QwQ-32B-Preview 모델을 활용해 미지의 영역을 탐구한 회고록
- Quotient AI: Judges — LLM-as-a-judge 오픈소스 라이브러리
- Replit: 스크린샷 UI 복제 기능 향상 | 다른 언어/기술 스택으로 앱을 다시 작성하도록 요청 가능 | 프롬프트 내 텍스트/스크린샷으로 웹사이트 콘텐츠 첨부 가능
- Stackblitz: Bolt 프로젝트 내 이미지 파일 첨부 지원
- Tesla: 자유도(DoF)가 2배 증가한 로봇의 손/팔뚝 공개
- Together AI: 파인튜닝 API 업데이트
- Vercel: Node.js v.22 LTS(장기 지원 버전) 업데이트 | v0: 콘솔 내 산출물 보기기 지원 | Python 런타임의 스트리밍 지원 | AI SDK Cookbook | AI SDK 앱의 관찰/평가 위해 Langfuse 서비스 통합 | v0: 404 페이지 방문시 가능한 루트 표시 기능 | v0: 콘솔 내 읽지 않은 로그/에러에 대한 알림
- Visual Studio Code: Language Model Tools API 출시 — 외부 도구 및 시스템에 연결하여 텍스트 처리 이상의 작업을 수행할 수 있도록 지원
- Windsurf v1.0.4: Import from Cursor 기능
- Zed: 플랫폼 내 Model Context Protocol (MCP) 지원
상품/서비스/도구
에세이/뉴스레터/보고서/논문
|
|
|
출시/업데이트
프로젝트
상품/서비스
에세이/뉴스레터/보고서/논문
가이드/튜토리얼
|
|
|
- 디자이너와 소프트웨어 엔지니어 사이의 경계가 모호해지기 시작했습니다. 이는 “인공지능이 일자리를 대체할 것”이라는 단순한 이야기가 아닙니다. 훨씬 더 흥미로운 일이 일어나고 있습니다. 완전히 새로운 접근 방식이 등장하고 있으며, 물건을 만드는 방법에 대한 새로운 사고방식이 등장하고 있습니다 (@jshguo)
- 본인의 삶을 자주, 그리고, 기꺼이 편집해 나가세요. 더 이상 본인에게 맞지 않는 옷을 벗는 것을 두려워하지 마세요 (@drex_dsgn)
- 모든 것에 호기심을 갖는 것은 결국 아무것도 성취하지 못하는 원인이 되기도 합니다. 모든 것을 할 수 있다고 믿고 싶지만, 몇 년이 지나도 목표에 가까워지지 않는다면, 소화할 수 있는 것보다 더 많은 것을 부담하고 있는 것입니다 (@orangebook_)
- 지난 100년간의 놀라운 교훈 중 하나는 기술은 연구한다고 해서 문명의 '숨겨진 진실이'이 밝혀지는 것이 아니라, 그 기술을 연구한 수천 명의 머릿속의 ‘살아있는 지식’으로 밝혀진다는 것입니다. 그들이 죽으면 대부분 그 기술도 죽게 됩니다 (@ptrschmdtnlsn)
- 성공한 크리에이터의 뒤에는 자신의 기준에 맞지 않아 공유되지 않은 콘텐츠가 무덤처럼 쌓여 있습니다. 시청자는 게시된 것만을 보지만, 게시되지 않은 작품이 가장 인상적인 이유는 그것이 진정으로 훌륭한 작품을 만드는 데 필요하기 때문입니다 (@david_perell)
- 대화하지 않을 때의 결과를 마주하기 싫다면, 불편한 대화를 하는 것을 어렵게 생각해서는 안 됩니다 (@LeilaHormozi)
- 기업 문화를 복잡하게 생각할 필요가 없습니다. 문화는 단순히 발생하며 자연스러운 행동입니다. 할 수 있는 것이 아니라 그냥 있는 것입니다. 회사의 문화는 그 회사 내 벌어진 50일간의 이동 평균값입니다 (@jasonfried)
- 사람들이 특정 분야를 찾을 수 있도록 더 많은 가능성을 열어둬야 합니다 (@garrytan)
- 먼저 만드세요. 그 뒤에 좋게 만들면 됩니다 (@Daviowhite)
- 많은 사람들이 AI를 사용할 때 자신감을 가지고 시작해야 한다고 생각하며, 기업들도 종종 자신감을 우선순위로 둡니다. 하지만 시작부터 자신감이 필요한 것은 아닙니다. 중요한 것은 끈기, 호기심, 그리고 비판적 사고방식입니다. 자신감은 그 뒤에 저절로 따라옵니다 (@alliekmiller)
- 신기한 것에 관심이 있는 젊은이라면, 지금보다 100배 더 상업적인 마음가짐을 가지라는 조언을 드리고 싶습니다. 누군가 당신이 발견한 것들을 수익화하여 큰 부자가 될 것이고, 그 사람이 당신이 될 수 있습니다 (@WillManidis)
|
|
|
여러분의 참여를 환영합니다.
'데일리 노트' 뉴스레터는 독자들의 적극적인 참여를 전제로 기획되었습니다. 의견 남기기를 통해 여러분들의 이야기를 들려주세요. 뉴스레터 내용에 대한 의견, 다른 크리에이터분들에게 선보이고 싶은 제품/서비스, 공유하고 싶은 이야기, 협업하고 싶은 내용 모두 환영합니다. |
|
|
|