Transcend Borders: Software & Design Creating (and Believing) your own reality, is essential to doing anything big. It lines up your behaviors, what you take on, what you strive for, and how you navigate the world. Who cares if people laugh, or if they don't believe you. Block it out & Run Ahead (@drgurner) |
|
|
About 데일리 노트
- 10월의 마지막 뉴스레터로 인사드립니다. 이번주에는 자율컴퓨터의 시초를 보여준 Anthropic사의 Computer Use 기능 출시와 생성형 미디어 툴 스타트업과 Grammy Award 뮤지션들과의 협업 프로젝트에 대한 얘기를 담았습니다. 소프트웨어 라이브러리를 통해서는 'AI 에이전트' 관련 소식들을 살펴보시길 바랍니다.
- 이번 데일리 노트도 재미있게 읽어나가시길 바라며, 11월 첫째 주 뉴스레터로 다시 찾아뵙겠습니다. 뉴스레터 내용에 대한 의견이 있으시다면 언제든 편하게 남겨주시기 바랍니다.
목차
- 자율컴퓨터
- 생성형 미디어 툴 & 인간 뮤지션의 콜라보 프로젝트
- 소프트웨어 & 디자인 라이브러리
|
|
|
자율컴퓨터
문명사회가 발전하면서 인류의 경제 참여 형태는 육체적 노동을 하는 것에서부터 시작해 도구를 활용하고, 기계를 제작하는 등 많은 변화를 거쳐왔습니다. 여기서 한 발짝 더 나아가, 언젠가 우리 주변의 많은 기계들이 자동화 된 체, 인간은 전략적인 의사결정만 내리는 사회가 도래할 것이라는 점을 예측해 볼 수 있으며, 자율주행차가 그런 움직임이 이미 시작되었음을 보여주는 대표 주자라고 생각합니다.
자율주행차의 놀라운 점은 자동차를 조종하는 최종 주체가 인간이 아니라 기계 그 자체가 될 수 있다는 것에 있다고 생각합니다. ‘운전’ 한다는 행위 안에는 도로 법률에 따라 주행할 수 있는 능력, 타 객체(자동차, 인간)를 인지하며 도로 상황에 적응하는 능력, 그리고 예측 불가능 상황에 대한 발 빠르게 대응하는 능력을 모두 필요로 하기에 하나의 기계가 이 모든 종합적인 인지 능력을 수행할 수 있다는 것은 신기한 것 같습니다.
|
|
|
자율주행 택시 서비스 ‘웨이모 원(Waymo One)’ 출처: 현대자동차 |
|
|
이제는 자동차뿐만 아니라 현대인에게 가장 친숙한 도구인 컴퓨터의 자율화 모드를 실행할 수 있게 되었습니다. 지난 목요일, Claude 모델의 개발사 Anthropic사는 컴퓨터 기기가 운전대를 잡은 첫 프로토타입 (베타) 기능 ‘Computer Use’ 소개하며 자율화된 컴퓨터를 실험해 볼 수 있는 환경을 마련하며 많은 사람들의 관심을 끌어 냈습니다. 이번 장에서는 Computer Use 기능의 연구 배경, 작동 방식, 퍼포먼스 평가와 사회적 함의에 관해 얘기하고자 합니다. |
|
|
I. 연구 배경
인간의 개입 없이 자율적인 에이전트가 컴퓨터 작업을 수행하도록 하는 API를 공개하며 Computer Use 기능이 출시되었는데, 사실상 과거에도 자율적인 컴퓨터 사용을 연구하는 프로젝트가 몇 차례 있었습니다.
가장 대표적으로 16년 12월, OpenAI사는 Universe 프로젝트를 공개하며 AI 에이전트가 사람처럼 화면 픽셀을 보고, 가상 키보드/마우스 조작 하는 등으로 컴퓨터를 사용할 수 있도록 EA, Microsoft Studios 등의 게임/앱 회사들과 실험을 진행한 바 있습니다.
|
|
|
또 하나의 예시로 24년 9월, Altera 연구사가 Project Sid 프로젝트를 통해 Minecraft 게임 환경에서 1,000개 이상의 AI 에이전트를 투입해 대규모 문명 사회를 만들어 나가는 실험을 살펴볼 수 있습니다. |
|
|
왜 이렇게 많은 AI 스타트업들이 자율 컴퓨팅 환경을 만드는 데 관심을 가질까요? 아마도 현대 문명 사회에서 사람들이 컴퓨터에 높은 의존도를 보이고 있어, 자율화된 컴퓨팅 환경을 구축하는 행위의 경제적 효과를 높이 평가하고 있기 때문이라고 생각합니다.
II. 작동 방식
- 1 단계 (User → Claude): API 요청을 통해 Computer Use 도구 추가, 사용자의 일반 명령을 담은 프롬프트 입력
- 2 단계 (Claude → User): 프롬프트 내용을 파악하고 필요한 Computer Use 도구 결정, 해당 도구를 사용할 수 있는 도구 요쳥 API 생성
- 3 단계 (Claude → VM): 컨테이너 또는 가상머신에서 Computer Use 도구 사용할 수 있도록 도구 API 요청
- 4 단계 (VM → Claude): 작업이 완료하기 위해 필요한 Computer Use 도구가 있다면 3 단계로 돌어가 새로운 도구 API 요청을 하도록 함
- 5 단계 (Claude → User): 모든 작업을 수행했다고 판단되면 사용자에게 응답을 보냅니다
사용자의 입력 없이 3단계와 4단계가 반복되는 것을 '에이전트 루프' 라고 부르며, 실질적으로 컴퓨터의 자율화가 나타나는 부분이라고 보시면 좋습니다.
|
|
|
연구진들의 자체 실험을 통해 해당 기능의 강점과 약점을 제시하기도 했습니다. 강점으로는 (i) 계산기, 텍스트 편집기 등의 간단한 소프트웨어 활용 능력, (ii) 사용자의 프롬프트을 일련의 논리적 단계로 전환하여 컴퓨터로부터 실행하는 능력, (iii) 장애물을 만나면 스스로 수정하고 작업을 다시 시도하는 요소들이 손꼽혔습니다.
부족한 부분으로는 (i) 느린 작업 속도, (ii) 도구 선택 시 실수를 하거나 환각 현상이 드러나는 오류 문제, (iii) 드레그, 확대/축소 등 사람들이 일상적으로 수행할 수 있는 스크롤 기능의 불안정성, (iv) 화면을 연속적으로 관찰하는 것이 아니라, 스크린샷을 찍고 조합하는 특성 탓에 놓치는 짧은 동작 인식 저하 문제들이 거론되었습니다.
IV. 사회적 함의
Claude Relations Head로 재직 중인 Alex Albert 님은 Computer Use의 사회적 의미를 “인간과 컴퓨터의 새로운 상호작용을 향한 첫걸음”으로 본다고 언급했습니다. 이와 유사하게, 새로운 Computer Interface을 만들려고 노력하는 스타트업 (ex. Mainframe, Browser Company)들이 많아지는 점을 비추어 볼 때, 앞으로는 기계와 인간의 상호작용을 다시 재정의 하려는 사레들이 더욱더 많이 나타날 것입니다.
|
|
|
기계와 인간의 상호작용이 어떻게 바꿔 나갈지도 생각해보기 흥미로운 주제입니다. 지금까지 웹이 인간을 위해 설계 되었다면, 앞으로는 AI를 위한 컴퓨터의 UI/UX 설계가 이뤄질 것이라는 점을 추측해 볼 수 있습니다. 과거에는 인간의 선택에 따라 컴퓨터가 수동적으로 반응을 했다면, 앞으로는 컴퓨터가 인간과 동등한 권한으로 작업을 수행해 나갈 수도 있지 않을까 싶습니다. |
|
|
생성형 미디어 툴 & 인간 뮤지션의 콜라보 프로젝트
음악 생태계에서 콜라보 활동이 주목 받는 이유는 상이한 음악 스타일과 세계관이 어우러져 이색적이면서 새로운 음악이 만들어지는 데 있다고 생각합니다. 아이유(IU)가 박명수와 함께 부른 바다, 헨리/조현아/양다일과 함께 부른 길, 지드래곤 함께 한 팔레트, 악동뮤지션과 함께한 낙타, 임슬옹과 함께 부른 잔소리까지 콜라보를 같이한 아티스트에 따라 아이유의 목소리가 매번 새롭게 부각되는 점이 콜라보가 가진 매력을 증명해 줍니다.
|
|
|
아트스트끼리의 콜라보 활동뿐만 아니라, 앞으로는 생성형 미디어 툴과 인간 아티스트 간의 콜라보프로젝트도 더욱 많이 관찰할 수 있을 거로 보입니다. 이번 장에서는 생성형 미디어 툴과 뮤지션들의 콜라보 사례를 소개하며, 해당 움직임의 사회적 배경에 대한 얘기를 해보고자 합니다.
I. Suno & Timbaland
|
|
|
II. Jacob Collier & Google Deepmind의 MusicFX DJ
|
|
|
III. 에스파 Aespa & 가상 DJ Mixer
마지막으로 살펴볼 사례는 다름 아닌 에스파(Aespa)의 WHIPMIXER (MY Remix Ver.) 프로모션 캠페인입니다. 약 5개월 만에 다섯 번째 미니앨범 '위플래시'로 컴백한 에스파는 10월 18일 공식 발표문을 통해 "기계 모형을 조작하여 '위플래시' 음원 일부를 직접 믹싱하고 다운로드 할 수 있는 'WHIPMIXER(MY Remix Ver.)' 체험이 가능한 웹사이트 프로모션"을 열어, "음악을 감상하는 선에서 그치지 않고 에스파의 음악을 자신만의 스타일로 리믹스 할 수 있는 경험을 제공"하고자 한다고 프로모션의 기획의도를 밝혔습니다.
생성형 AI 기술이 Whipmixer 개발 과정에서 활용됐는지에 대한 별도의 추가 내용을 확인하지는 못했지만, 앞선 두 사례와 유사하게 접근성이 높은 기술 도구를 활용해 커뮤니티 멤버들로 하여금 뮤지션과의 콜라보를 할 기회를 열어주는 좋은 사례라고 여겨 가져와봤습니다.
참고. 참여 방법이 매우 쉽습니다. 여러분들도 한번 사이트에 들어가, RECORD 누르시고, 본인 만의 스타일로 Whipmixer를 콘트롤 하신 뒤, 링크/카카오톡/X를 통해 작품을 공유해보시길 바랍니다! |
|
|
III. 생각 정리
마지막에 언급한 에스파 사례를 제외하고, 비슷한 듯 다르게 이뤄진 앞선 두 사례를 살펴보며 최고의 아티스트와의 콜라보 활동을 통해 생성형 미디어 개발사들이 얻고자 하는 가치가 무엇일지에 대해 생각해 보게 되었습니다.
생성형 미디어 툴들이 공통으로 비판받는 부분은 ‘창작’이 아니라 ‘복제’를 한다는 것에 있습니다. Ted Chiang은 “Why AI isn’t going to make art”라는 논평문을 통해 AI 프로그램이 창의성을 향상 시켜주는 논리를 부인하는데 있어 “예술작품은 창작 작품을 만들어 나가는 모든 단계에서의 내리는 작은 선택들로 구성되기에 텍스트 프롬프트를 구상하는 큰 선택만 중요하다고 보는 것은 사고의 오류”라고 주장했습니다.
이러한 비판이 있다는 것을 아는 상태에서 생성형 AI 개발사들이 취할 수 있는 움직임은 생성형 툴 없이도 훌륭한 작품을 만들어 낼 수 있는 아티스트와 협력해 ‘복제‘ 측면보다는 ‘창작’ 측면에 집중해 툴의 가치를 조명하는 것이었습니다. 작업에 걸쳐 수반되는 수많은 “작은 선택”에 있어서 AI 프로그래밍 툴이 도움을 줄 수 있다는 것을 보여주기 위해서는 공인 아티스트들이 그동안 축적한 음악적 노하우를 기반으로 도구와 상호작용 하는 모습을 기록하여 “창의력이 확장”되는 무형 가치를 최대한 그려내고자 했던 것이 아닐까 싶습니다. |
|
|
SOFTWARE (소프트웨어)
출시/업데이트 (Release/Update)
- AI at Meta — Meta Spirit LM: 텍스트와 음성을 자유롭게 혼합하는 최초의 오픈소스 멀티모달 언어 모델
- Anthropic: Claude 3.5 Sonnet 업그레이드, Claude 3.5 Haiku, Computer Use 베타, 데이터 분석 도구
- Autotab AI: 인간이 수행하는 반복적인 작업을 처리하는 AI 에이전트
- Cerebras Inference: 3배 빠른 속도
- Cloudflare — Workflows: 재시도, 재시작, 상태 자동 유지가 가능한 장기 실행형 앱 구축 환경 제공
- Crew AI: IBM Watson 플랫폼 내 통합, Cerebras Inference 통합
- CopilotKit — CoAgents Public Beta: 에이전트 기반 애플리케이션을 개발하기 위한 개발 환경
- Github — Copilot: 질문이 있는 경우, 문의할 수 있는 챗봇 기능 지원
- Google AI — Aigency: 소셜 미디어 마케팅 도구 (실험 중)
- Google Workspace: Gemini AI 생성 이미지를 Meet 화상통화 배경화면으로 둘 수 있는 기능
- Hugging Face: Transformers.js v3 출시, Speech-to-Speech 모델
- IBM — Crew AI 통합을 통해 Watson 플랫폼 내 AI 에이전트 구축, Granite 3.0 LLM 모델군
- Langchain — 새로워진 Open Canvas UI 챗봇
- LlamaIndex — VividNode: GPT, Claude, Gemini, Llama 모델과 상호작용하는 데스크탑 앱
- Microsoft — Copilot Studio, Dynamics 365 내에서 활용 가능한 자율 AI 에이전트, OmniParser: UI 스크린샷을 구조화된 형태로 전환 시켜주는 도구
- Mistral AI — Multimodal Embed 3 AI 서치 모델
- Next.js 15: 업데이트 완료, 컨퍼런스 하이라이트
- Notion: Make with Notion Showcase Seoul 행사 (11월 5일), Make with Notion 행사, Offline Mode (준비 중), Mail (곧 출시), Automations, Layouts, Marketplace, Forms
- Nvidia: AI 가상 어시스턴트 NIM Agent
- OpenAI: sCM, 연속적인 이미지 일관성 모델
- Pangea: 오픈소스 39개국어 지원 멀티모덜 LLM
- Perplexity — Pro Search 업그레이드
- Scale AI: LLM 출력이 완료될 때까지 기다리지 않고 생성 중에 평가하는 새로운 방법 개발
- Stackblitz: AI 에이전트 업그레이드, 빌더 커뮤니티
- Together AI — Together Cookbooks: 오픈소스 모델 활용 방식 라이브러리, Together Demo: 오픈소스 앱 모음 포트폴리오
- v0 — Autocomplete 기능
- Visual Studio Code — Notebook 내 Github Copilot 사용
- xAI — API 출시
상품/서비스/도구 (Product/Services/Tools)
- Artificial Analysis — Video Arena: 텍스트-비디오 모델 비교
- ArXiv Data Map: ArXiv 연구 논문 맵
- Company Facts API: 티커에 대한 금융 정보를 획득할 수 있는 API
- Dimension AI: 소프트웨어 협력 툴
- Doc2Podcast: 문서로부터 커스터마이징 된 팟캐스트를 만들어주는 오픈소스 앱
- Emergent Mind: 컴퓨터 공학 자료들을 둘러보기 쉽도록 도와주는 AI 연구 어시스턴트
- Gradio Canvas: 오픈소스 코딩, 글쓰기 코파일럿
- Groq API Cookbook: 코드 튜토리얼, 실제 구현 예시
- HeyGen Interactive Avatar: 인터렉티브 아바타를 활용해 미팅, 인터뷰, 세일즈 콜 대행 참석
- Monitor: AI 기반 관측성 인터페이스, 사람이 언어 모델의 내부 계산을 관찰, 이해 및 조정할 수 있도록 설계
- Readtube.me: 유튜브 비디오 → 블로그 포스트 (다국어 지원) → SEO 최적화
- Sidebar.tsx: 여러 종류의 사이드바를 만들 수 있는 25개 구성요소
- Simple AI: 국제 다국어 전화 통화 에이전트
- Softr: 노션 데이터베이스를 포털/앱으로 전환하는 툴
- Superb AI: 데이터 수집, 큐레이션 및 라벨링 등 모델 구축 및 배포를 위해 필요한 End-End 도구
- Tierly: 요금제 최적화 툴
- Thoughtworks — Technology Radar 10월호: 기술, 도구, 플랫폼, 언어 & 프레임워크를 개발해 나가는 프로젝트 분석
가이드/기타 (Guide/Others)
DESIGN (디자인)
출시/업데이트 (Release/Update)
- Canva — 10월 업데이트: Magic Write, Charts, Branded Caption, Polls & Quizzes, Whiteboard, Mockup
- ComfyUI: 데스크탑 애플리케이션 v1 출시
- Elevenlabs — Voice Design: 텍스트 프롬프트를 통한 음성 제작, Pictory 지원: 텍스트/기사/웹사이트/프레젠테이션→ 전문 동영상 콘텐츠 전환
- Figma — 노션 내 Figma, FigJam, Figma Slides 임배드 기능 지원, Team/Community 파일 커스텀 슬라이드 템플릿 제작 가능
- Genmo — Mochi 1 프리뷰: 오픈소스 비디오 생성 모델
- Google Deepmind — Music AI Sandbox: 음악 창작을 도와주는 도구 업데이트, SynthID: AI 생성 콘텐츠를 위한 디지털 워터마킹 툴
- Google Design: Youtube 아이덴티티 업데이트
- Google Photo: AI 편집 투명성 강화
- Haiper — 2.0: 더 선명한 움직임, 멋진 비주얼, 역동적인 템플릿을 제공하는 AI 비디오 생성 애플리케이션
- Ideogram — Canvas: 이미지를 구성, 생성, 편집, 결합할 수 있는 창작 보드
- Krea AI — Video Extend
- Midjourney — Image Editor: 이미지 편집기, Image Re-texturing: 재료, 표면, 밝기 편집
- Runway — Act-One: 비디오 영상 또는 캐릭터 이미지를 사용하여 Gen-3 Alpha 모델에서 표현력 있는 캐릭터 연기를 생성하는 방법
- Stability AI — Stable Diffusion 3.5 모델 출시 & 커뮤니티 라이선스
- Suno 비디오 시리즈 MUSE: Ep 1. Timbaland, Remix 대회
- Viggle AI — Mic: 립싱크 & 오디오-모션 구현 기능
프로젝트 (Project)
상품/서비스/도구 (Product/Services/Tool)
가이드/기타 (Guide/Others)
생각이 꼬리에 꼬리를 물어
- 대단한 일을 해내기 위해서는 끊임없이 자신만의 세상을 창조하고 그 과정을 신뢰해야 합니다. 그 믿음은 당신의 행동, 당신이 맡게 될 일, 당신이 추구하는 사항, 세상을 바라보는 방식을 결정지을 것입니다. 사람들이 그 일에 비웃거나, 믿지 않든 상관 하지 마세요. 모든 부정적인 피드백을 차단하고 앞으로 나아가시길 바랍니다 (@drgurner)
- 현재 위치와 원하는 목표 사이를 가로막는 것은 신념, 기술, 지식뿐입니다. 신념은 바꿀 수 있고, 기술은 훈련할 수 있으며, 지식은 습득할 수 있습니다 (@thedankoe)
- 장기적인 계획을 실천하기 위해 무한한 인내심을 가진 사람들을 과소평가하지 마시기 바랍니다 (@orangebook_)
- 인생은 문제로 가득합니다. 삶의 지혜는 모든 문제를 해결하는 것에 있는 것이 아니라 해결할 가치가 있는 문제에 에너지를 집중하는 것입니다 (@SahilBloom)
- 책임감 있는 문화를 조성하세요. 모든 행동, 구성 요소, 제품, 결정은 누가 소유하고 책임지는지에 따라 하나의 이름으로 연결되어야 합니다... 회사의 권력은 핵심 기능의 손에 확고하게 쥐어져야 합니다. 새로운 기술을 설계하고 구축하는 기술 회사라면 권력은 엔지니어에게 있어야 합니다... 무엇보다도 직원들에게 영감을 불어넣는 방법을 알아야 합니다. 이는 아름다운 말로서 이뤄지는 것이 아닌 실제적이고 의미 있는 행동으로 이루어져야 합니다 (@Devon_Eriksen_)
- 새로운 제품을 개발할 때는 사람들은 그 제품으로 무엇을 얻을 수 있는지에 대해 생각합니다. 하지만 더 좋은 질문은 사람들이 제품을 사용하기 시작하면 무엇을 포기해야 하는 지입니다 (@jasonfried)
- 최고의 크리에이터들은 영감과 창작 사이의 시간을 최소화하기 위해 모든 노력을 다합니다 (@thedankoe)
- 아무도 당신의 실패를 기억하지 않으므르 일단 시도해 보시길 바랍니다 (@Suhail)
- 힘들고, 위험하고, 어렵게 느껴질 때도 행동으로 옮기세요. 나중에 스스로에게 감사함을 느끼게 될 것입니다 (@drgurner)
- 스타트업의 핵심은 다른 사람들이 사용할 수 있는 기술을 만드는 것입니다. 소프트웨어를 만들 때는 최소 10명이 사용하는 과정을 지켜봐야 합니다. 그 옆에 앉아서 아무 말도 하지 마세요. 제품 설계의 실패 지점을 직접 마주하세요.. 빌더로서 갈 수 있는 유일한 글은 사람들이 걸리는 곳을 파악한 다음 누구나 사용할 수 있도록 끊임없이 다듬는 것입니다. 이 길을 통해서만 좋은 디자인, 좋은 제품을 만들어 낼 수 있으며, 지름길은 없습니다 (@garrytan)
- 초기 단계의 창업에서 가장 중요한 것은 ‘좋은 아이디어를 찾는 활동이 아닌’,‘계속해서 반복해 나가는 것’입니다. 좋은 아이디어를 끌어내기 위해서는 나쁜 아이디어를 포함해서 많은 아이디어를 가져야 합니다. 생각을 멈추고 실행해야 합니다 (@mbrandolph)
- 인터넷에 충분한 가치를 올리면, 인터넷도 본인을 위한 가치를 창출해 냅니다 (@gregisenberg)
- 초기 테크 기업 생태계를 관찰하면서 발견한 점: 기업이 제품을 구축하고 배포하는 속도보다 기술이 더 빠르게 발전하고 있어 특정 분야에서 '승자'를 선정하는 것이 더 어려워지고 있습니다. 이러한 시기에는 팀의 속도와 유연성이 더 중요해집니다 (@scottbelsky)
|
|
|
여러분의 참여를 환영합니다.
'데일리 노트' 뉴스레터는 독자들의 적극적인 참여를 전제로 기획되었습니다. 의견 남기기를 통해 여러분들의 이야기를 들려주세요. 뉴스레터 내용에 대한 의견, 다른 크리에이터분들에게 선보이고 싶은 제품/서비스, 공유하고 싶은 이야기, 협업하고 싶은 내용 모두 환영합니다. |
|
|
|