데일리 노트: Multi-Model AI 애플리케이션

Transcend Borders: Software & Design

2024. 11. 4.

데일리 노트 뉴스레터

Fear comes from inexperience, not incapability. You're afraid because you haven't done it yet, not because you can't do it. When you feel fear, inexperience is the problem to be solved—and it's only solved through action (@SahilBloom)

About 데일리 노트

11월 첫번째 뉴스레터로 인사드립니다. 이번주에는 복수의 대형언어모델(Multi-Model Choice)을 지원해 AI 코드 편집기의 슈퍼앱이 되고자 하는 GitHub사의 움직임과 기계에게 인간의 5대 감각 중 후각, 촉각 학습 능력을 탑재시키려는 두 프로젝트에 대한 얘기를 담았습니다.
이번 데일리 노트도 재미있게 읽어나가시길 바라며, 11월 둘째 주 뉴스레터로 다시 찾아뵙겠습니다. 뉴스레터 내용에 대한 의견이 있으시다면 언제든 편하게 남겨주시기 바랍니다.

Github Copilot: AI 코드 편집기의 슈퍼앱
로봇의 5대 감각 도장 깨기
소프트웨어 & 디자인 라이브러리

Github Copilot: AI 코드 편집기의 슈퍼앱

BlackBerry 창업자이신 Mike Lazaridis는 슈퍼앱이라는 용어를 처음 정의하며 “사람들이 매일 이용하고 있는 다양한 앱의 폐쇄된 생태계로써, 상황에 맞는 효율적이고 통합된 경험을 제공하는 플랫폼”이라 표현했습니다. 슈퍼앱(ex. 카카오톡)은 여러 단일 서비스를(ex. 메시지, 금융, 쇼핑, 지도, 블로그 등) 한 플랫폼을 통해 접근하여 편리한 탐색을 할 수 있는 장점을 가지고 있어 많은 사용자들을 끌어들입니다.

카카오톡 지원 서비스
출처: Right Brain Labs

최근 ‘AI 코드 편집기의 슈퍼앱’이 되고자 하는 포부를 드러난 기업이 있는데 바로 마이크로소프트 산하의 깃허브(GitHub) 오픈소스 코드 공유 플랫폼입니다. 깃허브는 10월 29-30일(현지시간) ‘Github Universe 2024’ 컨퍼런스를 개최하며 그동안 개발해온 인공지능 관련 기능들을 공식적으로 공개하는 자리를 마련했습니다. 이번 장에서는 컨퍼런스 발표문 중 가장 주목을 받았었던 ‘Github Copilot’ 관련 업데이트와 자연어 기반 AI 프로그래밍 툴 ‘Github Spark’ 기능에 대한 얘기를 전달해 드리고자 합니다.

GitHub Universe 2024 공식 포스터
출처: Github

I. Github Copilot

Github Copilot는 Github와 OpenAI가 공동 개발해 2021년에 출시한 인공지능 기반 코드 작성 도구입니다. PC내에서 일상적인 질문을 던질 수 있는 Copilot PC+ 처럼, Github Copilot은 Visual Studio Code 개발 환경 내에서 활용 가능한 개발자들의 AI 어시스턴트로 보시면 됩니다.

GitHub Copilot 홈페이지
출처: Github

그동안 Github Copilot은 OpenAI 기반 모델들을 중심으로 여러 차례 업데이트를 진행 (GPT-3 초기 버전인 Codex → GPT-3.5, 4, 4o, 4o-mini) 하며 OpenAI와 마이크로소프트의 굳건한 전략적인 협력 관계를 이어나갔었습니다. 그렇기에 이번에 Open AI사의 o1-preview & o1-mini 모델뿐만 아니라, Github Copilot 내 Anthropic사의 Claude 3.5 Sonnet 모델과 Google사의 Gemini 1.5 Pro 모델을 추가로 지원한다는 발표는 Microsoft가 Open AI 기반 LLM 모델들에 대한 의존도를 줄여나가기 위한 움직임으로 해석되었습니다.

Multi-Model Copilot 도식도
출처: 자체 제작

Github CPO이신 Mario Rodriguez님은 X를 통해 “AI 시대 개발자들의 선택과 경험을 확대 하기 위해 단일 스레드 모델에서 멀티 스레드, 멀티 모델, 멀티 모달, 멀티 에이전트 모델로 전환 해 나갈 것”이라 언급했습니다. 즉, 여러 AI 코드 편집기의 사용자 경험을 아우르는 슈퍼 앱으로 진화 해나갈 전략적 방향성을 공개하며 다양한 모델 개발사들과의 협력 관계를 만들어 나간 이유를 뒷받침한 걸로 보입니다.

II. Github Spark

Github Copilot의 멀티 모델 지원 소식 못지 않게 많은 관심을 끌었던 기능 발표는 Github 자체의 이용자 친화적인 AI 프로그래밍 툴 ‘Github Spark’ 기능 공개였습니다. Spark 기능은 개발자뿐만 아니라 일반 비개발자분들도 각자 원하는 아이디어에 맞춰 개인화된 마이크로 앱(이른바, Spark)을 만들 수 있도록 개발 환경을 마련해줍니다. (i) 자연어 기반의 프롬프트 입력이 가능하고, (ii) 데이터 스토리지, 테마, LLM 모델 선택을 직접 할 필요 없이, (iii) 어디서나 Spark 앱을 관리하고 실행할 수 있는 대시보드를 제공하는 AI 코드 편집기입니다.

GitHub Spark 소개
출처: GitHub Youtube

본인이 만들고 싶은 아이디어가 “번쩍(Spark)” 떠오르면, 그 아이디어를 앱으로 만들어 나가라는 제작 의도를 내포하고 있어 “Spark” 명칭이 붙여진 것이라 합니다. 이는 전문 개발자가 아니어도 누구나 쉽게 자신만의 아이디어를 소프트웨어 앱을 개발해 나갈 수 있는 환경을 마련해준 v0, Replit, Cursor 등의 사용자 친화적인 AI 프로그래밍 툴의 움직임을 참조한 것으로 풀이됩니다.

Project Spark 예시 프로젝트. 파티 참석 명단 관리
출처: Github Spark 페이지

III. 생각 정리

Github 측이 Open AI의 기반 LLM만을 활용했던 것에 나아가 경쟁사라고 볼 수 있는 Anthropic, Google사의 LLM을 같이 도입한 움직임은 폐쇄 경제 정책을 펼치된 국가가 경제 성장과 자원의 효율적 배분을 위해 개방 경제 정책을 펼친 것과 유사하다고 보였습니다.

그동안 Github 측은 Open AI 모델과의 배타적 신뢰 관계를 구축해 협력 계약 조건을 유리하게 가져갔을 것으로 예측해 볼 수 있습니다. 그러나, 개방 정책을 통해 Anthropic사와 Google사의 모델을 추가로 지원함으로써 Github 측은 다른 모델들의 장점을 AI 코드 편집기에 가져와 프로그래머의 효율적인 선택을 지원해 주고, 다양한 AI 모델 개발사들과도 전략적 이해관계를 형성함으로써 더 많은 경제적 이익을 수취하려고 한 것으로 보입니다.

Github가 굉장히 큰 규모로 재빠르게 ‘AI 프로그래밍’ 경쟁에 뛰어든 만큼 앞으로의 시장 참여자들이 어떤 전략들을 펼치면서 차별화를 나타낼지 예측하기 어려워졌습니다. Github가 펼친 Multi-ㅡModel 지원 전략을 다른 AI 편집기도 모두 따라가게 될지, 또는 색다른 연합 전략으로 Github와 대항할지 등등, ‘AI 프로그래밍’의 개방 경제는 어떤 모습으로 전개해 나갈지 궁금해집니다.

로봇의 5대 감각 도장 깨기

우리가 알고 있는 인간의 대표 5대 감각은 시각, 청각, 후각, 미각, 촉각이며, 더 넓게 범위를 확대하며 내수용, 고유수용, 전기 수요 감각으로까지 확대해서 볼 수 있습니다. 여기서 던져 볼 수 있는 질문은, 인간의 움직임을 모방하도록 기획된 로봇도 인간의 5대 감각을 느낄 수 있도록 프로그래밍시킬 수 있는가에 대한 것입니다.

인간의 5대 감각
출처: 대학지성 In & Out

그동안 인공지능은 단일 데이터 정보로 해석하기 용이한 이미지, 영상, 소리 등으로 시각, 청각 능력 중심의 학습을 중심으로 발달해왔습니다. 그러나, 그 외 3대 대표 감각인 후각, 미각, 촉각 능력의 디지털화 작업은 상당히 어려운 과제로 주목받았습니다.

놀라운 사실은 인공지능에 후각, 미각, 촉각 인지 능력을 탑재하기 위해 실험하는 여러 연구 프로젝트에서의 긍정적인 발표들이 나오고 있다는 것입니다. 이번 장에서는 최근에 발표된 두 연구: (I) 촉각을 중심으로 다양한 연구 결과물을 공개한 Meta FAIR(Fundamental AI Research) 측의 연구와 (II)냄새를 컴퓨터 언어로 표현하는 데 성공한 Osmo 스타트업의 사례를 소개 드리고자 합니다.

I. Meta FAIR(Fundamental AI Research) — Advancing embodied AI through progress in touch perception, dexterity, and human-robot interaction (24.10.31)

“촉각, 로봇의 손동작, 인간-로봇 상호작용” 주제 중심으로 Meta FAIR 팀 연구자들의 탐구 질문은 “어떻게 하면 로봇이 주변 물리적 세계를 더 잘 이해하고 상호작용 하며 인간과 안전하게 공존하여 가상 영역뿐만 아니라 물리적 세상에서 도움을 제공할 수 있는가?”에 대한 것이었습니다. 이 주제에 접근하기 위해 Meta 팀은 현재의 AI 시스템이 접근하기 어려웠던 ‘촉각’ 기능을 디지털화하기 위한 세 가지 연구 결과물을 공개했습니다.

Meta FAIR 연구 결과 페이지
출처: AI at Meta Blog

(a) Meta Sparsh: 다양한 촉각 및 접촉 신호를 AI 모델이 어떻게 처리할 수 있는지를 알려주는 최초의 범용 인코더(Def. 입력신호를 컴퓨터 내부에서 사용하는 코드로 변환 시켜주는 시스템)

(b) Meta Digit 360: 인간의 정밀한 촉각 감지 기능을 지원하는 인공 손가락 끝 모형으로 18가지 이상의 감지 기능을 갖춰 다양한 감지 기술을 결합하거나 개별 신호를 분리하여 심층적인 분석이 가능

II. Osmo — Scent Teleportation Update: We Did It! (24.10.29)

구글 연구 부문인 Google Research에서 ‘주요 냄새 지도(Principal Odor Map)’ 개발 프로젝트로 시작해 2022년 별도의 독립적인 사업체로 발돋움한 미국 스타트업 Osmo의 궁극적인 설립 목표는 “후각을 디지털화함으로써 인간의 건강과 행복을 높이는 것”입니다.

주요 냄새 지도
출처: “A principal odor map unifies diverse tasks in olfactory perception”

그동안 Osmo는 냄새에 대한 디지털 정보를 모으기 위해 새로운 종류의 데이터를 직접 구축한 뒤 그래프 신경명(GNN) 기술을 사용하여 “원자, 원자들의 결합, 분자 구조 등이 어떻게 냄새를 결정”하는지 알아보았습니다.

그리고, 이번 10월에 매실(Plum)의 “냄새 순간 전송(Scent Teleportation)”을 시연하는 데 성공하여 냄새를 디지털화하여 인간의 개입 없이 ‘디지털 향 복제본’을 만드는 데 성공했다고 발표하며 앞으로 “냄새 순간 전송”의 데모 시연을 공개할 것이라 예고했습니다.

냄새 순간 전송 시연 동영상
출처: Osmo Labs

III. 생각 정리

위의 두 사례가 흥미로운 점은 눈에 보이지 않는 “감각”에 대한 디지털화 작업이 가능하다는 것을 보여준 데 있다고 생각합니다. 글쓰기, 코딩 업무뿐만 아니라, 촉각과 후각 등을 요구하는 일상생활 속에서의 움직임을 로봇도 구현할 수 있게 되었습니다. 이는 의료계, 요식업계, 엔터테인먼트 업계 등 세밀한 움직임이 필요 하거나, 인간의 본능적인 감각을 자극하는 산업 전반적으로 로봇이 활용될 수 있음을 보여줍니다.

현재 인간은 ‘감각(ex. 고통)’을 느끼면, 연관된 감각기관이 물리적 신호를 전기 신호로 변환시켜 신경 세포를 통해 뇌로 전달한 후, ‘감정(ex. 슬픔, 분노)’ 등의 물리적 반응이 나온다고 합니다. 즉, 감정은 몸의 감각을 기반으로 생성됩니다. 그렇다면, 추가로 생각해 볼 수 있는 질문은 “인간의 모든 감각을 기계에 똑같이 프로그래밍시킬 수 있다면, 그 기계에도 감정이 생길 수 있는지”에 대한 것입니다.

SOFTWARE (소프트웨어)

출시/업데이트 (Release/Update)

Alphabet: Q3 Earnings Call
Anthropic: 윈도우/맥 앱 출시, Search Engine You dot com 내 Claude LLM 탑재, 타겟팅 된 AI 규제의 필요성
Apple Intelligence (Beta) 출시: iPhone, iPad, Mac 내에서 글쓰기 도구, 대화형 Siri, 사진 Intelligence 활용
Github Universe 24: Copilot — Anthropic Claude 3.5 Sonnet, Google’s Gemini 1.5 Pro, OpenAI’s o1-preview 탑재, GitHub Spark — 개인화 된 마이크로 앱 (Sparks)을 만들 수 있는 소프트웨어 툴, Octoverse 2024 리포트 — 개발자들의 선택 1순위 개발 언어: Python, Azure 개발자 환경 내에 Github Copilot 탑재, Visual Studio Code — Copilot Edit, 10월 업데이트
Google: AI Studio & Gemini API 내 검색 결과를 향상시켜주는 Grounding 기능 출시, 100개 넘는 국가/지역에 걸쳐 검색 기능 AI Overviews 지원, Learn About: 새로운 주제를 탐색할 때 활용해 볼 수 있는 대화 기능, 지도 플랫폼 내 생성형 AI 도입
Hugging Face — Notification 기능
Langchain — Langgraph Cloud → Langgraph Platform 리브랜딩: 에이전트 앱을 위한 복수 배포 옵션
Meta — Reuter와의 파트너십: 메타 AI 챗봇에서 뉴스에 대한 사용자 질문에 대한 실시간 답변에 뉴스 콘텐츠 사용, NotebookLlama: 오픈소스 NotebookLM, 검색엔진 개발, 로봇의 촉각 기능 향상 연구
OpenAI — ChatGPT Search 검색 챗봇 출시, 채팅 기록 검색 기능, 새로운 UI/서치 GPT 통합/고급음성 모드, Speech-Speech 지원 목소리 5개 추가, 언어 모델의 사실성을 측정하는 SimpleQA 벤치마크 오픈소스 공개
Perplexity: 정보 쿼리 뿐만 아니라 네비게이션 쿼리(링크, 웹사이트 링크) 답변 지원, Space 공간 개선, Discover Curator 지원공고, Sports — NFL 위젯, Supply — 소품
Physical Intelligence: 물리적 세상을 이해하기 위한 AI 모델 π₀
Ramp: 급성장 중인 Q3 AI 벤더
Spellbook: Thomson Reuters 콘텐츠 통합

상품/서비스/도구 (Product/Services/Tools)

42 pages: 아이디어 입력 → LLM이 필요한 기능을 유추하여 실제 코드로 만들어주는 소프트웨어 디자인 도구
Assembled: LLM 테스트를 진행하여 수백 시간의 엔지니어링 시간을 절약한 방법
Clockwork: 네일을 해주는 소비자용 로봇
Dashworks API: 50개 이상의 업무용 앱(예: Confluence, Slack, Zendesk, Salesforce)을 연결한 체 실시간 내부 AI 에이전트를 구축할 수 있는 API
E2B: Perplexity가 E2B 샌드박스를 활용해 고급 데이터 분석 기능을 도입한 방식
Google Research: 손으로 적은 노트를 디지털 형식으로 전환해주는 프로젝트 연구
Hex — Explore: 노코드 UI로 데이터 시각화 할 수 있는 툴
Kestra: Zapier의 오픈소스 버전
Langchain: 에이전트를 구축하는 데 있어 중요한 커뮤니케이션의 중요성, Replit/Perplexity/Ramp/Superhuman이 에이전트 앱을 구축하는 방법
LlamaIndex: AI 세일즈 어시스턴트를 구축한 NVIDIA 케이스 스터디

가이드/기타 (Guide/Others)

인간 - 에이전트 상호작용에 대하여
Cursor를 활용해 코드 작성한 후기
같은 PoC에 대해 4개의 다른 AI 프로그래밍 툴을 활용하며 느낀 점
유튜브 알고리즘 작동 방법
Opik의 OpenAI Python API를 활용해 LLM 애플리케이션을 평가, 테스트, 모니터링 하는 방법
Crew AI: AI 에이전트의 미래, Crew AI Flows Crash Course
Coursera: Google Prompting Essentials
Firecrawl: Next.js & Elevenlabs & Firecrawl을 활용해 웹사이트 기반 AI 팟캐스트 생성하는 방법, Claude 3.5 Sonnet 모델로 웹사이트 웹크롤링 후 구조화된 형식으로 데이터 추출하는 방법
LlamaIndex: 고급 지식 에이전트를 구축하는 비디오 시리즈
Notion: 노션을 제 2의 뇌로 활용하는 방법, Form 활용 공식 가이드
Together AI: Anthropic 문맥적 RAG를 오픈소스 형식으로 실행하는 방법, Next.js & TogetherAI을 활용해 AI 검색 엔진을 제작한 방법

DESIGN (디자인)

출시/업데이트 (Release/Update)

테크 기업들의 Supply Pack: Perplexity, FAL
Blockade Labs — Blendbox: 생성형 이미지 툴
Cartesia — Voice Changer: 억양, 운율 및 강조와 같은 입력 음성의 주요 특성을 보존하며 입력된 음성 클립을 음성 라이브러리 내 선택된 출력 음성으로 변환
Cosmos — Visual Search: 이미지 링크를 삽입하면 비슷한 이미지들을 찾아볼 수 있는 기능
Decart — Oasis: 상호작용 가능한 비디오 모델
Elevenlabs — X to Voice: X 프로필을 분석하여 하나 밖에 없는 목소리를 만들어주는 기능
Figma — 프로토타입 제작시 사이즈 변경 자유도 증가, 오프라인 환경에서 프로토타입 & 슬라이드 다운 가능
Forbes가 선정한 Top Creators 2024
Elevenlabs: 독서 앱 Omnivore 통합
Google Design: “행복”, “엉뚱함”, “어색함” 등 표현 속성을 나타내는 새로운 카테고리/태그 추가
Grok: 이미지 인식 지원
Magnific AI: Mystic v2.5 Flexible 모델 (Zen, Realism, Flexible)
Pika: 할로윈 전용 새로운 시각 효과
Recraft — V3 모델: 그래픽 디자인을 위해 구축된 모델로, 텍스트 크기와 배치를 제어하여 브랜딩, 마케팅 및 복잡한 그래픽 레이아웃에 적합한 섬세하고 전문적인 비주얼 생산 가능
Rendernet: Rendernet Canvas 업그레이드
Rive: Glow/Shadow 기능 출시 준비
Stability AI: Stable Diffusion 3.5 Medium 오픈소스 모델
Suno — Persona: 보컬, 스타일, 분위기 등 노래의 본질을 저장하고 창작물 전반에 걸쳐 이를 재구성할 수 있는 기능
Udio Music: 새로운 편집 기능

프로젝트 (Project)

Runway Act-One: 내 그림 스케치가 살아 움직인다, 자연이 두 발로 움직인다
GenZ를 위한 뉴스 앱
틴틴의 모험
1982년부터 스웨덴 디자인 스튜디오 Humans에서 제작한 Kinetic 벽시계 “Dada Blue”
초기 단계 스타트업 대상 Ben Lau 디자이너 포트폴리오
직접 운행하는 차과 비디오를 찍는 AI 안경
M4 iMacs 내 Vision Pro로 경험하는 새로운 쇼핑 경험

상품/서비스/도구 (Product/Services/Tool)

BWBG: 이미지의 배경 화면을 검은색 & 흰색으로 설정하기
Fabric dot co: AI 태그 애니메이션
FileDashAI: 데이터셋 → 인터렉티브 대시보드 만들어주는 데이터시각화 툴

가이드/기타 (Guide/Others)

Bloomberg Tech Disruptors 팟캐스트 — Adobe 최고전략운영자 Scott Belsky 생성형 인터페이스를 구축하는 것에 대하여
Dreamcut dot ai: 비디오 생성 → 스크립트, 음성 추가 활용 가이드
Adobe: Project Neo & Adobe Firefly를 활용해 3D 작품 만들기
Runway Academy: Act-One 기능으로 표현력 가득한 캐릭터 현실화 시키기

생각이 꼬리에 꼬리를 물어

두려움은 무능함이 아니라 경험 부족에서 비롯됩니다. 아직 해보지 않았기 때문에 두려운 것이지, 할 수 없기 때문에 두려운 것이 아닙니다. 두려움을 느낄 때, 미숙함은 해결해야 할 문제이며, 이는 행동을 통해서만 해결됩니다 (@SahilBloom)
태어났을 때 주변의 모든 것은 정상적이고 자연스러운 것이고, 15세에서 35세 사이에 발명 된 것은 경력을 쌓을 수 있기 때문에 흥미롭고, 35세 이후에 발명 된 것은 자연의 순리에 어긋난다고 생각합니다 (Douglas Adams)
생수 한 병이 슈퍼마켓에서는 0.50센트, 헬스장에서는 2달러, 영화관에서는 3달러, 비행기에서는 6달러입니다. 그 물의 가치를 좌우한 건 그 물이 배치된 장소 뿐입니다. 자신의 가치가 없다면 느껴지는 곳에 있다면, 잘못된 곳에 와 있는 것일지도 모릅니다 (Kobi Simmons)
인생과 마찬가지로 스타트업에서는 어떻게 일을 하느냐가 모든 일을 하는 방식이 됩니다. 개방적이고 정직하며 건설적이고 팀원들과 함께 웃을 수 있는 사람이 되세요... 중요한 것은 거창한 것이 아닙니다. 수천 가지의 작은 결정이 모여서 만들어지는 것입니다 (@gregisenberg)
건강한 프로덕트 개발 팀 내에서 디자이너와 프로그래머는 서로 다른 편에 있는 적이 아니라 동료입니다. 한 존재의 두 팔이 함께 무언가를 만드는 것입니다 (@jasonfried)
코드 작성, 콘텐츠 생성, 디자인 제작 등 실행 작업의 상당 부분을 AI가 처리하면서 이제 주요 어려움은 갈등 상황, 에너지 부족 환경, 창의적인 아이디어를 떠오르는 등의 인지적 문제가 될 것입니다 (@shl)
글을 쓰지 않고 생각한다면, 생각을 한다고 생각할 뿐입니다 (Leslie Lamport)
철학자가 된다는 것은 세상에 존재하는 이론으로 안주하지 않은 체 길을 떠나는 것입니다 (Henry Corbin)
무언가를 잘하는 가장 좋은 방법은 그 일을 실제로 수행하는 것입니다. 많은 유능한 사람들은 가상의 전제 조건들을 만들고 복잡한 계획으로 상황을 확대 해석 합니다 (@sama)
생산성을 극대화하는 것보다 더 적은 일을 더 깊이 있게, 더 몸과 마음과 정신을 집중해서 해야 합니다 (@anuatluru)
“빨리 움직이고 일을 망쳐라"라는 말이 나쁜 평판을 얻은 이유는 결국 일이 잘 안 이뤄졌기 때문입니다. 안타깝게도 일부에서는 이 말을 빨리 움직이지 않아도 된다는 것으로 해석하지만, 저는 이러한 생각에 동의하지 않습니다. “빨리 움직이고 책임감 있게 행동하라"가 더 맞는 구절이라고 봅니다 (@AndrewYNg)
성공이란, 좋아하고, 의미 있고, 목적 있는 일에 시간을 보내는 것입니다 (Marc Randolph)
더 많은 가질수록, 정신적으로 약해집니다. 정신적으로 강한 사람들은 고통스러운 현실을 직시하고 그것을 극복하기 위해 한 인간으로서 성장할 수밖에 없는 사람일 뿐입니다(@orangebook_)
빛 속에서 빛을 발하려면 어둠 속에서의 지루함을 받아들여야 합니다. 성공은 극도로 훈련되고 지루한 일상의 길고 고통스러운 기간의 뒤에서 만들어집니다 (@SahilBloom)