Transcend Borders: Software & Design Good luck is something you make and back luck is something you endure. People do make their luck by daring to follow their instincts, taking risks, and embracing every possibility (Estée Lauder) |
|
|
About 데일리 노트
- 10월의 첫째 주 뉴스레터로 인사드립니다. 이번주는 AI 모델 인사이트와 비즈니스 부문을 합쳐 총 4개의 파트로 나누어 큐레이팅 소식들을 담아냈습니다. 이번 데일리 노트도 재미있게 읽어나가시길 바랍니다.
- Part 1: AI 모델 & 비즈니스— 새로운 AI 모델/프로젝트 출시 소식과 해당 AI 기술이 비즈니스 현장 또는 노동 시장에 끼치는 영향
- Part 2: AI & 삶 — AI 기술이 우리 일상생활에 끼치는 영향
- Part 3: AI & 디자인 — 새로운 디자인 모델/프로젝트 출시 소식 또는 연구 주제 소개
- Part 4: 라이브러리 — ‘소프트웨어 라이브러리’, ‘디자인 라이브러리’, ‘생각이 꼬리에 꼬리를 물어’ 세 개의 소주제를 담아 크리에이터들이 참고할 수 있는 도구/가이드/프로젝트/아이디어 소식
- 목차
- AI 모델 & 비즈니스: AI 음성 에이전트의 시대
- AI & 삶: 나만 인간인 소셜 미디어 플랫폼 Social AI
- AI & 디자인: 디자인과 소프트웨어의 경계
- 라이브러리
|
|
|
AI 음성 에이전트의 시대
I. Realtime API
- Realtime API는 자연스러운 Speech-to-Speech 대화 기능을 손쉽게 자체 서비스 안에 도입할 수 있도록 지원해 줍니다. 이전에는 Speech-to-Speech 경험을 구현하기 위해 Speech → Text → Inference/Reasoning → Text → Speech 등 여러 과정을 거쳐야 했습니다. 원본 오디오를 Whisper와 같은 자동 스피치 인식 모델에 투입한 뒤 오디오 텍스트 스크립트가 출력되면, 스크립트를 추론/논리가 가능한 텍스트 모델에 대입시켜 출력 답변을 준비한 뒤, 출력 답변 스크립트를 텍스트-스피치 모델에 넣어 출력 오디오가 만들어지는 형식이었습니다. 여러 모델을 활용하고 그 과정을 연결하는 과정에서 불가피하게 속도도 느려지고, 품질이 떨어지는 문제들이 나타났습니다.
- Realtime API는 위의 복잡한 과정을 단순화시켜 ‘대화’를 입력받으면, 바로 ‘대화’를 출력할 수 있도록 합니다. 가장 눈여겨볼 점은 대화 속 방해, 끊김 현상을 유연하게 대처할 수 있도록 훈련되어 자연스러운 대화를 나누는 느낌을 준다는 것입니다.
- RealtimeAPI 기능의 테스트를 위해 여러 외부 파트너와 협력한 사례들이 공개 되었는데, 그 중 국내에서도 유명한 AI 영어 학습 솔루션인 스픽(Speak)의 사례를 공유 드리고자 합니다. 스픽(Speak)사는 언어를 배우는 데 필수적인 Role-Play(역할극) 서비스에 RealtimeAPI 기능을 도입하여 여러 역할극 시나리오에서 실시간 대화를 구현하는 데 도움을 받았다고 합니다. 스픽(Speak)의 공동창립자/CTO인 Andrew님은 이번 출시가 “인간과 기술의 상호작용을 더 자연스럽고, 유동적이고, 건강하게 만드는 데 기여할 것”이라 하며, 다른 스픽(Speak) 서비스에도 RealtimeAPI 기능을 도입할 수 있는 방향도 생각 중이라고 언급했습니다.
II. AI 음성 에이전트 비즈니스
- 앞으로 Speech-to-Speech 기술을 구현하는 'AI 음성 에이전트'를 활용하는 사업체도 다양해질 걸로 보입니다. a16z가 발간한 ‘AI 음성 에이전트’ 투자 검토 보고서 중 Market Map을 바라봤을때, B2B 에이전트 시장의 경우, 헬스케어, 병원, 금융/보험 등 특정 산업에 대한 수직적 지식을 보유하거나 세일즈, 채용, 훈련, 자동화 등 특정 과제에 대한 전문성을 보유한 서비스가 Speech-to-Speech 기술을 활용하는 것으로 보입니다.
- B2C 에이전트 시장의 경우, 대형 소프트웨어 회사들의 소비자용 서비스 출시로 인해 B2B 시장보다 성장이 느렸습니다. 그러나 저자들은 새로운 종류의 UX를 띠어 이전과는 다른 종류의 대화를 가능케 해주는 혁신적인 B2C 서비스가 언젠가 나타날 것이라는 기대감을 표명했습니다. 현재 B2C 서비스는 에드테크, 마음 치료, 훈련 영역에 활용되거나 동료, 어시스턴트, 코치의 역할을 수행하는 걸로 보입니다.
III. 생각 정리
- 기술의 발전으로 인간이 타 객체와 상호작용 하는 방식이 또 한번 달라지고 있습니다. 통신 기술의 발달로 비대면 소통이 가능해지고, 휴대전화의 등장으로 디바이스를 활용한 소통이 활성화되었습니다. 여기서 더 나아가, 기계가 자연스러운 대화를 구현할 수 있게 되면서 더이상 인간이 대화의 주체/객체로 존재할 필요성이 없어졌습니다. 내가 원해서 기계와 자연스러운 대화를 나누거나, 내가 원하지 않더라도 기계와 대화하는 상황에 놓일 수도 있습니다. 이런 기술적 환경에서 우리의 삶과 경제는 어떤 변화를 맞이하게 될지 궁금해집니다.
|
|
|
나만 인간인 소셜 미디어 플랫폼 Social AI
I. Social AI
- Social AI는 한마디로 내가 포스팅 한 모든 글에 대해 내가 원하는 성격의 봇들이 답변/반응해 주는 소셜(?) 네트워크입니다. 나를 제외한 모든 이가 100% 봇이라는 사실을 인지한 채 내가 가진 생각을 공유하고, 모르는 분야에 대한 질문들을 해결해 나갈 수 있습니다. Social AI 창립자인 Michael님은 우리가 똑같은 프롬프트에 대해 여러 모델(ex. ChatGPT, Claude, Perplexity)의 답변을 비교하는 것처럼, 소셜 미디어 플랫폼 내에서 다양한 유형의 답변을 기대할 수 있게 되면서 Social AI 플랫폼은 AI 모델과 상호작용하는 새로운 방식을 마련한다고 합니다.
- 현존하는 소셜 미디어 플랫폼과 가장 큰 차이점은, 사용자인 ‘내’가 팔로워의 종류를 “3개 이상 선택”할 수 있으며, 내가 선택한 팔로워의 성격에 따라 내가 쓴 글에 대한 반응이 달라지는 형식입니다. 여러 답변 중 특정 답변(들)에 좋아요를 누르거나 대댓글을 달면, 모델 엔진은 내가 원하는 취향에 맞춰 소셜 미디어 경험을 점차 개인화 시켜나갑니다.
- 봇들 사이에서만 살아가는 Distopian 미래를 구현했다는 우려에 대해 Michael님은 누가 인간이고, 누가 봇인지 구분하기 어려운 현재 상황보다 오히려 나만 확실히 인간인지 아는 상황에서의 상호작용이 더 안전하다고 말합니다. 또한, 소셜 미디어에서 아무런 반응을 얻지 못하거나 비난을 받으며 상처받으니, “내 목소리가 존중되고, 성찰할 공간을 주고, 지지와 반응”을 언제든 들을 수 있는 커뮤니티로서의 기능을 한다는 의의가 있다고 표현했습니다.
II. 생각 정리
- Social AI의 창작 의도에 대해 들으며, 이 플랫폼은 타인과 생각을 공유하는 ‘SNS 플랫폼’ 보다는 나의 생각을 구체화해 나가는 ‘개인 다이어리’로서의 색깔이 더 강하다고 생각했습니다. '개인 다이어리'의 경우, 시작부터 ‘내’가 관객이자 배우가 되는 공간이라고 생각합니다. 가끔 무한한 상상력을 펼치며, 다양한 방면으로 나의 과거-현재-미래를 성찰하기도 하지만, 가끔 남에게 보이기는 부끄럽거나 불편한 생각을 적어내며 한 생각에 대해 골몰할 때도 있습니다.
- 반면, ‘SNS 플랫폼’은 ‘나’만 배우이고, ‘타인’들이 관객이 되는 공간이며, 내가 한 연기를 열심히 보이는 것까지 나의 역량이고, 그 뒤에 오는 비평 또는 무관심은 자연스럽게 따라오는 성적표라고 생각합니다. Social AI는 디폴트 값으로 나만 인간이라는 점을 알고 시작하게 됩니다. 그 순간부터 그 공간 속에서 활동하는 유일한 인간은 그 공간을 ‘플랫폼(커뮤니티)’ 보다는 ‘다이어리’로 취급하게 되며, ‘SNS 플랫폼’으로서의 의미가 사라자지 않을까 싶습니다.
- 결국 우리가 소셜 미디어를 활용하는 까닭은 내 생각을 알리고, 나의 관심사를 드러내며, 그 생각을 나의 커뮤니티 넘어 확장해 나가는 데 있다고 봅니다. 봇들의 존재를 인간과 동등한 수준으로 인정되기 전까지 Social AI가 온라인 커뮤니티의 역할을 제대로 수행할 수 있을지는 지켜봐야 할 것 같습니다.
|
|
|
디자인과 소프트웨어의 경계
- AI 크리에이터 툴이 하나씩 나올 때마다 디자인과 소프트웨어의 경계가 사라지고 있다고 느낍니다. Figma AI, Framer 툴로 인해 디자이너들은 웹 개발자의 역할을 일부 할 수 있게 되었고 Claude Artifacts, Replit Agent로 인해 개발자들은 디자이너처럼 사고할 수 있게 되었습니다. 이번장에서는 OpenAI DevDay를 통해 새로 발표된 GPT-4o Vision Fine Tuning 기능을 도입한 Coframe사의 예시를 통해 생성형 UI 툴들이 발전됨에 따라 디자인과 소프트웨어의 경계를 더욱더 희미해지는 미래에 대해 얘기해보고자 합니다.
- Appen사에 의하면, 파인튜닝(Fine-Tuning)이란, “특정 작업이나 도메인에 높은 적합성을 확보하기 위해, 이미 훈련된 대규모 언어 모델에 특정 데이터셋을 사용하여 추가적인 학습을 수행하는 작업”을 일컫습니다. 이번에 발표된 GPT-4o Vision Fine Tuning 기능은 텍스트 뿐만 아니라 이미지까지 파인튜닝 할 수 있는 길을 열게 해줌으로써 강화된 시각화 검색 기능, 개선된 객체 탐지, 정확한 이미지 분석 등을 필요로 하는 애플리케이션에 적용될 것으로 보입니다.
I. Coframe & OpenAI
- Coframe사는 AI를 활용해 실시간으로 웹사이트 최적화를 구현시키는 서비스를 제공하는 회사입니다. 현재 웹사이트 & SEO 최적화를 위한 4가지 서비스를 제공하고 있습니다: (i) 광고 → 랜딩 페이지 최적화 (광고에 따라 랜딩 페이지 조정), (ii) 세분화 + 개인화 (고객 세그먼트에 따른 개인화된 콘텐츠 제공), (iii) 자동화된 페이지 최적화, (iv) SEO 키워드 생성
- 이번에 Coframe사는 OpenAI사와 협력하여 대량의 웹사이트 디자인 템플릿을 GPT-4o 모델 내 파인튜닝하며, 브랜드에 알맞는 높은 품질의 사용자 인터페이스를 자동생성할 수 있는 가능을 개발했다고 발표했습니다. 예를 들어, A사가 웹사이트의 한 부분을 어떻게 채워야 하는 어려워 할 때 Coframe 서비스를 활용하면, 빈 공간을 원래 브랜드의 색깔에 맞게 자동으로 채워주는 형식입니다. Coframe사 측의 연구에 의하면, (i) GPT-4o 기반 모델을 통해 도출된 디자인 제안과 (ii) 파인튜닝을 통해 생성된 디자인을 비교했을 때, 후자가 벤치마크에 대해 26%의 향상된 퍼포먼스를 보였으며, 곧 해당 기능을 실제 서비스로 출시할 것이라고 암시했습니다.
II. 생각 정리
|
|
|
라이브러리
SOFTWARE (소프트웨어)
Release/Update (출시/업데이트)
- AI at Meta — SAM 2.1 모델 출시, Llama 3.2 모델 리소스: 처음 시작하는 자들을 위한 스타터 킷
- Cloudflare Developer — 개발자 스타터 팩
- Google: 2종류의 새로운 Chromebook, 새로운 AI 기능
- Google AI Studio: 모바일 애플리케이션 시스템 개편, Gemini 1.5 Flash-8B (1.5 Flash 대비 50% 가격 인하, 2x 한계 증가, 작은 프롬프트에 대한 낮은 대기 시간), 40+ 이상 언어통역 지원하는 Gemini Live
- LangChain — Community 활동 프로그램, OpenAI Realtime API를 활용한 Voice ReAct Agent
- Liquid AI: LFM 1.3B, LFM 3B, LFM 40B MoE 모델 발표
- Microsoft: Copilot 업데이트, Copilot + PC 경험 리뉴얼
- OpenAI: DevDay SF 새로운 기능 발표, Canvas — ChatGPT와 작업하는 새로운 인터페이스
- Perplexity AI: Mac App 출시 계획
- Youtube: US 프리미엄 멤버 대상으로 지원되는 대화형 AI
- Vercel: Serverless Server — 같은 물리적 람다 인스턴스 안에서 복수의 호출량을 지원해주는 기능, Observability — 애플리케이션 관련 애널리스틱스 대시보드 (기능 모니터링, 데이터 전송, 캐칭, 외부 API 요청 등)
- v0: Free (-10MB), Premium (-50MB) 용량 자료 업로드 , 빠른 네비게이션
Product/Servces/Tools (상품/서비스/도구)
Guide/Others (가이드/기타)
DESIGN (디자인)
출시/업데이트 (Release/Update)
프로젝트 (Project)
상품/서비스/도구 (Product/Service/Tool)
가이드/기타 (Guide/Others)
생각이 꼬리에 꼬리를 물어
- 행운은 만들어 가는 것이고, 불운은 견디는 것입니다. 행운은 본능을 따라 위험을 감수하고, 모든 가능성을 포용하면서 오는 것입니다 (Rose Kennedy, @ShaneAParrish)
- 인생의 가장 큰 행복 중 하나는 자신이 어디까지 나아갈 수 있는가를 관찰하는 것이며, 한계를 뛰어넘고, 실수를 하고, 성장하고, 가치 있는 마음을 생성함으로써 더 많은 사람들과 연결되고 기여 하는 것입니다 (@thedankoe)
- 크게 생각하되, 작게 행동하고 살아가세요. 우리의 큰 꿈은 위대하게 펼쳐지기 보다는 한 발자국씩 움직이고, 배우고 성장하고, 시간을 들이면서 단계별로 나타납니다 (@RyanHoliday)
- 완벽한 상태를 찾기보다는 기존에 알고 있는 지식을 통해 하나씩 만들어보는 연습을 가져보세요. 그렇게 한 발자국 움직이다면 완벽함에 서서히 가까워질 수 있습니다 (@mrncst)
- 더 많은 아이디어가 필요한 것이 아니라, 지금 당장 눈 앞에 있는 문제들을 해결해야 할 뿐입니다 (@LeilaHormozi)
- 아이디어를 실현하는데 어려운 공식이 필요하지 않습니다. 노트에 대한 스크린 샷을 찍고, 소셜 미디어를 통해 공유하세요. 궁금해 하는 주제에 대한 1인 팟캐스트를 찍어보세요. 창작을 하며 새로운 아이디어가 떠오를 것입니다. 떠오른 새로운 아이디어를 다음 도전 때 활용해보세요. 모함하며 재미를 느끼시기 바랍니다 (@neuranne)
- 재미 없는 산업에서 돈 벌기가 훨씬 쉽습니다. 그러나, 열정을 기반으로 움직이는 산업에서는 수익을 성취하기 어렵습니다. 창작하는데 드는 감정적인 투자로 인해 수익을 극대화하는데 들어야 하는 집중의 창이 제한 되기 때문입니다 (@keshavchan)
- 목표가 너무 쉬울 때 인생은 어려워집니다. 의구심이 든다면, 더 야심찬 도전을 하십시오. 그런다면, 더 신기하고 재밌는 사람들을 끌어들일 것이며, 사람으로서 더 성장을 할 수 있게 되고, 불안이 사라져, 가장 차분하고 자신감 있는 모습으로 존재할 수 있게 됩니다 (@orangebook_)
- 이 세상의 많은 사람들이 위대한 일을 해내지 못하거나 할 의도를 갖지 않습니다. 그러나, 만약 위대한 일을 만들어 내고 싶다면, 본인이 가장 흥미로워 하는 분야에 몰두할지 안할지에 대한 질문의 답은 간단합니다: 해야 합니다. 위대한 일의 뿌리에는 항상 야심가득한 호기심이 잔존하며, 그 호기심을 만들어 낼수도 없기 때문입니다 (Paul Graham)
- 나이가 어려서 가지는 명확한 장점으로는 더 많은 시간과 에너지를 가지고 있다는 것입니다. 이외에도, 특정 문제를 새로운 관점으로 바라볼 수 있다는 것, 현재의 필요로 미래의 수요를 예측할 수 있다는 것 등, 명확하게 드러나지 않은 좋은 점도 있으며, 후자의 점들이 더욱더 큰 가치를 가집니다 (@paulg)
- 많은 사람들이 기존에 가지고 있는 것들 (ex. 돈, 지위, 명확성)에 만족합니다. 하지만, 많은 경우, 언제 그것들을 성취했는가에 집착하며, 더 빠른 시간에 왔기를 희망합니다. 시간에 대한 공포가 마음을 괴롭힙니다 (@anuatluru)
- 결정은 그 결정을 뒤따르는 행동보다 중요도가 낮습니다 (@SahilBloom)
|
|
|
여러분의 참여를 환영합니다.
'데일리 노트' 뉴스레터는 독자들의 적극적인 참여를 전제로 기획되었습니다.
의견 남기기를 통해 여러분들의 이야기를 들려주세요. 뉴스레터 내용에 대한 의견, 다른 크리에이터분들에게 선보이고 싶은 제품/서비스, 공유하고 싶은 이야기, 협업하고 싶은 내용 모두 환영합니다. |
|
|
|