Transcend Borders: Software & Design “Vibe knowledge work” could mean a way of working where you rely on intuition, creativity, and AI assistance to manage, process, or generate knowledge (@levie) |
|
|
About 데일리 노트
- 1편에서는 시각 & 텍스트 데이터를 동시에 이해하고 처리할 수 있는 비전 언어 모델(Visual Language Model, VLN)의 활용도를 살펴보고자 합니다.
- 2편에서는 두 종류의 음성 AI 모델 (Text-to-Speech, Speech-to-Text)의 활용도를 실제 예시와 함께 살펴보고자 합니다.
- 그럼, 이번 데일리 노트도 재미있게 읽어 나가시길 바라며, 3월 둘째 주 뉴스레터로 다시 찾아뵙겠습니다. 언제든 Feedback 링크를 통해 자유롭게 피드백 전달해 주시면 감사하겠습니다.
|
|
|
PDF 문서 또는 사진 안에 적힌 글을 빨리 가져올 방법을 강구했던 경우가 있으신가요? Copy + Paste로 내용을 가져오다가 문서의 양식이 깨지는 것을 보고서는 직접 두 창을 띄어 텍스트 내용을 직접 타이핑했던 경험도 여러 번 있으실 겁니다.
최근, 시각 & 텍스트 데이터를 동시에 이해하고 처리할 수 있는 비전 언어 모델(Vision Language Model, VLM)의 발전으로 문서 속 글을 용이하게 추출하고, 고차원적인 업무(ex. 이해 및 요약, 정보 추출 및 분류, 편집 및 생성)를 손쉽게 처리할 수 있게 되었습니다. 이번 편에서는 비전 언어 모델(Vision Language Model, VLM)이 우리 삶 속에서 어떻게 활용될 수 있는지 두 서비스와 함께 소개 드리고자 합니다.
|
|
|
가장 먼저 소개해 드릴 서비스는 Google의 새로운 비전언어모델군 PaliGemma 2입니다. 작년 5월에 발표된 PaliGemma 모델군의 업데이트 된 버전으로, SipLIP Image Encoder와 Gemma 2 언어모델의 퍼포먼스를 융합하여 시각적 자료에 대한 높은 이해력을 가지고 있습니다.
이미지 및 짧은 동영상의 캡션 작성, 시각적으로 관찰되는 물체에 대한 질문 답변, 텍스트 읽기, Object 감지/분할 등 다양한 시각/언어 작업을 처리할 수 있습니다. 현재 Hugging Face Demo 페이지를 통해 직접 활용해 볼 수 있는데, 글이 적힌 이미지를 첨부한 뒤, 궁금한 질문을 물어보시길 바랍니다.
두번째로 소개드릴 서비스는 PDF로부터 정제된 텍스트를 추출해주는 Ai2 연구소의 olmOCR 오픈소스 도구입니다. Ai2 연구소는 언어 모델 학습에 사용되는 많은 PDF 기반 데이터가 웹 페이지처럼 구조화되어 있지 않아 텍스트 추출 및 활용에 어려움이 있다는 점을 문제로 여겼습니다. |
|
|
PDF Input (Left), Text Output (Right) (Ai2 Demo)
이에 대해, Ai2 연구소는 상용화 서비스 대비 낮은 가격으로 PDF 및 기타 문서의 텍스트를 추출하고, Markdown 형식의 구조화된 텍스트를 출력하여 후처리 및 활용을 할 수 있도록 OCR 도구를 출시했다고 밝혔습니다. 문서/사진 내 텍스트의 논리적 구조(제목, 단락 등)를 분석할 수 있으며, 표, 수식, 손글씨 등 다양한 형태의 글을 읽을 수 있습니다.
Demo 사이트를 통해 원하는 영문 기반 PDF/JPG/PNG 파일에 대한 텍스트 추출 서비스를 활용해볼 수 있습니다. 학술 논문, 기술 문서, 손글씨, 수학 교과서, 역사적 문서 등 여러 종류의 문서에 대해 바로 서비스를 활용해 보시길 바랍니다.
기타 활용도
지금까지는 "문서의 내용 추출 및 이해"에 비전언어모델(VLN)이 활용되는 사례들을 살펴보았습니다. 이외에도, 비전언어모델(VLN)은 브라우저 에이전트(ex. Proxy Lite Assistant)와 하드웨어 디바이스(ex. Physical Intelligence Hierarchical Interactive Robot)의 시야를 확보하는데 활용되며, 다양한 소프트웨어와 하드웨어 제품들의 시각적 기능과 환경적 이해를 향상 시켜나가는데 기여하고 있습니다.
|
|
|
비전언어모델(VLN)의 핵심 가치는 더 많은 양의 자료의 콘텐츠를 접근 가능하도록 하여 정보의 추출과 합성 과정을 손쉽게 만드는 데 있다고 생각합니다. 시각적 정보를 구조화 된 텍스트로 이해하는 능력이 좋아질수록, 문서 기반 업무의 효율화를 크게 이룰 수 있을 뿐만 아니라, 이러한 소프트웨어를 내포한 AR 안경 및 휴머노이드 로봇 등의 하드웨어 산업에도 긍정적인 영향을 미칠 것으로 보입니다. |
|
|
여러분은 문자와 전화 중, 의사소통의 도구로 어떤 방식을 선호하시나요? 대부분, 간단한 일은 문자로 처리하지만, 더 깊게 얘기를 나누거나 복잡한 일을 처리할 때는 전화로 실시간 상호작용을 하는 것을 선호하실 것이라 여깁니다. 텍스트 형태로 보는 문자보다, 음파 형태로 전달되는 전화를 통해서는 우리가 말로는 표현하지 못하는 감정을 담을 수 있고, 더듬거림/쉼/한숨 등의 비언어적인 소리를 전달받아 더 직관적인 방식으로 타인과 대화를 나눌 수 있습니다.
텍스트-스피치(TTS), 스피치-텍스트 모델(SST)의 발전이 주목을 받는 이유도 상황적 맥락과 감정을 이해한 음성 AI 모델과 직접 구두로 소통할 수 있어, 더욱더 자연스러운 기계와의 소통 경험을 만드는 데 있습니다. 이번 편에서는 Huma의 Octave TTS 모델과 Elevenlabs의 Scribe STT 모델을 기반으로 음성 AI 애플리케이션의 다양성에 관해 얘기하고자 합니다.
|
|
|
Hume의 Octave 모델은 말의 의미를 이해하며, 감성적으로 “읽는” 활동을 수행할 수 있는 천의 얼굴을 가진 배우로 볼 수 있습니다. 프롬프트에 맞게 적절한 음성을 만들어주는 ‘Voice Design’부터 감독의 지도를 담아 말의 스타일을 바꿔주는 ‘Acting Instructions’까지, Hume의 TTS 시스템을 통해, 사용자는 익명의 “음성”에 대해 연기 지도를 내릴 수 있습니다.
작년 9월에 출시한 스피치-스피치(STS) EVI 2 모델은 인간 간의 대화를 구현하는 데 초점이 맞춰졌다면, 이번 모델은 텍스트를 활용해 더욱더 세밀하게 대화의 흐름을 통제할 수 있도록 목적을 두는 데 있는 것으로 보입니다.
|
|
|
Elevenlabs의 Scribe 모델은 음성 인식 모델(ASR 모델)의 한 종류로, “정확도”에 초점을 맞춰 음성 언어를 서면 텍스트로 변환하는 기능을 합니다. 99개 언어에 대해, 대화의 흐름를 이해하며 음성 기록을 하나의 구조화된 글로 표현할 수 있는 속기사입니다.
배우에게 애드리브는 실력으로 인정되지만, 속기사에게 애드리브는 내용의 정확한 전달에 방해되는 치명적인 실수로 여겨질 수 있습니다. 이처럼, Scribe는 상황에 맞는 표현력 보다는, 웃음/소리 효과/ 배경 소음 등의 비언어적인 표현까지 대화 현장을 생생히 구현하는 것이 중요하다는 것을 알 수 있습니다.
음성 AI 활용도
최근 들어, 우리가 활용하는 소프트웨어와 하드웨어에 음성 AI 모델이 내장된 형태로 출시되며 여러 목적에 접목되고 있습니다. 가장 대표적인 예시가 Amazon 2025 Device 이벤트에서 공개된 Alexa+ 어시스턴트입니다.
Alexa+는 한 마디로, 어디에서나 부를 수 있고, 무엇이든 처리해주는 Genie라고 볼 수 있습니다. API를 통한 다양한 서비스/애플리케이션과의 연동, 효율적인 묶음 작업 처리를 돕는 “Expert”의 도입, 자율적으로 인터넷을 탐색하는 에이전트 작업 역량을 기술적으로 구현해 내며, Alexa+는 필요할 때 언제든지 꺼내들 수 있는 개인 비서입니다.
|
|
|
Alexa+ Related Applications (Amazon)
여러분들도 필요에 맞게 여러 챗봇 어시스턴트 Voice 모드로 소통하거나 다양한 종류의 TTS, STT, SSS 모델들을 서비스 내 도입하며 더욱더 자연스러운 기계와 인간 간의 의사소통을 구현해 보시길 바랍니다.
|
|
|
모델/인프라
- Alibaba: Qwen Chat “Thinking (QwQ)” — QwQ-Max-Preview 모델 기반 논리 모드 | Wan 2.1 — 오픈소스 비디오 모델
- Amazon: Alexa + 음성 어시스턴트 출시
- Anthropic AI: Claude 3.7 Sonnet — 하이브리드 논리 모델 | Claude Code — 터미널 코딩 에이전트 | Hierarchical summarization — Computer Use의 바람직하지 않은 사용 패턴 식별 연구
- Bolt: Dynamic Reasoning — 논리 수준 설정
- Cloudflare: AI 에이전트 구축 플랫폼 — 리포지토리, 문서, 스타터 킷 | Guardrails in AI Gateway — LLM 앱의 보안 위험 제거 서비스 | Browser Rendering REST API — 브라우저 액션 지원
- Cohere: OpenAI SDK를 통한 Cohere 모델 활용 | Research Connections Connections program — 연구진 피칭 세션 | Command R7B Arabic — 아랍어 최적화 7B LLM
- Convergence AI: Proxy Lite — 3B 파라미터 비전언어모델(VLN)
- Cursor: 0.46 업데이트 — Agent 디폴트, UI 테마 다양성, 웹 서치, 파일 추가 차단, Yolo 모드로 MCP 툴 자동실행, MCP Server 지원 등
- Decagon & ElevenLabs: Decagon CS 에이전트에 Elevenlabs 실시간 오디오 모델 활용
- DeepSeek: FlashMLA — Hopper GPU 디코딩 커널, DeepEP — MoE 모델 훈련 추론을 위한 EP Communication 라이브러리, DeepGEMM — FP8 GEMM 라이브러리, Optimized Parallelism Strategies — 양방향 파이프라인 병렬 처리 알고리즘
- Elevenlabs: Scribe v1 — 스피치-텍스트 모델
- Figure: Helix Logistics — 물류 이동에서의 Figure 로봇 도입 현장
- Firebase: Genkit JS 1.0 — AI 기반 앱 구축, 배포 오픈소스 프레임워크
- Framework: Desktop — AMD의 Ryzen AI Max 프로세서를 사용한 4.5L 미니 컴퓨터
- Google AI: Gemini 2.0 Flash-Lite — API | Gemini Code Assist — Visual Studio Code, JetBrains IDE 내 코딩 어시스턴트 무료 활용
- Google & Salesforce: Salesforce 에이전트 도구의 Google 인프라 지원
- Hume: Octave — 텍스트-스피치 모델
- Hyperbolic: Hugging Face 상 Serverless Inference Provider 등극
- Inception Labs: Mercury — Diffusion LLM (dLLM)
- LangChain AI: LangGraph v0.3 — 사전 구축 에이전트 포함 | 17개 새로운 파이썬 페키지 지원 | Evaluating LLMs with OpenEvals — 사전 구축된 앱 평가 패키지
- Lmarena: Prompt-to-leaderboard (P2L) — 맞춤형 과제에 대한 LLM 리더보드
- Meta AI: PARTNR — 멀티에이전트 계획, 논리 작업 능력 평가 벤치마크
- Microsoft: Phi 소형언어모델군 — Phi-4 multimodal, Phi-4 mini 출시 | Azure AI Foundry 업데이트 — GPT-4.5, Cohere/Stability/Microsoft 모델, Agent VPN | MAGMA-8B 비전언어모델(VLN) 모델 공개
- Microsoft Copilot: OpenAI o1 모델 기반 Voice & Think Deeper에 대한 무료, 무제한 활용 | VS Code Insiders내 Github Copilot 에이전트 모드 도입
- MongoDB & Voyage AI: MongoDB의 Voyage AI 인수로 AI 기반 검색 및 결과 추출 정확도 개선
- Next.js 15.2: 업데이트 | API 구축 가이드
- OpenAI: Deep research System Card | GPT-4o mini 기반 Advanced Voice 모드 무료 지원 | GPT-4.5 챗봇 Preview
- Physical Intelligence: Hierarchical Interactive Robot (Hi Robot) — 비전언어모델(VLN) 기반 로봇의 “사고” 처리 방법
- Snowflake: Azure 위 Cortex AI 서비스에 OpenAI 최신 모델 지원
- Tencent Hunyuan Zhuque Lab: AI-Infra-Guard — 오픈소스 AI 인프라 보안 탐지기
- Together AI: Minions — 노트북 위의 소형언어모델과 클라우드 상의 프론티어 모델 페어링 방법
- xAI: Grok Voice — Premium + 구독자 대상으로 지원
프로젝트/상품/서비스
- Ai2: olmOCR — PDF의 텍스트 추출해 주는 오픈소스 도구
- Devin: browser 업데이트 — 탭 사용, UI 변화사항 이해
- Firecrawl: Bulk Company Scraper — 회사의 기본 정보에 대한 AI 인사이트
- Google AI: Conversation Branching — 대화 묶음 & 체계화
- LangChain AI: GenAI Agents Hub — 생성형 AI 에이전트 프로젝트 라이브러리
- Lovable: Code Viewer — Lovable UI내에서 직접 코드 변경 요청
- Mainframe: Cobot — 팀과 AI 에이전트의 협력 공간
- Meta AI: Aria Gen 2 — 차세대 안경 (기계 인지력, 문맥, 로보틱스 등)
- Notion: Button — 블록 위, 아래 콘텐츠 삽입
- Perplexity: Ask Perplexity — X등의 온라인 커뮤니티에서 문의하기 | Voice Mode — 실시간 음성 문의 (iOS 출시, Android 준비 중) | Deep research for Enterprise — Google Drive, OneDrive, SharePoint과 연동하여 더 많은 자료에 대한 쿼리 문의
- Poe: Apps — 시각적 인터페이스 도입
- Replit AI: Agent v2 업데이트
- v0: 간편하게 v0 → Vercel 배포 | 무료 사용자 대상으로 ~200개 프로젝트 생성 지원 | Enhance Prompt — 더 복잡한 과제에 대한 자동 프롬프트 개선
- Asteroid: 브라우저 AI 에이전트 구축 서비스
- Chatbase: AI 에이전트 구축, 배포 플랫폼
- Continue 1.0: 오픈소스 IDE Extension 허브
- Default 2.0: 효율적인 인바운드 관리 플랫폼
- Factory: 개발자와 에이전트 AI가 협업하는 엔터프라이즈 소프트웨어 제작 플랫폼
- FelixSphere: AI-Native 비즈니스 애플리케이션 관리 플랫폼
- gibber link: AI 음성 에이전트 최적화 프로토콜
- Quanta: 소프트웨어 회사들을 위한 AI 기반 회계 서비스
- Leaping AI: 자기개선 음성 AI 에이전트
- Lemni: CS AI 에이전트 구축 플랫폼
- LLM Data Scrapers: LLM 데이터 수집에 유용한 오픈소스 툴
- Mark: 책 속 내용을 기억하는 AI 북마크
- Mesh: 스타트업을 위한 장부 관리(비용, 런웨이, 수익 등) 툴
- Mundo AI: AI 모델을 위한 고품질 다국어 학습 데이터
- OpenTools: MCP Server 라이브러리
- Pig: 윈도우 브라우저 에이전트 API
- Raycast: AI OS
- React Explorer: React 사이트 → 상호작용 하는 컴포넌트
- TamLabs: AI 워드 문서 편집기
- Warp: AI와 협력하는 Windows 터미널
- You dot com: ARI — 연구진들을 위한 deep research 에이전트
- @AzianMike: Airbnb Clone — Cursor
- @dr_cintas: Contents Creation App — Claude 3.7 Sonnet, Windsurf
- @RobertHaisfield: DocuSign Clone — ChatGPT, Lovable, Cursor
- @mckaywrigley: Slack Clone — Claude 3.7 Sonnet, Cursor
- @SullyOmarr: Mac OS Aqua style desktop — Websim
- @tedx_ai: 경쟁사 분석 — Grok 3 DeepSearch
에세이/팟캐스트/뉴스레터/보고서
가이드/튜토리얼
- AI SDK: OpenAI GPT-4.5 모델 활용 가이드
- Cloudflare: Workers 에이전트와 LLM로 애플리케이션 구축하는 프롬프트 가이드 | Cloudflare Agent Framework + GPT 4.5 — GPT-4.5 모델 기반 Agent Framework 활용 가이드
- DeepLearning AI & Windsurf: Build Apps with Windsurf’s AI Coding Agents — Windsurf IDE 내에서 에이전트 제작
- Elevenlabs: AI 음성 에이전트 제작 가이드 — Twilio, ElevenLabs
- Github: Copilot 팀의 AI 모델 & LLM 평가방법
- Jina AI: DeepSearch/DeepResearch 실행 가이드
- Kaggle & Google: Join the 5-Day Gen AI Intensive Course with Google — 2탄 (3/31-4/4)
- LangChain AI: Building an agent with Claude 3.7 — 프롬프트, 활용, 모델 준비, 에이전트 구축 | Vibe testing OpenAI GPT 4.5 — 모델 활용, 퍼포먼스 비교, 보고서 작성 Vibe Test
- Together Compute: DeepSeek-R1 논리 모델 프롬프트 가이드
- @0xmetaschool: AI 에이전트 출시 가이드
- @alexalbert__: Claude Code 활용 가이드
- @dshukertjr: 풀 스택 앱 제작 가이드 — Cursor, Supabase
- @MimansaJ: LLM(ML) 채용 인터뷰 가이드
- @RayFernando1337: AI 앱 제작 방법 — Claude Code, 3.7 Sonnet, Cursor
- @ShenSeanChen: 풀 스택 SaaS 오픈소스 템플릿 — Stripe Payment, NextJS, Supabase, Google OAuth
- @TAbrodi: Next.js 앱 제작 가이드
|
|
|
프로젝트/상품/서비스
에세이/팟캐스트/뉴스레터/보고서
|
|
|
- 'Vibe Knowledge Work'란, 경직된 구조나 수작업에 얽매이지 않고 직관, 창의력, AI 지원에 의존하여 지식을 관리, 처리, 생성하는 업무 방식을 의미할 수 있습니다 (@levie)
- 도구의 발전으로 창작에 대한 진입 장벽이 0으로 낮춰진다면, 우리를 방해하는 것이 과정의 복잡성이 아니라 감정적으로 설득력 있는 목표가 없다는 것을 깨닫게 될 것입니다 (@samdape)
- I Prompt, Therefore I am (@lucas__crespo)
- 성공한 사람들에게서 발견한 패턴이 있습니다. 그들은 한 번에 몇 달 동안 세상에서 사라져 자신과 자신의 비전에만 집중합니다. 그들은 하나의 의미 있는 목표에 집중하고 그것을 현실로 만듭니다 (@bluewmist)
- 모든 사람이 최고 수준의 전문 지식에 접근할 수 있게 되면 어떻게 될까요? 앞으로는 어떤 질문을 하고, 답을 어떻게 종합하는지가 중요해질 것입니다 (@gregisenberg)
- 세상의 일은 무엇을 “만들거나,” 무엇을 “판매하는” 두 종류의 일로 구분될 뿐입니다. 그 중 하나를 하지 않는다면 당신은 비용을 지출하고 있는 것입니다 (@rmcentush)
- 진정한 행복은 기대감에서 비롯됩니다. 탐색, 고군분투, 여정에서 나옵니다. 목표를 성취하기 직전의 순간입니다. 행복은 ‘가진 것’이 아니라 ‘얻게 되는 것’입니다 (@SahilBloom)
- 당신이 아는 가장 강한 사람도 당신과 똑같은 두려움, 의심, 불안감을 느낍니다. 그들은 단지 그런 감정들을 가지고도 행동하는 법을 배웠을 뿐입니다 (@IAmMarkManson)
|
|
|
여러분의 참여를 환영합니다.
'데일리 노트' 뉴스레터는 독자들의 적극적인 참여를 전제로 기획되었습니다. 의견 남기기를 통해 여러분들의 이야기를 들려주세요. 뉴스레터 내용에 대한 의견, 다른 크리에이터분들에게 선보이고 싶은 제품/서비스, 공유하고 싶은 이야기, 협업하고 싶은 내용 모두 환영합니다. |
|
|
|