
오늘은 지금 Chat GPT 4o 발표 이후 바로 이어진 구글 I/O 2024 행사에 대해 이야기해볼까 합니다. 5월 14일, 구글에서는 최신 AI 기술과 제품들을 대거 공개했는데요. 일상생활 구석구석, 그리고 업무 환경까지 AI가 어떻게 스며들 수 있는지를 보여주며 AI의 무한한 가능성을 열어젖혔습니다. 실시간 채팅, 교육, 음악, 검색 등 21가지나 되는 주요 발표가 있었는데, 이를 통해 구글의 AI 비전이 선명하게 드러났죠. 그중 가장 인상 깊었던 혁신 기술 몇 가지를 소개해드리겠습니다.
다음은구글 I/O 2024에서 발표된 20가지 주요 발표입니다:
1. Gemini Flash 1.5: 실시간 챗 챔피언
구글은 Gemini Flash 1.5라는 새로운 AI 모델을 도입했습니다. 이는 실시간 채팅에 이상적인 모델로, Nano보다 빠르고 Pro보다 가벼우며 텍스트, 이미지, 비디오, 음성을 처리합니다. Flash는 OpenAI의 GPT-4o와 경쟁하며, 개발자들이 채팅 앱 및 기타 인터랙티브 경험에 통합할 수 있도록 전 세계적으로 접근할 수 있습니다. 이는 AI 기반의 채팅 혁신을 촉진하는 저비용 옵션으로 자리잡을 가능성이 있습니다.
2. LearnLM: 교실에 들어오는 AI
구글은 Gemini의 기반 위에 구축된 AI 모델인 LearnLM을 소개했습니다. LearnLM은 검색, 안드로이드, 유튜브 전반에 통합되어 학생들에게 다양한 학습 자료, 인터랙티브 경험, 맞춤형 학습 지원을 제공합니다. 교육 과제에 중점을 둔 LearnLM은 응답이 항상 관련성을 유지하도록 합니다.
3. TalkBack의 멀티모달 변신
안드로이드의 TalkBack은 이제 Gemini Nano AI를 통합하여 시각 장애인을 위한 멋진 업그레이드를 제공합니다. 이 버전은 텍스트를 넘어 이미지, 소리, 음성 언어를 인식할 수 있는 기능을 확장합니다. TalkBack은 이제 인터넷 연결 없이 오프라인에서 라벨이 없는 이미지를 설명하는 온디바이스 AI를 사용하여 사용자 경험을 향상시킵니다.
4. 프로젝트 Astra에서 AR 고글 부활
프로젝트 Astra의 프로토타입 고글은 구글의 AR에 대한 새로운 관심을 암시합니다. 이 두꺼운 안경은 디스플레이와 핸즈프리 인터랙션 기능을 갖추고 있어 Project Iris에서 진화했음을 시사합니다. 곡선 코브리지 디자인은 향후 개선에 대한 호기심을 불러일으킵니다. Meta의 Ray-Ban이 시장에 출시된 상황에서, 이 부활은 구글의 기존 소프트웨어 생태계를 활용하여 웨어러블 AR 지배를 위한 경쟁을 촉발할 수 있습니다.
5. AI가 주문형 음악을 연주하다
구글의 키노트는 음악가 Marc Rebillet의 등장으로 활기를 띠었습니다. 그는 텍스트 프롬프트를 음악으로 변환하는 AI 도구인 MusicFX의 새로운 DJ 모드를 선보였습니다. 간단한 문구가 다양한 트랙을 즉석에서 생성했으며, 믹서 인터페이스를 통해 Rebillet은 실시간으로 조정할 수 있었습니다. 이 AI와의 즉흥적 융합은 I/O에서 개발자들에게 인상적인 하이라이트가 되었습니다.
6. AI 스튜디오 실험실 개방
구글 AI 스튜디오는 비디오 프레임 추출 및 컨텍스트 캐싱이라는 두 가지 주요 기능을 강화하여 제공을 확대했습니다. 프레임 추출은 개별 비디오 프레임을 분리하여 장면 이해에 대한 AI 모델 교육을 개선합니다. 컨텍스트 캐싱은 자주 사용되는 컨텍스트를 저장하여 리소스 활용을 최적화하고 콘텐츠 분석과 같은 작업의 워크플로우를 간소화하며 비용을 절감합니다. Vertex AI 스튜디오를 통해 접근 가능하며, 사용자는 구글의 모델이 프로젝트에 적합한지 실험해볼 수 있습니다.
7. SynthID가 가짜 뉴스에 강력해지다
구글은 새로운 AI 모델과 함께 SynthID의 업그레이드를 발표했습니다. 이 확장은 DeepMind의 집중을 반영하여 AI 생성 텍스트 및 비디오 위조를 해결합니다. SynthID의 향상된 도구는 잘못된 정보와 원치 않는 콘텐츠와 싸우기 위한 것입니다. 이는 더 강력한 AI 안전장치를 요구하는 목소리에 부응합니다.
8. Gemini Gems와 함께하는 재미있는 AI 친구
Character.AI에서 영감을 받아 구글은 Gemini Gems를 도입합니다. 사용자는 가상 트레이너나 셰프와 같은 챗봇을 설계하여 그들의 기술과 성격을 정의할 수 있습니다. OpenAI의 GPT 스토어와 유사하게 Gems는 맞춤형 봇을 만드는 과정을 간소화합니다. 사용자는 봇의 전문성과 성격을 지시하기만 하면, Gemini가 완벽한 디지털 사이드킥을 만들어냅니다.
9. 안드로이드의 Gemini가 더 스마트해지다
안드로이드 버전의 Gemini는 멀티미디어 탐지 기능을 강화했습니다. 이제 비디오와 PDF를 분석할 수 있으며 (고급 계층만), 비디오를 식별하고 캡션을 기반으로 질문을 제안하며 PDF 통찰력을 제공합니다. 또한, 드래그 앤 드롭 기능을 통해 Gemini의 이미지를 다른 앱에 통합하여 생산성을 향상시킵니다.
10. Chrome이 더 똑똑해지다
구글의 경량 AI인 Gemini Nano가 Chrome 126에 도입되었습니다. 이는 텍스트 생성과 같은 온디바이스 기능을 제공합니다. 속도에 최적화된 Chrome은 브라우저 내에서 소셜 미디어 게시물이나 리뷰를 작성할 수 있게 합니다. 또한, Gemini는 DevTools에서 개발자에게 재치 있는 오류 설명과 코드 수정 제안을 제공합니다.
11. 안드로이드가 스캠 전화를 경고
개발 중인 새로운 기능은 Gemini Nano를 사용하여 의심스러운 전화 통화를 식별합니다. 개인 정보 요청이나 긴급한 금융 거래와 같은 빨간 깃발을 표시합니다. 세부 사항 (출시 날짜, 더 넓은 호환성)은 아직 부족하지만, 초기 롤아웃은 Pixel 8 Pro와 Samsung S24 사용자에게 있을 수 있습니다.
12. AI가 비전을 안내하다
구글 I/O 2024 는 Veo라는 AI “오터”를 공개하여 텍스트, 이미지, 비디오 프롬프트에서 고품질 1080p 비디오를 생성합니다. Veo는 영화 언어를 이해하며 세련된 출력을 약속합니다. 영화 제작자는 초기 접근을 받으며, 더 넓은 창작자 미리보기가 계획되어 있으며 YouTube Shorts 통합이 포함됩니다. 이는 OpenAI의 Sora와 유사하며, 영화 제작에서 AI의 역할을 강화할 가능성이 있습니다.
13. 프로젝트 Astra: 구글의 AI가 미래를 노리다
구글은 Project Astra로 OpenAI의 GPT-4o에 도전장을 던집니다. DeepMind의 Demis Hassabis가 이끄는 이 연구 조수는 비디오를 사용하여 세상을 이해합니다. 코드 설명, 객체 식별 및 재치 있는 농담까지 – 모두 핸즈프리입니다. 카메라와 마이크가 Astra의 실시간 처리를 지원하며, 스마트 안경과 같은 향후 웨어러블에 통합될 가능성을 열어줍니다. 출시 날짜는 아직 정해지지 않았지만, Gemini (2M-토큰 컨텍스트 윈도우를 자랑)와 같은 기존 도구에 통합될 가능성은 구글의 AI 조수 진전을 시사합니다.
14. 구글 검색에 AI 매직이 더해지다
검색 책임자 Liz Reid가 이끄는 “Overviews” 기능은 요약, 렌즈를 통한 비디오 검색, 여행 계획 도구를 위해 AI를 활용합니다. Gemini AI는 쿼리 이해, 답변 생성, 결과 조직을 처리하며, Reid는 이는 단순한 속임수가 아님을 강조합니다. AI는 로컬 탐색과 같은 복잡한 검색을 강화하여 정보 요약과 데이터 품질에 중점을 둡니다.
15. Gemini 1.5 Pro가 워크스페이스를 강화하다
구글의 supercharged Gemini가 Docs, Drive, Gmail 등과 통합됩니다. 워크스페이스 부사장 Aparna Pappu가 주도하며, 앱 전반에서 데이터를 잠금 해제합니다. 이메일에서 정보를 필요로 하거나 영수증을 정리해야 합니까? Gemini가 해결합니다. 이 AI 조수는 수작업을 없애고 효율성을 높이는 것을 목표로 합니다. “도와줘서 쓰기” 기능과 같은 기능은 생산성 잠재력을 시사합니다. 초기 접근은 제한적이지만, 더 넓은 롤아웃이 계획되어 데이터 검색 및 조직 문제를 해결할 것입니다.
16. Gemini Live와 함께 대화하기 (제한된 접근)
구글은 음성 채팅 기능인 Gemini Live를 제공합니다. 이는 사용자의 말 패턴에 적응하는 프리미엄 기능입니다. OpenAI의 ChatGPT에서 영감을 받아, Gemini와의 자연스러운 대화를 촉진합니다. 실시간 비디오 해석은 핸즈프리 작업을 가능하게 하며 – 이미지를 사용하여 캘린더를 업데이트하거나 음성으로 여행 정보를 접근할 수 있습니다. 이 멀티모달 경험은 Project Astra와 일치하며 OpenAI의 GPT-4o 초점을 반영합니다.
17. 동영상으로 검색하는 Lens
구글 렌즈는 정적 이미지를 벗어납니다. 이제 비디오 및 오디오를 검색에 활용할 수 있습니다. 자동차 문제? 암호 같은 설명이 필요 없습니다. 그냥 찍으세요. 이는 구글의 AI 추진과 일치하며 비디오 검색으로 복잡한 쿼리를 간소화합니다. 미스터리 식물을 식별하거나 빠른 클립으로 제품 세부 정보를 해독합니다. Lens는 더 직관적인 검색 경험을 위해 “보여주기, 말하지 않기”를 채택합니다.
18. AI가 여러분의 사진을 탐정으로 만들어줍니다
구글 I/O 2024 에서 “Ask Photos”라는 더 스마트한 Photos를 발표했습니다. Pichai는 그 기능을 시연하며 번호판을 찾고, 수년간의 사진을 통해 자녀의 수영 여행을 요약했습니다. 일일 업로드가 60억 건에 달하는 상황에서, Photos의 진화는 계속되며 AI 메모리 탐정이 되기를 목표로 합니다.
19. Firebase, 오픈 소스 AI 도구킷 공개
개발자를 위한 AI 민주화를 위해 구글은 AI 기반 앱을 구축하기 위한 오픈 소스 프레임워크인 Genkit을 공개합니다. 구글 및 오픈 소스 프로젝트 (Ollama, Pinecone)의 텍스트, 이미지, 코드 관련 AI 기능을 원활하게 통합합니다. Firebase의 서버리스 도구 (Cloud Functions, App Hosting)는 개발 및 배포를 간소화합니다. Project IDX의 UI는 Genkit와 통합되어 통합된 경험을 제공합니다.
20. 구글의 Trillium 칩, AI 성능을 높이다
구글의 차세대 AI 칩인 Trillium은 전작보다 4.7배의 속도 증가를 자랑합니다. 이 6세대 칩은 데이터 센터에서 Nvidia의 지배에 도전하며, 67% 높은 에너지 효율성을 제공합니다. 최적화된 메모리는 성능 병목 현상을 해결하여 까다로운 작업 부하의 확장성을 가능하게 합니다
구글 I/O 2024 결론
구글 I/O 2024 에서 선보인 AI 혁신은 일상 생활과 업무의 다양한 측면을 변화시키는 잠재력을 보여주었습니다. 새로운 챗봇, 학습 지원 도구, 멀티모달 인터페이스, AR 기술 등은 구글이 AI를 통해 사용자 경험을 어떻게 향상시키고 있는지를 잘 나타냅니다. 앞으로도 구글의 AI 발전을 주의 깊게 지켜보며, 이들이 우리의 삶에 어떤 긍정적인 영향을 미칠지 기대됩니다. AI가 우리의 일상에 깊이 자리 잡는 이 과정을 통해, 우리는 더욱 편리하고 효율적인 미래를 맞이하게 될 것입니다. 과연 Chat GPT 보다 더 나은 AI 경험을 제공할 수 있을까요?
아래는 구글 코리아에서 정리한 I/O 2024의 내용입니다. 참고하시면 좋을거 같습니다.