①팟캐스트 자동 음성 번역 ②ADT의 로봇 실험 ③도시계획 AI에 맡긴다
팟캐스트가 인공지능(AI)을 만나 진화하고 있습니다. 25일(현지시각) 음악 스트리밍 업체 스포티파이는 AI로 팟캐스트를 다른 언어로 자동 재생하는 기능을 도입했다고 밝혔습니다. 이때 스포티파이 도구는 음성-텍스트 번역을 넘어서 팟캐스터 목소리를 다른 언어로 합성한 버전으로 송출한다는 점에서 기존 번역기와 차이가 있죠.번역은 오픈AI의 음성 전사 도구인 위스퍼(Whisper)를 이용해 이뤄집니다. 이 도구는 영어 음성을 전사(받아쓰기, transcribe)해 다른 언어로 번역하죠. 회사는 닥스 셰퍼드, 모니카 패드먼, 렉스 프리드먼, 빌 시몬스, 스티븐 바틀렛 등 소수의 팟캐스터와 제휴, 이들의 영어 에피소드를 스페인어로 번역해 송출할 예정입니다.향후 수 주 안에는 프랑스어, 독일어 번역 기능을 출시할 예정입니다. 지아드 술탄(Ziad Sultan) 스포티파이 개인화 부문 부사장은 성명에서 “음성 번역은 창작자의 목소리를 일치시킴으로써 전 세계 청취자들에게 그 어느 때보다 더 진정한 방식으로 새로운 팟캐스터를 발견하고 영감을 줄 수 있는 힘을 제공한다”고 말했습니다. 👉 오픈AI LLM 기반 알렉사 만든다오픈AI는 앞으로도 음성 복제 부분에 관여할 가능성이 높습니다. 이를 보여주듯 같은 날 회사는 자사 챗봇에 시각, 청각, 음성 기능을 추가한다고 밝혔습니다. 기존에 업데이트가 챗봇이 답변할 수 있는 질문 혹은 접근할 수 있는 정보 등 기본모델에 관한 것이었다면, 이번 업데이트는 챗GPT의 사용방식을 바꾸는 대대적인 변화죠.오픈AI는 향후 2주안에 챗GPT 유료 구독자를 대상으로 음성 혹은 사진 업로드 만으로 AI봇에게 메시지를 보낼 수 있는 버전을 출시할 계획입니다. 음성 기능은 알렉사나 구글어시스턴트와 유사합니다. 버튼을 탭하고 질문하면 챗GPT가 이를 텍스트로 변환, 대형언어모델에 제공하고 답변을 음성으로 다시 전달하죠. 이에 기존 알렉사 등 가상비서도 LLM을 기반으로 재구축될 가능성이 나옵니다. 이미지 검색은 구글 렌즈와 유사합니다. 사진을 찍으면 챗GPT가 질문하는 내용을 파악하고 그에 따라 응답하죠. 또 앱의 그리기 도구를 사용해 쿼리를 명확하게 하거나 이미지와 함께 질문을 말하거나 입력할 수 있습니다. 다만 오픈AI는 블로그에서 “음성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성이 있다”면서 기능을 제한적으로 제공한다고 밝혔습니다.