우리는 단순한 믿음에서 WaveKat을 시작했습니다:
모든 소상공인은 대기업과 같은 목소리를 가질 자격이 있습니다.
소상공인은 전화를 놓칩니다. 안내 데스크나 24/7 응대 서비스를 둘 여유가 없습니다. 한편 대기업은 하루에 수천 통의 전화를 처리하는 정교한 음성 AI를 배포합니다. 이런 격차는 존재해서는 안 됩니다.
우리가 만들고 있는 것
WaveKat은 실시간 음성 AI를 위한 도구를 만들고 있습니다. 우리는 일련의 오픈소스 라이브러리에서 시작합니다:
- wavekat-core —
AudioFrame과 샘플 포맷 변환 같은 공유 오디오 기본 요소 - wavekat-vad — 여러 백엔드(WebRTC, Silero 등)를 지원하는 음성 활동 감지
- wavekat-turn — 화자가 말을 마쳤는지 아는 턴 감지
- wavekat-lab — 오디오 백엔드를 테스트하고 비교하는 인터랙티브 대시보드
이 라이브러리들 위에 우리는 wavekat-voice를 만들고 있습니다 — 표준 SIP/RTP 인프라에 연결되는 AI 전화 응대 시스템입니다. 전화를 받고, 실제 대화를 나누며, 통화를 처리합니다 — 그래서 사업주가 직접 응대할 필요가 없습니다.
왜 오픈소스에서 시작할까요?
우리는 기반이 되는 기술 — VAD, 턴 감지, 오디오 처리 — 이 개방적이고, 감사 가능하며, 자유롭게 그 위에 구축할 수 있어야 한다고 믿습니다. 이런 구성 요소들은 기업 계약 뒤에 갇혀 있어서는 안 됩니다.
다음은 무엇일까요
우리는 개발에 몰두하고 있습니다. GitHub에서 우리를 팔로우하거나 이곳에 다시 들러주세요 — 우리는 실시간 음성 뒤에 있는 엔지니어링, 우리가 내리고 있는 절충들, 그리고 그 과정에서 배운 것들에 대해 글을 쓸 것입니다.