私たちは、ひとつのシンプルな信念から WaveKat を立ち上げました。
すべての小規模ビジネスは、大企業のような声を持つに値する。
小規模ビジネスは電話を取り逃します。受付を雇う余裕も、24 時間 365 日の電話応対サービスを頼む余裕もありません。その一方で、大企業は 1 日に何千件もの通話をさばく高度な音声 AI を導入しています。こうした隔たりは、本来あってはならないものです。
私たちが作っているもの
WaveKat はリアルタイム音声 AI のためのツールを作っています。まずは一連のオープンソースライブラリから始めます。
- wavekat-core ——
AudioFrameやサンプルフォーマット変換といった、共有の音声プリミティブ - wavekat-vad —— 複数のバックエンドに対応した音声区間検出(WebRTC、Silero など)
- wavekat-turn —— 話者がいつ話し終えたかを判断するターン検出
- wavekat-lab —— 音声バックエンドをテストし比較するためのインタラクティブなダッシュボード
これらのライブラリの上に、私たちは wavekat-voice を構築しています —— 標準的な SIP/RTP インフラに接続する AI 電話応対システムです。電話に出て、本物の会話を行い、通話をさばきます —— 経営者が自分で対応する必要がないように。
なぜオープンソースから始めるのか?
私たちは、基盤となる技術 —— VAD、ターン検出、音声処理 —— はオープンで、監査可能で、その上に自由に構築できるものであるべきだと信じています。こうした構成要素が、企業向け契約の裏側に閉じ込められるべきではありません。
これから
私たちは開発に没頭しています。GitHub でフォローするか、またこのページに立ち寄ってください —— リアルタイム音声の背後にあるエンジニアリング、私たちが行っているトレードオフ、そして道中で学んだことについて書いていきます。