Cohere、文字起こし専用のオープンソース音声モデルを公開（約20億パラメータ・14言語対応）

2026.03.26 ・ TechCrunch

AIZEN NEWS編集部の要点整理

Cohereは音声の文字起こし（トランスクリプション）に特化したオープンソースの音声モデルを公開しました。モデルは比較的軽量で約20億パラメータに収まり、自己ホスティングを想定してコンシューマー向けGPUで動作するよう設計されています。現時点で14言語に対応しています。

この公開は、クラウド依存を減らしてオンプレミスやローカル環境で文字起こしを行いたい企業や個人にとって導入障壁を下げる点で重要です。オープンソースであるためカスタマイズや透明性の確保、コミュニティによる改善が期待でき、プライバシー重視の用途やオフライン運用にも向きます。

業界への示唆としては、軽量で自己ホスティング可能なモデルの登場がクラウドASRサービスとの競争を促し、ローカルで動く効率的な音声処理ソリューションの需要を高める可能性があります。一方で小型モデルは性能面でのトレードオフを伴うことがあり、導入前に精度や対応言語・機能を評価する必要があります。

出典