CoWork Transkription
Die CoWork Transkription-Konfiguration steuert die Echtzeit-Spracherkennung für Sprach- und Videoanrufe in i-net CoWork. Sie können entweder OpenAI (Whisper- oder GPT-4o-Transkriptionsmodelle per API) oder Vosk (offline, vor Ort) nutzen. Die Transkription kann dauerhaft an sein, pro Anruf manuell ein- und ausgeschaltet werden oder deaktiviert sein. Diese Seite richtet sich an Administratoren, die die Transkription einrichten, und an Nutzer, die an Anrufen mit Transkription teilnehmen.
Die Optionen konfigurieren Sie in der Konfigurations-Anwendung unter CoWork Calls → Kommunikation → CoWork Transkription.
Transkript-Aktivierung
Die folgenden Optionen legen fest, wann die Transkription verfügbar ist und welche Engine verwendet wird. Setzen Sie zuerst den Aktivierungsmodus und den Anbieter; Sprache, Chunk-Dauer und Zusammenfassung am Anrufende gelten für beide Anbieter.
-
Transkript-Aktivierung: Wann die Transkription verfügbar ist und wie sie läuft.
-
Werte:
-
Aus - Transkription ist deaktiviert. In Anrufen werden keine Transkript-Steuerelemente angezeigt.
-
Immer an - Die Transkription startet automatisch beim Start eines Anrufs und endet mit dem Anruf. Es ist keine Aktion nötig.
-
Manuell - Die Transkription ist verfügbar, startet aber nicht automatisch. Ein Teilnehmer muss sie in der Anruf-Oberfläche starten und kann sie vor Anrufende beenden.
-
-
Standardwert: Aus
-
-
Sprache (ISO-639-1, leer für automatische Erkennung): Optionaler zweistelliger Sprachcode, z. B.
deoderen, für die gesprochene Sprache. Leer lassen, damit der Anbieter die Sprache automatisch erkennt. Bei OpenAI sind nur bestimmte Sprachen unterstützt; bei einer nicht unterstützten Sprache wird kein Transkript geliefert. Siehe OpenAI Speech-to-Text: unterstützte Sprachen.
-
Max. Chunk-Dauer (Sekunden): Maximale Länge eines Audiosegments in Sekunden, bevor es zur Transkription gesendet wird. Größere Werte können den Kontext verbessern, verzögern aber das Transkript. Muss größer als 0 sein.
-
Standardwert: 30
-
-
Zusammenfassung am Ende des Anrufs erstellen: Wenn aktiviert, wird am Ende des Anrufs eine kurze Zusammenfassung des Transkripts erstellt. Dafür wird die OpenAI-Chat-API genutzt; ein gültiger OpenAI API Key ist erforderlich, auch wenn der Transkriptionsanbieter Vosk ist.
-
Standardwert: aktiviert
-
-
Anbieter: Die für die Transkription verwendete Spracherkennungs-Engine.
-
Werte:
-
OpenAI - Nutzt die OpenAI-API (Whisper- oder GPT-4o-Transkriptionsmodelle). Erfordert einen API-Schlüssel und Netzwerkzugang.
-
Vosk - Nutzt ein lokales Vosk-Modell. Kein API-Schlüssel; es muss ein Modell heruntergeladen und der Modellpfad gesetzt werden.
-
-
Standardwert: OpenAI
-
OpenAI
OpenAI stellt cloudbasierte Spracherkennung über die Whisper- und GPT-4o-Transkriptions-APIs bereit. Die folgenden Optionen werden angezeigt, wenn Anbieter OpenAI ist oder Zusammenfassung am Ende des Anrufs erstellen aktiviert ist. Ein API-Schlüssel ist für die Transkription und die optionale Zusammenfassung am Anrufende erforderlich.
-
OpenAI API Key: Ihr OpenAI-API-Schlüssel. Erforderlich für die OpenAI-Transkription und die Zusammenfassung am Anrufende. Bewahren Sie den Schlüssel sicher auf; er wird nur für Transkriptions- und Zusammenfassungsanfragen verwendet.
-
Transkriptions-Modell: Das für die Spracherkennung verwendete OpenAI-Modell.
-
Werte:
-
gpt-4o-transcribe - Transkription auf Basis von GPT-4o.
-
gpt-4o-mini-transcribe - Leichteres Modell für die Transkription.
-
whisper-1 - Whisper-Spracherkennungsmodell.
-
-
Standardwert: whisper-1
-
-
Transkriptions-Prompt: Optionaler Prompt zur Steuerung des Modells, z. B. Stil, Terminologie oder Fachbegriffe. Wird nur für die OpenAI-Transkription verwendet. Wenn leer, wird ein Standard-Prompt verwendet, der die vollständige Gesprächstranskription und optionale Beschreibungen von Geräuschen in eckigen Klammern vorsieht.
Hinweis: Bei OpenAI darf Sprache nur auf eine unterstützte Sprache gesetzt werden. Bei einer nicht unterstützten Sprache wird kein Transkript geliefert.
Vosk
Vosk läuft vollständig auf Ihrem Server und benötigt für die Transkription weder einen API-Schlüssel noch Internetzugang. Die folgende Option wird angezeigt, wenn Anbieter Vosk ist.
-
Vosk-Modellpfad: Pfad zum Ordner mit dem entpackten Vosk-Sprachmodell. Der Ordner muss auf dem Server existieren und für die Anwendung lesbar sein.
Hinweis: Für Vosk müssen Sie ein Modell aus der offiziellen Liste herunterladen, das Archiv in einen Ordner entpacken und Vosk-Modellpfad auf diesen Ordner setzen. Über den Link Vosk-Modelle (herunterladen) in der Konfiguration öffnen Sie die Liste der verfügbaren Modelle, z. B. Vosk-Modelle. Wählen Sie ein Modell, das zur in Anrufen genutzten Sprache passt.
Was Nutzer tun müssen, um die Transkription zu nutzen
Je nach Rolle und gewähltem Aktivierungsmodus gelten die folgenden Schritte. Administratoren richten die Optionen einmal ein; Teilnehmer sehen das Live-Transkript und können es im Modus Manuell in der Anruf-Oberfläche starten oder beenden.
Administratoren
-
Öffnen Sie in der Konfigurations-Anwendung CoWork Calls → Kommunikation → CoWork Transkription.
-
Setzen Sie Transkript-Aktivierung auf Immer an oder Manuell.
-
Für OpenAI: Tragen Sie einen gültigen OpenAI API Key ein und wählen Sie optional Transkriptions-Modell und Transkriptions-Prompt. Wenn Sie Zusammenfassung am Ende des Anrufs erstellen aktivieren, ist der API-Schlüssel unabhängig vom Anbieter erforderlich.
-
Für Vosk: Laden Sie ein Modell von der Vosk-Modellseite herunter, entpacken Sie es in ein Verzeichnis auf dem Server und setzen Sie Vosk-Modellpfad auf dieses Verzeichnis.
-
Setzen Sie Sprache, wenn Sie die Sprache festlegen möchten; andernfalls leer lassen für automatische Erkennung.
-
Speichern Sie die Konfiguration nach Änderungen.
Wenn Transkript-Aktivierung auf Immer an steht
-
Während des Anrufs ist keine Aktion nötig. Die Transkription startet mit dem Anruf und endet mit dem Anruf. Teilnehmer sehen das Live-Transkript in der Anruf-Oberfläche.
Wenn Transkript-Aktivierung auf Manuell steht
-
Nur Teilnehmer im Anruf können die Transkription starten oder beenden.
-
Starten Sie die Transkription über das Transkript- bzw. Transkriptions-Steuerelement in der Anruf-Oberfläche, z. B. Schaltfläche oder Menü, nachdem der Anruf begonnen hat.
-
Beenden Sie die Transkription mit demselben Steuerelement vor dem Verlassen des Anrufs, wenn Sie das Transkript früher beenden möchten; andernfalls endet es mit dem Anruf.
Zusammenfassung am Anrufende
-
Wenn Zusammenfassung am Ende des Anrufs erstellen aktiviert ist und ein OpenAI-API-Schlüssel gesetzt ist, wird am Ende des Anrufs automatisch eine Zusammenfassung erstellt. Es ist keine weitere Aktion nötig.
