Results 71 to 80 of about 420 (159)

Whisper at High Volumes: How to transcribe an Archive

open access: yes
The American Archive of Public Broadcasting (AAPB) hosts over 200,000 digitized video and audio assets from over 200 contributing stations, across many decades.
Harpo Harbert
core  

Use of neural networks in business

open access: yes
Нейросети — это слово часто можно увидеть в новостях IT. В данной работе будет представлен один из способов интеграции нейросетей в жизнь человека. Он представляет собой чат-бота в мессенджере Telegram, который взаимодействует с моделями нейросетей ...
Даревский, Д. И.   +2 more
core  

Automatisk bedömning av ordavkodning med användning av Whisper och maskininlärningstekniker : Ett tillvägagångssätt för automatisk taligenkänning för att bedöma tidig läsförmåga hos unga barn som läser svenska

open access: yes
Automatic Speech Recognition (ASR) and its many purposes have gained a large amount of attention in recent years, both in research and in commercial use.
Johansson, Johanna
core   +1 more source

Automatic Speech Recognition of Finnish-Swedish Dialects:A Comparison of Three Cutting-Edge Technologies

open access: yes
This paper explores the performance of two different automatic speech recognition models for the Finnish-Swedish language. The first model, Whisper V1 released by OpenAI and the second, the KBLab model trained using a large dataset by the National ...
Shcherbakov, Andrey   +2 more
core   +1 more source

Prosody in the Age of AI: Insights from Large Speech Models

open access: yes
Prosody affects how people produce and understand language, yet studies of how it does so have been hindered by the lack of efficient tools for analyzing prosodic stress.
Stromswold, Karin   +2 more
core  

Riconoscimento del parlato mediante OpenAI Whisper

open access: yes
Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source.
openaire   +1 more source

Implementación de un sistema de traducción automática voz a voz mediante el uso de transformers

open access: yes
En este proyecto se implementó un sistema de traducción de voz a voz basado en transformers, abordando los desafíos en cada etapa del proceso: reconocimiento de voz (voz a texto), traducción y síntesis de voz (texto a voz).
Hurtado Jiménez, Daniel
core   +1 more source

Застосунок для аналізу даних у реальному часі

open access: yes
У роботі обґрунтовано необхідність створення десктопного застосунку «Live Subtitle Studio» для автоматичної транскрипції мовлення та генерації субтитрів як у реальному часі, так і для попередньо завантажених медіафайлів. Актуальність зумовлена зростанням
Грицик, Станіслав Васильович
core  

Розгляд питання створення конспекту лекцій на основі відео та презентації

open access: yes
Video content is a major source of information, yet time constraints often prevent users from fully engaging with it. This work presents an innovative application that automatically generates comprehensive lecture notes by analyzing video, audio, and ...
Максімов, Г. Р.
core  

Home - About - Disclaimer - Privacy