# simple-ehm
A simple tool for a simple task: remove filler sounds ("ehm") from pre-recorded speeches. AI powered.
Istruzioni in italiano in fondo al documento.
# Usage
Basic invokation should be enough:
`./simple_emh-runnable.py /path/to/video/file`
This will generate a subtitle track (`.srt`) for debugging and the output video in the same folder as the original file.
For more info read the help:
`./simple_emh-runnable.py --help`
You can also run simple-ehm in a dockerized environment. Build the image using `docker build -t simple .` then, instead
of using `./simple_ehm-runnable.py` use `./convert.sh`
# Contributing to the model
There are two ways you can contribute to the model:
## Contribute to the dataset
By sending me at least 30 1-second long WAV pcm_s16le mono 16kHz clips for each class (silence, speech, ehm) [easy]
- You can convert your clips to the right format with ffmpeg: `ffmpeg -i input-file -c:a pcm_s16le -ac 1 -ar 16000 -filter:a "dynaudnorm" output.wav`
- You can extract ehm(s) and silences **along with erroneously classified sounds** (false positives) by passing `--generate-training-data` as an invocation parameter. You can then use the latter to improve your training set!
## Contribute to the training
- By implementing transfer training logic on this model's python notebook
- By retraining the current model with your dataset and make a PR with the updated one
# ITA
# simple-ehm
Un semplice strumento per un semplice compito: rimuovere gli "ehm" (suoni di riempimento) da discorsi pre-registrati.
# Utilizzo
L'invocazione base dovrebbe essere sufficiente:
`./simple_emh-runnable.py /percorso/al/file/video`
Questo genererò una traccia di sottotitoli (`.srt`) per fini diagnostici e il video tagliato nella stessa cartella del file originale.
Per maggiori informazioni sui parametri accettati, leggi la guida:
`./simple_emh-runnable.py --help`
Puoi anche utilizzare simple-ehm in un ambiente dockerizzato, per fare ciò crea l'immagine `docker build -t simple .`, e
dove useresti `./simple_ehm-runnable.py` utilizza invece `./convert.sh` (N.B. per usare `./convert.sh` i file devono
essere spostati prima in questa cartella)
# Contribuire al modello
Ci sono due modi in cui puoi contribuire al modello:
## Contribuisci al dataset
Inviandomi almeno 30 clip in formato WAV (pcm_s16le) mono con campionamento a 16kHz per ciascuna classe (silenzio, parlato, ehm) [facile]
- Puoi convertire le tue clip nel formato corretto con ffmpeg: `ffmpeg -i input-file -c:a pcm_s16le -ac 1 -ar 16000 -filter:a "dynaudnorm" output.wav`
- Puoi estrarre gli ehm(s) e i silenzi **anche quelli classificati erroneamente** (falsi positivi) passando `--generate-training-data` come parametro di invocazione. Puoi usare le clip classificate erroneamente per migliorare il tuo training set!
## Contribuisci al training
- Implementando la logica di transfer training sul notebook python di questo modello, e
- Eseguendo il retraining della rete esistente con il tuo dataset ed inviandomi il modello aggiornato.

快撑死的鱼
- 粉丝: 2w+
最新资源
- DLLXW-data-science-competition-5384-1753355108382.zip
- jvs-机器人开发资源
- 深入理解计算机系统CSAPP完整学习笔记与代码实践项目-计算机系统原理程序优化存储器层次链接机制异常控制虚拟内存系统IO网络编程并发处理-为计算机专业学生和开.zip
- kmvvm-Kotlin资源
- openai-agents-python-AI人工智能资源
- netease-cloud-music-gtk-Rust资源
- 基于 JAVA 开发的开源微信开源微信小程序商城系统
- 华为敏捷软件开发.ppt
- 数控车床编程G90指令.ppt
- ThinkCMF-移动应用开发资源
- 异构存储虚拟化环境解决方案样本.docx
- 网络信息安全RSA密码数字签名技术.doc
- 信息检索与阅读:中文数据库使用方法.ppt
- 项目管理案例分析.ppt
- 通信工程调研报告范文.doc
- 中小企业网络会计发展探析【精品发布】.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


