Russian text normalization pipeline for speech-to-text and other applications based on tagging s2s networks.
Форк с улучшениями:
- ✅ Поддержка PyTorch 2.x
- ✅ Современный
pyproject.tomlдля установки через pip/uv - ✅ Автоматический поиск файла модели
- ✅ Понятные сообщения об ошибках
- 📦 Упаковка модели в пакет
pip install git+https://github.com/bzikst/russian_stt_text_normalization.gitИли с помощью uv:
uv pip install git+https://github.com/bzikst/russian_stt_text_normalization.gitДобавьте в ваш pyproject.toml:
dependencies = [
"russian-stt-text-normalization",
]
[tool.uv.sources]
russian-stt-text-normalization = { git = "https://github.com/bzikst/russian_stt_text_normalization.git" }from russian_stt_text_normalization import Normalizer
text = 'С 12.01.1943 г. площадь сельсовета — 1785,5 га.'
norm = Normalizer()
result = norm.norm_text(text)
print(result)Также поддерживается старый импорт (для обратной совместимости):
from russian_stt_text_normalization.normalizer import Normalizer>>> С двенадцатого января тысяча девятьсот сорок третьего года площадь сельсовета
>>> — тысяча семьсот восемьдесят пять целых и пять десятых гектара
jit_s2s.pt использует устаревший формат PyTorch 1.x и несовместима с PyTorch 2.x.
Вам нужно конвертировать модель в новый формат. См. подробные инструкции в UPGRADE.md.
Кратко:
- Используйте машину с Python 3.8-3.10 и PyTorch 1.13
- Запустите
python convert_model.py - Получите файл
jit_s2s_v2.pt, совместимый с PyTorch 2.x
После конвертации модуль автоматически будет использовать новый формат.
Оригинал: https://github.com/snakers4/russian_stt_text_normalization
Автор: snakers4
Форк поддерживается: bzikst
