kontur-ai/sbert_punc_case_ru

Name: kontur-ai/sbert_punc_case_ru
Rating: 5 (38 reviews)
Author: kontur-ai

token classificationtransformersrutransformerssafetensorsberttoken-classificationPyTorchTransformersapache-2.0

38

HuggingFace

213.1K

SbertPuncCase

SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса; определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре. Модель разработана для восстановления текста после распознавания речи, поэтому работает со строками в нижнем регистре. В основу модели легла sbert_large_nlu_ru. В качестве обучающих данных использованы текстовые расшифровки интервью.

Как это работает

Текст переводится в нижний регистр и разбивается на слова.
Слова разделяются на токены.
Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра.
Функция декодировки восстанавливает текст соответственно предсказанным классам.

Как использовать

Код модели находится в файле sbert-punc-case-ru/sbertpunccase.py.

Убедитесь, что у вас установлен git-lfs.
Далее для быстрой установки можно воспользоваться командой:

pip install git+https://huggingface.co/kontur-ai/sbert_punc_case_ru

Использование модели:

from sbert_punc_case_ru import SbertPuncCase
model = SbertPuncCase()
model.punctuate("sbert punc case расставляет точки запятые и знаки вопроса вам нравится")

Авторы

Альмира Муртазина

Александр Абугалиев

Deploy Model on Runcrate

Run this model on powerful GPU infrastructure. Deploy in 60 seconds.

Pay per second

H100, A100, RTX GPUs

Instant deployment

DEPLOY IN 60 SECONDS

Run sbert_punc_case_ru on Runcrate

Deploy on H100, A100, or RTX GPUs. Pay only for what you use. No setup required.