kontur-ai/sbert_punc_case_ru

token classificationtransformersrutransformerssafetensorsberttoken-classificationPyTorchTransformersapache-2.0
213.1K

SbertPuncCase

SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса; определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре. Модель разработана для восстановления текста после распознавания речи, поэтому работает со строками в нижнем регистре. В основу модели легла sbert_large_nlu_ru. В качестве обучающих данных использованы текстовые расшифровки интервью.

Как это работает

  1. Текст переводится в нижний регистр и разбивается на слова.
  2. Слова разделяются на токены.
  3. Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра.
  4. Функция декодировки восстанавливает текст соответственно предсказанным классам.

Как использовать

Код модели находится в файле sbert-punc-case-ru/sbertpunccase.py.

  1. Убедитесь, что у вас установлен git-lfs.

  2. Далее для быстрой установки можно воспользоваться командой:

pip install git+https://huggingface.co/kontur-ai/sbert_punc_case_ru

Использование модели:

from sbert_punc_case_ru import SbertPuncCase
model = SbertPuncCase()
model.punctuate("sbert punc case расставляет точки запятые и знаки вопроса вам нравится")

Авторы

Альмира Муртазина

Александр Абугалиев

DEPLOY IN 60 SECONDS

Run sbert_punc_case_ru on Runcrate

Deploy on H100, A100, or RTX GPUs. Pay only for what you use. No setup required.