Модель — говно. Хоть и SOTA. Но — говно. Придётся дообучать на своих данных, и хорошо ещё, если это поможет. Проблема в том, что модели — и датасеты, конечно — растут куда медленнее, чем клиентские требования. А приносят-то они что? Пару голосовых, видео со дня рождения или что там накопали после похорон. Но качество-то студийное им подавай. Я же не могу им сказать «Да вы этого даже не услышите.». Я не могу им сказать «Да вы не будете слышать модель, вы будете слышать свою маму». Или мужа, или сестру. Неважно. Да и услышите-то один раз — в палате, перед тем, как вырубитесь окончательно. Стоит огород городить.

Я не могу им сказать: «Какого хера ты тут выпендриваешься? Ищешь сраные артефакты, просишь меня генерировать тебе сотни фраз и вместе с тобой их слушать, ещё и ещё. Тратишь МОЁ ВРЕМЯ». Ты не услышишь неестественных пауз на длинных предложениях. И металлического призвука. Потому что фразы у тебя будут короткие, что-нибудь типа «Не держись. Отпусти» или «Не бойся. Я жду тебя.». Ну или что там ещё подберут наши NLP-спецы на основе твоих данных.

Они ещё так меняются в лице, пока мы слушаем — стараются сохранять это выражение недовольного клиента, но я-то вижу. Очень странно с ними сидеть, пока они оценивают стандартный набор тестовых фраз голосом мёртвого ребёнка. Сижу и думаю: «Чего вы хотите, это ж, сука, ультразвук, конечно, на синтезе артефакты будут.». Но морду кирпичом приходится держать, как будто о высоком думаю.

О покойных — либо хорошо, либо ничего. Об умирающих, на самом деле, тоже. Так что хотя наши клиенты — по факту самые нетребовательные на рынке, выкладываться нам приходится не меньше, чем всем остальным и TTS держать на уровне. Потому что пока они заказывают наши услуги, они ещё могут слышать — и вовсю этим пользуются. Пользуются так, словно только это их тут и держит. И признать, что им будет всё равно — это как пропустить весь этот период последнего ожидания и впрыгнуть в смерть сразу с разбега. Один только мне сказал: «Ладно, сойдёт», глядя в глаза. Врач какой-то, хирург, кажется.