Власти КНР выпустили чат-бот, обученный на идеях Си Цзиньпина
Москва. 22 мая. INTERFAX.RU - Китайские власти выпустили чат-бот, обученный на идеях председателя КНР Си Цзиньпина, пишет Financial Times.
Лежащая в его основе большая языковая модель базируется на политической доктрине китайского лидера "Идеи Си Цзиньпина о социализме с китайской спецификой новой эпохи" и другой официальной литературе, предоставленной Управлением кибербезопасности Китая (Cyberspace Administration of China, CAC)
"Глубина и авторитетность использованного корпуса литературы обеспечат профессионализм генерируемого контента", - пишет журнал регулятора.
Пока новую модель использует исследовательский центр при CAC, однако со временем ее могут сделать доступной для более широкого применения, отметил источник FT.
Она может отвечать на вопросы, формировать отчеты, аннотировать информацию и переводить с китайского на английский и наоборот.
CAC требует от поставщиков инструментов в области генеративного (создающего контент) искусственного интеллекта (ИИ) ориентироваться на ключевые социалистические ценности и заявляет, что их выдача не может содержать контент, направленный против государственной власти.
Это представляет проблему для разработчиков в связи с относительным дефицитом данных на китайском языке для обучения их моделей. Большинство компаний обучает модели на англоязычной информации, из-за чего возникает вероятность нарушения принятых в Китае "норм речи" в их выдаче, пишет газета.
ИИ-модели технологических гигантов Baidu Inc. и Alibaba строго контролируют создаваемый контент, связанный с Си Цзиньпином и другими потенциально деликатными темами. Их чат-боты обычно просят пользователей начать диалог заново, если они затрагивают подобные темы.
Связанная с CAC некоммерческая организация "Ассоциация кибербезопасности Китая" (Cyber Security Association of China) в декабре прошлого года выпустила в помощь разработчикам первую публичную базу "высококачественных и заслуживающих доверия" данных для обучения моделей, содержащую 100 млн элементов. FT изучила некоторые фрагменты этой базы и на основе этого сделала вывод, что она сильно опирается на правительственные документы, сообщения государственных СМИ и другие официальные публикации.