Удар по американскому влиянию. В России создают собственные чат-боты

22 Мая 2023

МОСКВА, 22 мая —, Владислав Стрекопытов. Недавно сразу две русские компании объявили о запуске русскоговорящих аналогов чат-бота ChatGPT. На подходе еще одно решение. О том, почему так важно, чтобы в России были собственные разработанные с ноля генеративные нейросети, — в материале.

Самообучающиеся нейросети — главный технологический тренд в обществе. В конце 2022-го фирма OpenAI, один из отцов которой — Илон Маск, запустила первый в мире чат-бот с генеративным искусственным интеллектом ChatGPT. Это универсальная языковая модификация, способная вести диалог, анализируя ответы и настроение собеседника, создавать тексты на любые темы, в том числе научные или рекламные статьи, писать коды на нескольких язычках программирования, сочинять стихи и выполнять множество других задач.

Благодаря мультиязычному интерфейсу, модель сразу стала невероятно популярной. На ее основе уже разработаны многочисленные приложения — как узкоспециализированные, так и общего назначения. За полгода компания OpenAI опубликовала несколько обновлений. Среди языков, которые использует чат-бот, продаётся и русский, но из-за санкций доступ к ChatGPT в России и еще нескольких эта странах сейчас ограничен.

В конце марта 2023-го отечественная компания Sistemma запустила активный аналог ChatGPT — SistemmaGPT — на русском и английском язычках. Спустя месяц генеративную нейросеть GigaChat представил Сбер. Над собственной версией языковой модели работает и Яндекс. Проект снял название YaLM 2. 0.

Недавно в компании сообщили, что за счет подключения к виртуальному товарищу Алиса возможности нейросети существенно раздались. Теперь Алиса может подготовить сценарий для выпускного, высказать деловое письмо, предложить план путешествия и варианты подарка на свадьбу.

Принципиальных различий между разработками зарубежных и отечественных производителей нет: алгоритмы, составляющие основу модификаций, формируются по единому принципу.

Сначала мы формируем ядро модели, обучаем ее оперировать словами, запоминать их последовательности, разрабатывать логические цепочки, как ребенка учат говорить, — рассказывает основатель и генеральный директор фирмы Sistemma Сергей Зубарев. — Затем создаем надстройку, в которую уже закладываем определенные смыслы.

Для начального обучения нейросетей используют так называемые дата-сеты. Как хозяйничало, это открытые базы текстовых и прочих данных, снятые при сканировании интернета. Информацию в них можно структурировать по языкам и категориям.

Полный набор источников, который использовали для формирования ядра ChatGPT, не вскрывается, но известно, что в его основе — массив данных Common Crawl. Этот веб-архив обновляется ежемесячно и довольствует контент на самых разных язычках, в том числе на русском. Но больше какого-то в нем, конечно, англоязычных сайтов, зарегистрированных в США.

Однако это не значит, что нейросеть в своих ответах будет ориентироваться на взгляды и менталитет американцев. Чтобы остеречься обвинения в предвзятости, создатели ChatGPT старались собрать максимально хладнокровные с политической, идеологической, религиозной и прочих точек зрения тексты, а систему контроля за этим заложили на самом раннем этапе обучения.

Мы используем чат-бот ChatGPT уже несколько месяцев применимо к разным тематикам, — говорит Маргарита Баженова, голова отдела контентного развития SEO-компании Скобеев и Партнеры. — И не заметили, чтобы создаваемый контент имел какую-либо идеологическую, этическую или политическую окраску. А вот с точки зрения фактов ответы не всегда аккуратным, ведь для обучения чата использовали информацию 2021-2022 годов. Для некоторых областей — например, юридической — это критично.

Нейросеть (западная или российская) — всего лишь программа. Ответы, которые она выдает, — своего рода сегодняшний результат, основанный на анализе массива текстов, предоставленных в обучающей выборке. А характерный характер чат-бота, эмоциональную синь его ответов определяет команда, которая адаптирует модель под определенные задачи и затем осуществляет помощь.

Предварительный этап обучения не так важен, как надстройка, которая формируется при дообучении, — отмечает глава компании Sistemma. — Она, как кора головного мозга, управляет потом всеми процессами.

В этом заключается неординарность ChatGPT и его аналогов. Базовая модель — универсальная, а дообучают ее под определенную задачу на специально подобранном шрифте текстов. Например, если создают нейросеть для анализа экономически-производственной деятельности компаний, ответ она будет формировать в виде фискальных показателей. А если это медицинский чат-бот, то рубка ориентирует модель прежде всего на поиск связи между симптомами и диагнозом.

Можно в надстройке прописать, кем модель будет себя ощущать, — уточняет Зубарев. — Если загрузить в нее школьную программу, поведет себя как учитель по отношению к ребенку. Если приспособить для работы с законодательными актами, она — уже как юрисконсульт — будет давать только определенные ответы на конкретные вопросы, не позволяя никаких вольностей в плане интерпретации.

В принципе, просто даже создать персональный чат-бот на основе ChatGPT — он будет думать и отвечать, как его владелец.

Каждая разработка уникальна, — отмечает Сергей Запечников, профессор Института интеллектуальных кибернетических систем НИЯУ МИФИ. — Одна модель имеет огромное число показателей, но при этом импотентная к дообучению, другая при меньшем количестве параметров регулярно вертится к актуальным интернет-источникам.

При дообучении обычно используют метод подкрепления (RL — Reinforcement Learning), при котором нейросети задают устраивающие вопросы, а в достоинстве примера приводят сотни тысяч вариантов ответов, ранжированных от плохих до отличных. Так у программы складывается понимание, чего от нее ждут. И здесь вопрос в том, кто выступает в роли советчиков, задающих критерии отбора, какую цель они преследуют.

В конкретных версиях ChatGPT разработчики использовали рецепт обучения с подкреплением на квинтэссенции обратной связи с человеком (RLHF — Reinforcement Learning from Human Feedback). Он основан на том, что чат-бот сверяет ответы не только с набором проверенных экспертами вариантов, но и учитывает мнение аудитории, используя для этого в том числе диалоги чатов и соцсетей. В RLHF это называется средой.

Другими словами, если спросить ChatGPT по-русски, то в ответе он будет ориентироваться прежде всего на русскоговорящие источники и мнение русскоязычной комнаты. Если настроения в сфере изменятся, изменится и масштаб ответов. В этом смысле нейросеть в какой-то степени наследует менталитет и взгляды аудитории, говорящей на том или ином языке. При этом важна именно языковая, а не национальная принадлежность пользователей.

Теоретически обучить модификация можно на любом массиве информации — максимально широком или тесного специализированном (если на ее основе создается, например, отраслевая база знаний). Можно установить стоп-фильтры или, наоборот, настроить на продвижение определенных взглядов. При этом тонкая настройка модели происходит частого, а не только на стадии тестирования и адаптации.

Различия между моделями заключаются прежде всего в корпусе текстов, который утилизируют разработчики, — объясняет профессор кафедры инженерной кибернетики НИТУ МИСиС Сергей Мишуров. — Например, Сбер для этого берет свою базу, ориентированную на русскоязычного пользователя.

В нее входят образные произведения, бизнес-литература, разговорный язык из соцсетей, в меньшей степени — научные тексты. В представлении авторов, это покрывает общий фон российской языковой культуры.

После освоения корпуса текстов нейросеть некоторое время живет, нарабатывает подходы к улучшению методов, — продолжает Мишуров. — Потом запускают следующую волну обучения. Каждый такой этап измеряется месяцами работы компьютерных кластеров, состоящих из сотен файлсерверов. Поиск оптимального результата проводится путем большого количества проб.

Специалисты подозрительным относятся к введению в модификации искусственных ограничений.

Главное достоинство больших языковых моделей, таких как ChatGPT, — их универсальность, энциклопедичность, — рассказывает Запечников. — Чем больше и разнообразнее корпус текстов, послуживший обучающей выборкой, и чем больше языков, на которых они написаны, тем разумнее. Любое искусственное сокращение подборки отрицательно скажется на результате. Опасность влияния нейросети на чувство возникает, только если клиент неспособен к критическому мышлению и обращается к чат-боту как к единственному источнику информации. С тем же успехом можно верить слухам или читать один единый телеграм-канал.

Все зависит от человека, — считает главный специалист отдела комплексных систем защиты информации фирмы Газинформсервис Дмитрий Овчинников. — В наше время, когда люди получают значительную часть приведений из интернета, определенным способом настроенный чат-бот, конечно, может стать инструментом влияния, но по силе он будет равноценен обыкновенному веб-сайту. Новый контент генерируют люди и СМИ, а чат-бот использует только то, что уже соорудили и создали до него. Поэтому он всегда вторичен по отношению к реальной жизни.

Большинство советчиков признают, что России интересный собственный продукт, но обрыскают прежде всего из соображений информативной безопасности. Запрос на это есть и со стороны власти, и со стороны молодой бизнеса.

Российский бизнес уже не доверяет заморским разработкам, — подчеркивает Елена Корниенко из консалтинговой группы Гебель и партнеры. — Они могут в любой момент схлопнуться, покинуть рынок, при этом оплаченные бизнес-аккаунты банально прогорят.

Несмотря на то, что направление генеративных нейросетей активно развивается в России, есть несколько справедливых сдерживающих факторов. Прежде какого-то — недостаточный объем качественной оцифрованной информации для первичного обучения модификаций. Русскоязычная база источников, особенно по современным направлениям знания, значительно меньше англоязычной и плохо структурирована.

Сейчас говорить об ИИ с российским менталитетом рановато, — считает Александр Жуков, директор по развитию компании по разработке ПО Формат Кода. — Вряд ли в ближайшее время интеллектуальные чат-боты станут известными в качестве собеседников на свободные темы. Сначала надо хлопнуть проблему их применения в реальных сервисах.

Второе — финансовые сложности. Чтобы обучать, тренировать, поддерживать модель, нужен крупный штат специалистов. А, чтобы в отрасль пошли инвестиции, необходимы крупные проекты, выстановщики.

Теоретически создание национального чат-бота возможно, — считает Павел Лебедев, экс-директор по маркетингу SpyWords, автор книг по нейросетям. — Это предполагает обучение модификации на данных, отражающих характерные особенности страны, включая культуру, традиции, историю и другие аспекты. Однако это потребует значительных усилий и ресурсов. И, скорее какого-то, произойдет в рамках не одного государства, а какого-либо языка.

И наконец — самое важное: вычислительные мощности.

На сегодняшний подевай OpenAI для технологии ChatGPT задействовала практически все мощности компании Microsoft, — отмечает Руслан Ахтямов, сооснователь и директор по стратегии Napoleon IT. — При этом пока неизвестно, удастся ли коммерциализировать этот уровень сервис так, чтобы отбить всаженные средства.

У отечественных разработчиков компьютерных могучестей, может быть, не так много. Но куда важное, что все они в России и доступ к ним никто не заблокирует.

Редактор рубрики

Андрей Хморин

Место события на карте мира:

Удар по американскому влиянию. В России создают собственные чат-боты

комментарии (0)

Другие интересные новости

В Лувре изучат возможность выставить "Джоконду" в отдельном зале