искусственный интеллект

Крупнейший веб-сервис для хостинга IT-проектов и их совместной разработки GitHub на днях представил оценку качества работы нейросетей. Исследование оценки «глючности» в больших языковых моделях (LLM) представляет интерес для многих областей применения. Этот текст представляет собой детальное рассмотрение таблицы лидеров, созданной на основе результатов оценки галлюцинации в LLM, а также методологии, использованный для ее составления.

Таблица Лидеров

В таблице представлены различные LLM и их оценки в различных категориях:

Модель Точность Частота ошибок Скорость Ответа Средняя Длина Резюме (Слова)
GPT 4 97.0 % 3.0 % 100.0 % 81.1
GPT 3.5 96.5 % 3.5 % 99.6 % 84.1
Llama 2 70B 94.9 % 5.1 % 99.9 % 84.9
Llama 2 7B 94.4 % 5.6 % 99.6 % 119.9
Llama 2 13B 94.1 % 5.9 % 99.8 % 82.1
Cohere-Chat 92.5 % 7.5 % 98.0 % 74.4
Cohere 91.5 % 8.5 % 99.8 % 59.8
Anthropic Claude 2 91.5 % 8.5 % 99.3 % 87.5
Mistral 7B 90.6 % 9.4 % 98.7 % 96.1
Google Palm 87.9 % 12.1 % 92.4 % 36.2
Google Palm-Chat 72.8 % 27.2 % 88.8 % 221.1

Таблица отображает результаты оценки, включая точность (то, насколько ответы LLM фактические), частоту ошибок (процент ответов, содержащих недостоверную информацию), скорость ответа (процент запросов, на которые модель ответила), и среднюю длину резюме, выдаваемого каждой моделью.

Методология

Для создания этой таблицы лидеров была использована следующая методология:

  • Модели LLM были обучены на обнаружение ошибок в их выходных данных.
  • Были использованы различные общедоступные наборы данных для исследования фактической согласованности моделей при создании кратких резюме.
  • 1000 коротких документов были поданы на каждую из моделей через их общедоступные API, и модели были попрошены составить краткие резюме, используя только факты из документа.
  • 831 из этих документов были резюмированы всеми моделями, остальные документы были отклонены хотя бы одной моделью из-за ограничений на контент.
  • На основе этих 831 документа были вычислены общая точность (без ошибок) и частота багов (100 минус точность) для каждой модели.
Еще в тему:  Полное руководство по Google Search Console для вебмастеров

Этот метод позволил определить, насколько достоверны и надежны различные LLM при составлении кратких резюме документов. Оценивалась именно фактическая согласованность резюме с исходным документом, что позволяет оценить, насколько модели предоставляют точные и правдивые ответы.

Использование API и дополнительная информация

Для оценки LLM, были использованы различные API, включая API для GPT 3.5, GPT 4, Llama, Cohere, Anthropic, Mistral и Google Palm. Каждая из моделей имеет свои особенности и характеристики.

Более подробную информацию о моделях, использованных для оценки, и спецификациях их API можно найти в разделе «API Details».

Оценка «глючности» в LLM является важной задачей, поскольку эти модели широко используются в различных системах и задачах, включая поиск информации и ответы на вопросы пользователей. Этот текст представил вам таблицу лидеров по оценке ошибок в LLM, а также методологию, использованную для ее создания.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *