Крупнейший веб-сервис для хостинга IT-проектов и их совместной разработки GitHub на днях представил оценку качества работы нейросетей. Исследование оценки «глючности» в больших языковых моделях (LLM) представляет интерес для многих областей применения. Этот текст представляет собой детальное рассмотрение таблицы лидеров, созданной на основе результатов оценки галлюцинации в LLM, а также методологии, использованный для ее составления.
Таблица Лидеров
В таблице представлены различные LLM и их оценки в различных категориях:
Модель | Точность | Частота ошибок | Скорость Ответа | Средняя Длина Резюме (Слова) |
---|---|---|---|---|
GPT 4 | 97.0 % | 3.0 % | 100.0 % | 81.1 |
GPT 3.5 | 96.5 % | 3.5 % | 99.6 % | 84.1 |
Llama 2 70B | 94.9 % | 5.1 % | 99.9 % | 84.9 |
Llama 2 7B | 94.4 % | 5.6 % | 99.6 % | 119.9 |
Llama 2 13B | 94.1 % | 5.9 % | 99.8 % | 82.1 |
Cohere-Chat | 92.5 % | 7.5 % | 98.0 % | 74.4 |
Cohere | 91.5 % | 8.5 % | 99.8 % | 59.8 |
Anthropic Claude 2 | 91.5 % | 8.5 % | 99.3 % | 87.5 |
Mistral 7B | 90.6 % | 9.4 % | 98.7 % | 96.1 |
Google Palm | 87.9 % | 12.1 % | 92.4 % | 36.2 |
Google Palm-Chat | 72.8 % | 27.2 % | 88.8 % | 221.1 |
Таблица отображает результаты оценки, включая точность (то, насколько ответы LLM фактические), частоту ошибок (процент ответов, содержащих недостоверную информацию), скорость ответа (процент запросов, на которые модель ответила), и среднюю длину резюме, выдаваемого каждой моделью.
Методология
Для создания этой таблицы лидеров была использована следующая методология:
- Модели LLM были обучены на обнаружение ошибок в их выходных данных.
- Были использованы различные общедоступные наборы данных для исследования фактической согласованности моделей при создании кратких резюме.
- 1000 коротких документов были поданы на каждую из моделей через их общедоступные API, и модели были попрошены составить краткие резюме, используя только факты из документа.
- 831 из этих документов были резюмированы всеми моделями, остальные документы были отклонены хотя бы одной моделью из-за ограничений на контент.
- На основе этих 831 документа были вычислены общая точность (без ошибок) и частота багов (100 минус точность) для каждой модели.
Этот метод позволил определить, насколько достоверны и надежны различные LLM при составлении кратких резюме документов. Оценивалась именно фактическая согласованность резюме с исходным документом, что позволяет оценить, насколько модели предоставляют точные и правдивые ответы.
Использование API и дополнительная информация
Для оценки LLM, были использованы различные API, включая API для GPT 3.5, GPT 4, Llama, Cohere, Anthropic, Mistral и Google Palm. Каждая из моделей имеет свои особенности и характеристики.
Более подробную информацию о моделях, использованных для оценки, и спецификациях их API можно найти в разделе «API Details».
Оценка «глючности» в LLM является важной задачей, поскольку эти модели широко используются в различных системах и задачах, включая поиск информации и ответы на вопросы пользователей. Этот текст представил вам таблицу лидеров по оценке ошибок в LLM, а также методологию, использованную для ее создания.