Оценка глючности в LLM: таблица лидеров и методология

Крупнейший веб-сервис для хостинга IT-проектов и их совместной разработки GitHub на днях представил оценку качества работы нейросетей. Исследование оценки «глючности» в больших языковых моделях (LLM) представляет интерес для многих областей применения. Этот текст представляет собой детальное рассмотрение таблицы лидеров, созданной на основе результатов оценки галлюцинации в LLM, а также методологии, использованный для ее составления.

Таблица Лидеров

В таблице представлены различные LLM и их оценки в различных категориях:

Модель	Точность	Частота ошибок	Скорость Ответа	Средняя Длина Резюме (Слова)
GPT 4	97.0 %	3.0 %	100.0 %	81.1
GPT 3.5	96.5 %	3.5 %	99.6 %	84.1
Llama 2 70B	94.9 %	5.1 %	99.9 %	84.9
Llama 2 7B	94.4 %	5.6 %	99.6 %	119.9
Llama 2 13B	94.1 %	5.9 %	99.8 %	82.1
Cohere-Chat	92.5 %	7.5 %	98.0 %	74.4
Cohere	91.5 %	8.5 %	99.8 %	59.8
Anthropic Claude 2	91.5 %	8.5 %	99.3 %	87.5
Mistral 7B	90.6 %	9.4 %	98.7 %	96.1
Google Palm	87.9 %	12.1 %	92.4 %	36.2
Google Palm-Chat	72.8 %	27.2 %	88.8 %	221.1

Таблица отображает результаты оценки, включая точность (то, насколько ответы LLM фактические), частоту ошибок (процент ответов, содержащих недостоверную информацию), скорость ответа (процент запросов, на которые модель ответила), и среднюю длину резюме, выдаваемого каждой моделью.

Методология

Для создания этой таблицы лидеров была использована следующая методология:

Модели LLM были обучены на обнаружение ошибок в их выходных данных.
Были использованы различные общедоступные наборы данных для исследования фактической согласованности моделей при создании кратких резюме.
1000 коротких документов были поданы на каждую из моделей через их общедоступные API, и модели были попрошены составить краткие резюме, используя только факты из документа.
831 из этих документов были резюмированы всеми моделями, остальные документы были отклонены хотя бы одной моделью из-за ограничений на контент.
На основе этих 831 документа были вычислены общая точность (без ошибок) и частота багов (100 минус точность) для каждой модели.

Еще в тему: Лучшие расширения для Chrome в 2023 году

Этот метод позволил определить, насколько достоверны и надежны различные LLM при составлении кратких резюме документов. Оценивалась именно фактическая согласованность резюме с исходным документом, что позволяет оценить, насколько модели предоставляют точные и правдивые ответы.

Использование API и дополнительная информация

Для оценки LLM, были использованы различные API, включая API для GPT 3.5, GPT 4, Llama, Cohere, Anthropic, Mistral и Google Palm. Каждая из моделей имеет свои особенности и характеристики.

Более подробную информацию о моделях, использованных для оценки, и спецификациях их API можно найти в разделе «API Details».

Оценка «глючности» в LLM является важной задачей, поскольку эти модели широко используются в различных системах и задачах, включая поиск информации и ответы на вопросы пользователей. Этот текст представил вам таблицу лидеров по оценке ошибок в LLM, а также методологию, использованную для ее создания.

Оценка «глючности» нейросетей: таблица лидеров и методология

Таблица Лидеров

Методология

Использование API и дополнительная информация

Похожая запись

Google представил Gemini 1.5: Новое поколение модели с улучшенной производительностью

DuckDuckGo представил приватную синхронизацию закладок и паролей

Создание WhatsApp Flow: простой гайд

Добавить комментарий Отменить ответ

Вы могли пропустить

Обновление таргетинга по местоположению в Директе: новые возможности для рекламодателей

Обновление системы управления контентом DataLife Engine

Новости релиза Joomla 5.0.3 и 4.4.3

WordPress 6.5 Beta 2: новое обновление для тестирования