Наконец-то кто-то прояснил статус-кво GPT! Последнее выступление Даниэля из OpenAI очень популярно, и это должно быть гениальное выступление Маска.

Источник: Кубит

После выпуска Windows Copilot популярность конференции Microsoft Build была взорвана выступлением.

Бывший директор Tesla AI Андрей Карпати в своем выступлении считал, что дерево мыслей похоже на Поиск по дереву Монте-Карло (MCTS) от AlphaGo!

Пользователи сети кричали: «Это самое подробное и интересное руководство по использованию большой языковой модели и модели GPT-4!

Кроме того, Karpathy сообщил, что из-за расширения обучения и данных LLAMA 65B «значительно мощнее, чем GPT-3 175B», и представил большую модель анонимной арены ChatBot Arena:

У Клода результаты между ChatGPT 3.5 и ChatGPT 4.

Пользователи сети отметили, что выступления Карпаты всегда были великолепны, и в этот раз, как всегда, содержание не разочаровало всех.

Вместе с речью стала популярной и заметка, составленная пользователями сети Twitter на основе выступления, всего 31 заметка, а количество репостов превысило 3000+:

Итак, что же конкретно было упомянуто в этой популярной речи?

Как обучить помощника GPT?

Выступление Карпаты на этот раз в основном разделено на две части.

Часть первая, он рассказал о том, как обучить «ассистента GPT».

Karpathy в основном описывает четыре этапа обучения помощников ИИ: предварительное обучение, контролируемая точная настройка, моделирование вознаграждения и обучение с подкреплением.

Для каждого этапа требуется набор данных.

На этапе предварительной подготовки требуется большое количество вычислительных ресурсов для сбора большого количества наборов данных. Обучите базовую модель на большом неконтролируемом наборе данных.

Карпаты дополняют его еще примерами:

Используя меньший контролируемый набор данных, точная настройка этой базовой модели с контролируемым обучением создает вспомогательную модель, которая может отвечать на вопросы.

Он также показал процесс эволюции некоторых моделей.Я думаю, что многие люди видели вышеприведенное изображение «дерева эволюции».

Карпати считает, что лучшей моделью с открытым исходным кодом в настоящее время является серия LLaMA от Meta (поскольку OpenAI ничего не открыл в отношении GPT-4).

Здесь необходимо четко указать, что базовая модель не является вспомогательной моделью.

Хотя базовая модель может ответить на вопрос, ответ, который она дает, ненадежен, и для ответа на вопрос можно использовать модель помощника. Модель-помощник, обученная на базовой модели с тонкой настройкой под наблюдением, превзойдет базовую модель в генерации ответов и понимании структуры текста.

Обучение с подкреплением — еще один важный процесс при обучении языковых моделей.

При обучении на высококачественных данных, помеченных человеком, моделирование вознаграждения можно использовать для создания функции потерь для повышения ее производительности. Затем проводится обучение с подкреплением путем увеличения положительной метки и уменьшения вероятности отрицательной метки.

В творческих задачах использование человеческого суждения имеет решающее значение для улучшения моделей ИИ, а добавление обратной связи с человеком может более эффективно обучать модели.

После интенсивного обучения с обратной связью можно получить модель RLHF.

После того, как модель обучена, следующим шагом будет то, как эффективно использовать эти модели для решения проблем.

Как лучше использовать модель?

Во Части второй Карпати фокусируется на стратегиях подсказок, тонкой настройке, быстрорастущей экосистеме инструментов и будущем расширении.

Карпаты привели конкретные примеры для иллюстрации:

Когда мы пишем статью, мы проведем много умственной деятельности, и нам нужно подумать, верно ли наше утверждение. Для GPT это просто последовательность токенов.

И hint() может компенсировать эту когнитивную разницу.

Далее Карпати объясняет, как работает подсказка цепочка мыслей.

Для задач логического вывода, если вы хотите, чтобы Transformer работал лучше при обработке естественного языка, вам нужно позволить ему обрабатывать информацию шаг за шагом, вместо того, чтобы напрямую бросать ему очень сложную задачу.

Если вы дадите ему несколько примеров, он будет имитировать шаблон этого примера, и окончательные сгенерированные результаты будут лучше.

Модель может отвечать на вопросы только в своей последовательности, и если то, что она генерирует, неверно, вы можете запросить ее повторную генерацию.

Если вы не попросите его проверить, он сам не проверит.

Это касается вопросов 1 и 2.

Даниэль Канеман, лауреат Нобелевской премии по экономике, в книге «Думай быстро и медленно» предположил, что когнитивная система человека включает две подсистемы, 1 и 2. 1 в основном основан на интуиции, а 2 — на системе логического анализа.

С точки зрения непрофессионала, 1 — это быстрый и автоматический процесс, а 2 — хорошо продуманная часть.

Об этом также упоминается в недавней популярной статье «Древо мысли».

«Вдумчивый» означает не просто дать ответ на вопрос, а скорее использовать с связующим кодом Python, связывая многие из них вместе. Модель должна поддерживать несколько подсказок и выполнять некоторый алгоритм поиска по дереву, чтобы определить, какие подсказки следует расширить.

Карпати считает, что этот ход мыслей очень похож на AlphaGo:

Когда AlphaGo играет в го, необходимо учитывать, где будет стоять следующая фигура. Первоначально он учился, подражая людям. Но вдобавок ко всему, он выполняет поиск по дереву Монте-Карло, что приводит к стратегиям с множеством возможностей. Он может оценить несколько возможных ходов и оставить только те стратегии, которые лучше. Я думаю, что это своего рода эквивалент AlphaGo.

В связи с этим Карпаты также упомянули AutoGPT:

Я не думаю, что это работает очень хорошо на данный момент, и я не рекомендую его для практического использования. Я просто думаю, что со временем мы сможем черпать вдохновение из того, что происходит.

Во-вторых, есть еще один небольшой переворот, который заключается в расширенной генерации поиска (retri agumented Generation) и эффективных подсказках.

Содержимое контекста окна — это рабочая память преобразователей во время выполнения, и если вы можете поместить в контекст информацию, относящуюся к задаче, он будет работать очень хорошо, поскольку имеет непосредственный доступ к этой информации.

Короче говоря, связанные данные могут быть проиндексированы, чтобы обеспечить эффективный доступ к моделям.

Было бы лучше, если бы у Transformers также был основной документ, на который можно было бы ссылаться.

Наконец, Карпати кратко рассказал об ограничении и тонкой настройке больших языковых моделей. Большие языковые модели можно улучшить с помощью подсказок ограничений и точной настройки. Подсказка ограничений обеспечивает соблюдение шаблонов в выходных данных больших языковых моделей, а тонкая настройка корректирует веса модели для повышения производительности.

Я рекомендую использовать большие языковые модели для приложений с низкими ставками, всегда сочетая их с человеческим контролем, рассматривая их как источник вдохновения и совета, рассматривая вторых пилотов, а не делая их полностью автономными агентами.

Об Андрее Карпатах

Первой работой доктора Андрея Карпати после выпуска было изучение компьютерного зрения в OpenAI.

Позже Маск, один из сооснователей OpenAI, облюбовал Карпаты и перекопал людей в Теслу. Но также из-за этого инцидента Маск и OpenAI окончательно разошлись, и их окончательно выгнали. В Tesla Карпати возглавляет такие проекты, как Autopilot и FSD.

В феврале этого года, через семь месяцев после ухода из Tesla, Карпати снова присоединился к OpenAI.

Недавно он написал в Твиттере, что в настоящее время существует большой интерес к разработке экосистемы моделей больших языков с открытым исходным кодом, что немного похоже на признак раннего кембрийского взрыва.

Портал: [1] речевое видео) [2] мысль" сочинение)

Справочная ссылка: [1]

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить