1. ZipLM: аппаратно-зависимая структурная обрезка языковых моделей (arXiv)

Автор: Эльдар Куртич, Элиас Франтар, Дэн Алистарх.

Аннотация: Революционная производительность больших языковых моделей (LLM) связана с большими вычислительными затратами и высокими затратами на развертывание. В этой статье мы продвигаемся к решению этой проблемы, предлагая новый структурированный подход к сжатию для LLM, называемый ZipLM, который обеспечивает самые современные результаты сжатия и точности, гарантируя соответствие набору (достижимых) целевых показателей. ускорения на любом заданном целевом оборудовании. В частности, учитывая задачу, модель, среду логического вывода, а также набор целей ускорения, ZipLM выявляет и удаляет избыточность в модели посредством итеративного структурированного сжатия весовых матриц модели. Важно отметить, что ZipLM работает как в режиме постобучения/однократного сжатия, так и в режиме постепенного сжатия, где он создает набор точных моделей за один прогон, что делает его высокоэффективным на практике. Наш подход основан на новых методах структурного сокращения и дистилляции знаний и неизменно превосходит предыдущие методы структурированного сжатия с точки зрения соотношения точности и скорости в экспериментах на моделях семейства BERT и GPT. В частности, при сжатии модель GPT2 превосходит DistilGPT2, будучи на 60% меньше и на 30% быстрее. Кроме того, ZipLM соответствует производительности сильно оптимизированной модели MobileBERT, полученной в результате расширенного поиска архитектуры, путем простого сокращения базовой архитектуры BERT-large и превосходит все предыдущие методы сжатия на основе BERT, такие как CoFi, MiniLM и TinyBERT.

2. О применимости языковых моделей к блочным программам (arXiv)

Автор: Элизабет Грибль, Бенедикт Фейн, Флориан Обермюллер, Гордон Фрейзер, Рене Жюст.

Аннотация: Блочные языки программирования, такие как Scratch, становятся все более популярными для обучения программированию и программирования для конечных пользователей. Недавний анализ программ основан на понимании того, что исходный код можно смоделировать с использованием методов обработки естественного языка. Многие закономерности исходного кода, поддерживающие этот подход, обусловлены синтаксическими издержками, накладываемыми текстовыми языками программирования. Однако именно эти синтаксические издержки устраняются в блочных языках для упрощения программирования. Следовательно, неясно, насколько хорошо этот подход к моделированию работает на блочных языках программирования. В этой статье мы исследуем применимость языковых моделей для популярного блочного языка программирования Scratch. Мы моделируем программы Scratch, используя модели n-грамм, наиболее важный тип языковой модели, и преобразователи, популярную модель глубокого обучения. Оценка на примерах задач завершения кода и поиска ошибок подтверждает, что блоки препятствуют предсказуемости, но тем не менее использование языковых моделей возможно. Наши результаты служат основой для улучшения инструментов и анализа для блочных языков.