Большая языковая модель БЯМ калька с англ large language model LLM это языковая модель состоящая из нейронной сети со мн

Большая языковая модель (БЯМ — калька с англ. large language model, LLM) — это (языковая модель), состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя. БЯМ появились примерно в 2018 году и хорошо справляются с широким спектром задач. Это сместило фокус исследований обработки естественного языка с предыдущей парадигмы обучения специализированных контролируемых моделей для конкретных задач.

Характеристики

Хотя термин большая языковая модель не имеет формального определения, он обычно относится к моделям глубокого обучения, имеющим количество параметров порядка миллиардов и более. БЯМ — это модели общего назначения, которые превосходно справляются с широким спектром задач, в отличие от обучения одной конкретной задаче (например, анализу настроений, распознаванию именованных сущностей или математическим рассуждениям). Несмотря на обучение на простых задачах, таких как предсказание следующего слова в предложении, нейронные языковые модели с достаточным обучением и подсчётом параметров схватывают большую часть синтаксиса и семантики человеческого языка. Кроме того, большие языковые модели демонстрируют значительные общие знания о мире и способны «запоминать» большое количество фактов во время обучения.

Архитектура и обучение

В БЯМ чаще всего использовалась архитектура трансформера, которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как (модели с долгой кратковременной памятью)). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере ), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту. В дополнение к задаче прогнозирования следующего слова или «» БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем (корпусе текстов).

Самые ранние БЯМ обучались на (корпусах), содержащих порядка миллиардов слов. Первоначальная версия (GPT) была обучена в 2018 году на , состоящем из 985 миллионов слов. В том же году прошёл обучение на сочетании BookCorpus и английской Википедии, что соответствовало 3,3 миллиарда слов. С тех пор учебные корпуса для БЯМ увеличились на порядки, достигнув сотен миллиардов или триллионов токенов.

Обучение БЯМ требует больших вычислительных ресурсов. Исследование 2020 года оценило стоимость обучения модели с 1,5 миллиардами параметров (на 1-2 порядка меньше, чем уровень техники в то время) в 1,6 миллиона долларов.

Анализ 2020 года показал, что возможности нейронных языковых моделей (измеряемые функцией потерь при обучении) плавно увеличивались по (степенному закону) от количества параметров, количества обучающих данных и вычислений, используемых для обучения. Эти связи были проверены в широком диапазоне значений (до семи порядков), и не наблюдалось затухания отношения на верхнем конце диапазона (в том числе для размеров сети до триллионов параметров).

Применение к последующим задачам

В период с 2018 по 2020 год стандартный метод использования БЯМ для конкретной задачи NLP заключался в модели с дополнительным обучением для конкретной задачи. Впоследствии обнаружилось, что более мощные БЯМ, такие как (GPT-3), могут решать задачи без дополнительного обучения с помощью методов «подсказки», в которых решаемая задача представляется модели в виде текстовой подсказки, возможно, с некоторыми текстовыми примерами подобных задач и их решений.

Тонкая настройка

Тонкая настройка — это практика модификации существующей предварительно обученной языковой модели путём её обучения (под наблюдением) конкретной задаче (например, анализ настроений, распознавание именованных объектов или маркировка частей речи). Это форма . Обычно это включает введение нового набора весов, связывающих последний слой языковой модели с выходными данными последующей задачи. Исходные веса языковой модели могут быть «заморожены», так что во время обучения изучается только новый слой весов, соединяющий их с выходными данными. В качестве альтернативы исходные веса могут получать небольшие обновления (возможно, с замороженными более ранними слоями).

Подсказка

В (парадигме подсказок), популяризированной (GPT-3), решаемая проблема формулируется с помощью текстовой подсказки, которую модель должна решить, предоставляя завершение (посредством (статистического вывода)). В «подсказке с несколькими выстрелами» подсказка включает небольшое количество примеров похожих пар (задача и решение). Например, задача анализа тональности маркировки тональности рецензии на фильм можно вызвать следующим образом:

Review: This movie stinks. Sentiment: negative Review: This movie is fantastic! Sentiment:

Если модель выдаёт «положительно», значит, она правильно решила задачу. В подсказках с «нулевым выстрелом» примеры решения не предоставляются. Примером с нулевой подсказкой для задачи с ответом на вопрос может быть «Кто написал книгу „Происхождение видов“?».

Было показано, что малая производительность БЯМ позволяет достигать конкурентоспособных результатов в задачах обработки естественного языка, иногда превосходя предыдущие современные подходы к точной настройке. Примерами таких задач NLP являются перевод, (ответы на вопросы), задачи с , расшифровка слов и использование нового слова в предложении. Создание и оптимизация таких подсказок называется (инжинирингом подсказок) и в настоящее время является активной областью исследований.

Список больших языковых моделей

Список больших языковых моделей
Название	Дата релиза	Разработчик	Число параметров	Размер корпуса текстов	Лицензия	Примечания
^[англ.]	2018	Google	340 миллионов	3,3 миллиарда слов	Apache 2.0	Ранняя и влиятельная языковая модель.
^[англ.]	2019	(OpenAI)	1,5 миллиарда	40GB (~10 миллиардов токенов)	MIT	Универсальная модель на базе трансформенной архитектуры.
(GPT-3)	2020	OpenAI	175 миллиардов	499 миллиардов токенов	Общедоступный веб-API	Доработанный вариант GPT-3, получивший название GPT-3.5, стал общедоступным через веб-интерфейс под названием (ChatGPT) в 2022 году.
GPT-Neo	Март 2021	^[англ.]	2,7 миллиарда	825 GiB	MIT	Первый из , выпущенных EleutherAI. GPT-Neo превзошёл модель GPT-3 аналогичного размера в некоторых тестах, но был значительно хуже, чем самая большая GPT-3.
(GPT-J)	Июнь 2021	^[англ.]	6 миллиардов	825 GiB	Apache 2.0	Языковая модель в стиле GPT-3.
Claude	Декабрь 2021	(Anthropic)	52 миллиарда	400 миллиардов токенов	Закрытая бета	Fine-tuned for desirable behavior in conversations.
GLaM (Generalist Language Model)	Декабрь 2021	Google	1,2 триллиона	1,6 триллиона токенов	Proprietary	Модель с разреженной смесью экспертов (англ. sparse mixture-of-experts mode), что делает её более дорогой для обучения, но более дешёвой для выполнения логического вывода по сравнению с GPT-3.
(LaMDA) (Language Models for Dialog Applications)	Январь 2022	Google	137 миллиардов	1,56T слов	Proprietary	Специализируется на генерации ответов в разговорах.
Megatron-Turing NLG	Октябрь 2021	Microsoft and Nvidia	530 миллиардов	338,6 миллиарда токенов	Restricted web access	Стандартная архитектура, но обученная на суперкомпьютерном кластере.
GPT-NeoX	Февраль 2022	^[англ.]	20 миллиардов	825 GiB	Apache 2.0	На базе архитектуры Megatron.
(Chinchilla)	Март 2022	(DeepMind)	70 миллиардов	1,3 триллиона токенов	Proprietary	Модель с уменьшенным количеством параметров, обученная на большем количестве данных.
(PaLM) (Pathways Language Model)	Апрель 2022	Google	540 миллиардов	768 миллиардов токенов	Proprietary	Направлена на достижение практических пределов масштаба модели.
OPT (Open Pretrained Transformer)	Май 2022	Meta	175 миллиардов	180 миллиардов токенов	Некоммерческое исследование	Архитектура GPT-3 с некоторыми адаптациями Megatron.
YaLM 100B	Июнь 2022	Яндекс	100 миллиардов	300 миллиардов токенов	Apache 2.0	75 % текста, использованного при обучении, написано на русском языке.
(BLOOM)	Июль 2022	Коллаборация под управлением (Hugging Face)	175 миллиардов	350 миллиардов токенов (1,6TB)	Responsible AI	По сути — GPT-3, но обучена многоязычному корпусу текстов (30 % английский, исключая языки программирования).
AlexaTM (Teacher Models)	Ноябрь 2022	Amazon	20 миллиардов	1,3 триллиона	Общедоступный веб-API	Двунаправленная архитектура «последовательность к последовательности».
LLaMA (Large Language Model Meta AI)	Февраль 2023	Meta	65 миллиардов	1,4 триллиона	Некоммерческое исследование	Обучена на большом корпусе из 20 языков, чтобы добиться лучшей производительности с меньшим количеством параметров.
(GPT-4)	Март 2023	OpenAI	Нет данных	Нет данных	Общедоступный веб-API	Доступна для пользователей ChatGPT Plus. Microsoft подтвердила, что в Bing Chat используется модель GPT-4.
StableLM	Апрель 2023	Stability-AI	7 миллиардов	800 миллиардов	Исходный код: Apache 2.0

Примечания

Это дата первого появления документации, описывающей архитектуру модели.
Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели, имеющих разные размеры. В этих случаях здесь указывается размер самой большой модели.
Это лицензия весов предварительно обученной модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведён.
Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
Лицензия Facebook и схема распространения ограничивали доступ к утвержденным исследователям, но веса моделей утекли и стали широко доступны.
Как указано в техническом отчёте: «Учитывая конкурентную среду и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчёт не содержит дополнительных сведений об архитектуре (включая размер модели), оборудовании, обучающих вычислениях, построении набора данных, методе обучения, или подобную информацию».

Источники

(2022). "Human Language Understanding & Reasoning". Daedalus. 17 ноября 2023. Дата обращения: 16 марта 2023.
Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar (2021). Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium. Vol. 6. (PDF) 21 декабря 2023. Дата обращения: 16 марта 2023.
Wei, Jason Emergent Abilities of Large Language Models (неопр.). Дата обращения: 16 марта 2023. 16 марта 2023 года.
Jurafsky, Dan. Speech and Language Processing / Dan Jurafsky, James H. Martin. — 3rd edition draft. — 7 January 2023. от 23 марта 2023 на Wayback Machine
Wiggers, Kyle The emerging types of language models and why they matter (неопр.). TechCrunch (28 апреля 2022). Дата обращения: 16 марта 2023. 16 марта 2023 года.
Ananthaswamy, Anil In AI, is bigger always better? (неопр.) Nature (8 марта 2023). Дата обращения: 16 марта 2023. 16 марта 2023 года.
Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Scaling Laws for Neural Language Models". CoRR. abs/2001.08361. arXiv:2001.08361. 15 марта 2023. Дата обращения: 16 марта 2023.
Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877—1901. (PDF) 17 ноября 2023. Дата обращения: 16 марта 2023.
Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
BERT (неопр.) (13 марта 2023). Дата обращения: 16 марта 2023. 13 января 2021 года.
GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. 14 ноября 2019 года.
Better language models and their implications (неопр.). openai.com. Дата обращения: 16 марта 2023. 16 марта 2023 года.
OpenAI's GPT-3 Language Model: A Technical Overview (англ.). lambdalabs.com. Дата обращения: 16 марта 2023. 27 марта 2023 года.
gpt-2 (неопр.). GitHub. Дата обращения: 13 марта 2023. 11 марта 2023 года.
ChatGPT: Optimizing Language Models for Dialogue (англ.). OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. 30 ноября 2022 года.
GPT Neo (неопр.) (15 марта 2023). Дата обращения: 16 марта 2023. 12 марта 2023 года.
Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027.
Iyer, Abhishek GPT-3’s free alternative GPT-Neo is something to be excited about (неопр.). VentureBeat (15 мая 2021). Дата обращения: 16 марта 2023. 9 марта 2023 года.
(англ.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
Product (англ.). Anthropic. Дата обращения: 14 марта 2023. 16 марта 2023 года.
Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861.
Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073.
Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM (англ.). ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. 12 марта 2023 года.
Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything (англ.). ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. 25 марта 2022 года.
Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model (неопр.). Microsoft Research (11 октября 2021). Дата обращения: 16 марта 2023. 13 марта 2023 года.
Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022-02-04). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". (arXiv):2201.11990 от 15 апреля 2023 на Wayback Machine
Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (2022-05-01). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Vol. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. pp. 95—136. 10 декабря 2022. Дата обращения: 19 декабря 2022.
Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training (неопр.). Deepmind Blog (12 апреля 2022). Дата обращения: 16 марта 2023. 13 апреля 2022 года.
Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan; Guy, Aurelia; Osindero, Simon; Simonyan, Karen; Elsen, Erich; Rae, Jack W.; Vinyals, Oriol; Sifre, Laurent (29 March 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556.
Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. 4 апреля 2022 года.
Democratizing access to large-scale language models with OPT-175B (англ.). ai.facebook.com. Дата обращения: 16 марта 2023. 12 марта 2023 года.
Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 June 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068.
Источник (неопр.). Дата обращения: 20 июля 2023. 20 июля 2023 года.
GitHub — yandex/YaLM-100B: Pretrained language model with 100B parameters (неопр.). Дата обращения: 20 июля 2023. 16 июня 2023 года.
bigscience/bloom · Hugging Face (неопр.). huggingface.co. Дата обращения: 16 марта 2023. 12 апреля 2023 года.
20B-parameter Alexa model sets new marks in few-shot learning (англ.). Amazon Science (2 августа 2022). Дата обращения: 16 марта 2023. 15 марта 2023 года.
Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 August 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448.
AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog (неопр.). aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. 13 марта 2023 года.
Introducing LLaMA: A foundational, 65-billion-parameter large language model (неопр.). Meta AI (24 февраля 2023). Дата обращения: 16 марта 2023. 3 марта 2023 года.
GPT-4 Technical Report (неопр.). (OpenAI) (2023). Дата обращения: 14 марта 2023. 14 марта 2023 года.
Lardinois, Frederic Microsoft’s new Bing was using GPT-4 all along (неопр.). TechCrunch (14 марта 2023). Дата обращения: 14 марта 2023. 15 марта 2023 года.
StableLM: Stability AI Language Models. — 2023-04-20. 20 апреля 2023 года.

[9] Это дата первого появления документации, описывающей архитектуру модели.

[10] Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели, имеющих разные размеры. В этих случаях здесь указывается размер самой большой модели.

[11] Это лицензия весов предварительно обученной модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведён.

[36] Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.

[44] Лицензия Facebook и схема распространения ограничивали доступ к утвержденным исследователям, но веса моделей утекли и стали широко доступны.

[46] Как указано в техническом отчёте: «Учитывая конкурентную среду и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчёт не содержит дополнительных сведений об архитектуре (включая размер модели), оборудовании, обучающих вычислениях, построении набора данных, методе обучения, или подобную информацию».

[Manning-2022-1] (2022). "Human Language Understanding & Reasoning". Daedalus. 17 ноября 2023. Дата обращения: 16 марта 2023.

[extracting-2] Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar (2021). Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium. Vol. 6. (PDF) 21 декабря 2023. Дата обращения: 16 марта 2023.

[emergent-3] Wei, Jason Emergent Abilities of Large Language Models (неопр.). Дата обращения: 16 марта 2023. 16 марта 2023 года.

[jm-4] Jurafsky, Dan. Speech and Language Processing / Dan Jurafsky, James H. Martin. — 3rd edition draft. — 7 January 2023. от 23 марта 2023 на Wayback Machine

[Wiggers-5] Wiggers, Kyle The emerging types of language models and why they matter (неопр.). TechCrunch (28 апреля 2022). Дата обращения: 16 марта 2023. 16 марта 2023 года.

[bigger-better-6] Ananthaswamy, Anil In AI, is bigger always better? (неопр.) Nature (8 марта 2023). Дата обращения: 16 марта 2023. 16 марта 2023 года.

[kaplan-scaling-7] Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Scaling Laws for Neural Language Models". CoRR. abs/2001.08361. arXiv:2001.08361. 15 марта 2023. Дата обращения: 16 марта 2023.

[few-shot-learners-8] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. 33. Curran Associates, Inc.: 1877—1901. (PDF) 17 ноября 2023. Дата обращения: 16 марта 2023.

[bert-paper-12] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 October 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].

[bert-web-13] BERT (неопр.) (13 марта 2023). Дата обращения: 16 марта 2023. 13 января 2021 года.

[15Brelease-14] GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. 14 ноября 2019 года.

[15] Better language models and their implications (неопр.). openai.com. Дата обращения: 16 марта 2023. 16 марта 2023 года.

[LambdaLabs-16] OpenAI's GPT-3 Language Model: A Technical Overview (англ.). lambdalabs.com. Дата обращения: 16 марта 2023. 27 марта 2023 года.

[17] t-2 (неопр.). GitHub. Дата обращения: 13 марта 2023. 11 марта 2023 года.

[chatgpt-blog-18] ChatGPT: Optimizing Language Models for Dialogue (англ.). OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. 30 ноября 2022 года.

[gpt-neo-19] GPT Neo (неопр.) (15 марта 2023). Дата обращения: 16 марта 2023. 12 марта 2023 года.

[Pile-20] Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (31 December 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027.

[vb-gpt-neo-21] Iyer, Abhishek GPT-3’s free alternative GPT-Neo is something to be excited about (неопр.). VentureBeat (15 мая 2021). Дата обращения: 16 марта 2023. 9 марта 2023 года.

[22] (англ.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.

[23] Product (англ.). Anthropic. Дата обращения: 14 марта 2023. 16 марта 2023 года.

[AnthroArch-24] Askell, Amanda; Bai, Yuntao; Chen, Anna; et al. (9 December 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861.

[25] Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; et al. (15 December 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073.

[glam-blog-26] Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM (англ.). ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. 12 марта 2023 года.

[lamda-blog-27] Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything (англ.). ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. 25 марта 2022 года.

[28] Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model (неопр.). Microsoft Research (11 октября 2021). Дата обращения: 16 марта 2023. 13 марта 2023 года.

[mtnlg-preprint-29] Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022-02-04). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". (arXiv):2201.11990 от 15 апреля 2023 на Wayback Machine

[“gpt-neox-20b”-30] Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (2022-05-01). GPT-NeoX-20B: An Open-Source Autoregressive Language Model. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Vol. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. pp. 95—136. 10 декабря 2022. Дата обращения: 19 декабря 2022.

[chinchilla-blog-31] Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training (неопр.). Deepmind Blog (12 апреля 2022). Дата обращения: 16 марта 2023. 13 апреля 2022 года.

[32] Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan; Guy, Aurelia; Osindero, Simon; Simonyan, Karen; Elsen, Erich; Rae, Jack W.; Vinyals, Oriol; Sifre, Laurent (29 March 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556.

[palm-blog-33] Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. 4 апреля 2022 года.

[34] Democratizing access to large-scale language models with OPT-175B (англ.). ai.facebook.com. Дата обращения: 16 марта 2023. 12 марта 2023 года.

[35] Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 June 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068.

[37] Источник (неопр.). Дата обращения: 20 июля 2023. 20 июля 2023 года.

[автоссылка1-38] GitHub — yandex/YaLM-100B: Pretrained language model with 100B parameters (неопр.). Дата обращения: 20 июля 2023. 16 июня 2023 года.

[39] science/bloom · Hugging Face (неопр.). huggingface.co. Дата обращения: 16 марта 2023. 12 апреля 2023 года.

[40] 20B-parameter Alexa model sets new marks in few-shot learning (англ.). Amazon Science (2 августа 2022). Дата обращения: 16 марта 2023. 15 марта 2023 года.

[41] Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; et al. (3 August 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448.

[42] AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog (неопр.). aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. 13 марта 2023 года.

[llama-blog-43] Introducing LLaMA: A foundational, 65-billion-parameter large language model (неопр.). Meta AI (24 февраля 2023). Дата обращения: 16 марта 2023. 3 марта 2023 года.

[GPT4Tech-45] GPT-4 Technical Report (неопр.). (OpenAI) (2023). Дата обращения: 14 марта 2023. 14 марта 2023 года.

[47] Lardinois, Frederic Microsoft’s new Bing was using GPT-4 all along (неопр.). TechCrunch (14 марта 2023). Дата обращения: 14 марта 2023. 15 марта 2023 года.

[:0-48] StableLM: Stability AI Language Models. — 2023-04-20. 20 апреля 2023 года.