主页 > 软件开发 >

【AI大模型】大模型基础论文全集

软件开发
2025-09-08 19:18:01

大模型基础论文列表

语言模型基础

基于统计方法的语言模型

基于 RNN 的语言模型

基于 Transformer 的语言模型

语言模型的采样方法

语言模型的评测

大语言模型

大数据+大模型→新智能

大语言模型架构概览

基于 Encoder-only 架构的大语言模型

基于 Encoder-Decoder 架构的大语言模型

基于 Decoder-only 架构的大语言模型

非 Transformer 架构

Prompt 工程

Prompt 工程简介

上下文学习

思维链

Prompt 技巧

相关应用

参数高效微调

参数高效微调简介

参数附加方法

参数选择方法

低秩适配方法

实践与应用

模型编辑

模型编辑简介

模型编辑经典方法

附加参数法：T-Patcher

定位编辑法：ROME

模型编辑应用

检索增强生成

检索增强生成简介

检索增强生成架构

知识检索

生成增强

实践与应用

语言模型基础基于统计方法的语言模型

Foundations of statistical natural language processing. BOOKChris Manning, Hinrich Sch{"{u}}tze [PDF], 1999

Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition.Third Edition. BOOKDaniel Jurafsky, James H. Martin [PDF], 2023

基于 RNN 的语言模型

A learning algorithm for continually running fully recurrent neural networks. Neural computationRJ Williams, D Zipser. [PDF], 1989

Long Short-Term Memory. Neural ComputingSepp Hochreiter, J{"{u}}rgen Schmidhuber [PDF], 1997

On the difficulty of training Recurrent Neural Networks. ICMLRazvan Pascanu, Tomas Mikolov, Yoshua Bengio. [PDF], 2012

Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXivJunyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio [PDF], 2014

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks. NeurIPSSamy Bengio, Oriol Vinyals, Navdeep Jaitly, Noam Shazeer [PDF], 2015

基于 Transformer 的语言模型

Layer Normalization. arXivJimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton [PDF], 2016

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. JMLRColin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. [PDF], 2019

Transformer Feed-Forward Layers Are Key-Value Memories. EMNLPMor Geva, Roei Schuster, Jonathan Berant, Omer Levy [PDF], 2021

ResiDual: Transformer with Dual Residual Connections. arXivShufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan. [PDF], 2023

语言模型的采样方法

Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models. AAAIAshwin K Vijayakumar, Michael Cogswell, Ramprasath R. Selvaraju, Qing Sun, Stefan Lee, David Crandall, Dhruv Batra. [PDF], 2018

The Curious Case of Neural Text Degeneration. ICLRAri Holtzman, Jan Buys, Li Du, Maxwell Forbes, Yejin Choi [PDF], 2020

语言模型的评测

Perplexity—a Measure of the Difficulty of Speech Recognition Tasks. JASAF. Jelinek, R. L. Mercer, L. R. Bahl, J. K. Baker [PDF], 1997

ROUGE: A Package for Automatic Evaluation of Summaries. ACLChin-Yew Lin [PDF], 2004

BLEU might be Guilty but References are not Innocent. EMNLPMarkus Freitag, David Grangier, Isaac Caswell [PDF], 2020

BERTScore: Evaluating Text Generation with BERT. ICLRTianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi. [PDF], 2020

Leveraging Large Language Models for NLG Evaluation: Advances and Challenges. arXivZhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Yuxuan Lai, Chongyang Tao, Shuai Ma [PDF], 2024

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment. EMNLPYang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, Chenguang Zhu [PDF], 2023

INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with Automatic Feedback. EMNLPWenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag, William Wang, Lei Li. [PDF], 2023

大语言模型大数据+大模型→新智能

Scaling laws for neural language models. arXivJared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, Dario Amodei. [PDF], 2020.

Training Compute-Optimal Large Language Models arXivJordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre. [PDF], 2022.

PaLM 2 Technical Report. arXivGoogle. [PDF], 2023.

大语言模型架构概览

Attention is all you need. NeurIPSVaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, Lukasz and Polosukhin, Illia. [PDF], 2017.

基于 Encoder-only 架构的大语言模型

A survey on contextual embeddings. arXivQi Liu, Matt J. Kusner, Phil Blunsom. [PDF], 2020.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. [PDF][Code], 2018.

RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. [PDF][Code], 2019.

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. arXiv Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut. [PDF][Code], 2019.

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. arXiv Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning. [PDF][Code], 2020.

基于 Encoder-Decoder 架构的大语言模型

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXivColin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. [PDF][Code], 2019.

Multitask Prompted Training Enables Zero-Shot Task Generalization. arXivVictor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Tali Bers, Stella Biderman, Leo Gao, Thomas Wolf, Alexander M. Rush. [PDF][Code], 2021.

mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. NAACLLinting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel. [PDF][Code], 2021.

Scaling Instruction-Finetuned Language Models. Journal of Machine Learning ResearchHyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Alex Castro-Ros, Marie Pellat, Kevin Robinson, Dasha Valter, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei. [PDF][Code], 2024.

Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. ACLMike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer. [PDF][Code], 2020.

Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational LinguisticsYinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, Luke Zettlemoyer. [PDF][Code], 2020.

基于 Decoder-only 架构的大语言模型

Improving language understanding by generative pre-training. OnlineAlec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. [PDF], 2018.

Language models are unsupervised multitask learners. OnlineAlec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. [PDF], 2019.

Language models are few-shot learners. NeurIPSTom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. [PDF], 2020.

Evaluating Large Language Models Trained on Code. arXivMark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba. [PDF], 2021.

WebGPT: Browser-assisted question-answering with human feedback. arXivReiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman. [PDF], 2021.

Training language models to follow instructions with human feedback. NeurIPSLong Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. [PDF], 2022.

Introducing chatgpt. OnlineOpenAI. [PDF], 2023.

Gpt-4 technical report. OnlineOpenAI. [PDF], 2023.

Gpt-4 technical report. OnlineOpenAI. [PDF], 2024.

LLaMA: Open and Efficient Foundation Language Models. arXivHugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. [PDF][Code], 2023.

Llama 2: Open Foundation and Fine-Tuned Chat Models. arXivHugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. [PDF][Code], 2023.

Introducing Meta Llama 3: The most capable openly available LLM to date. OnlineMeta AI. [PDF][Code], 2024.

Alpaca: A Strong, Replicable Instruction-Following Model. OnlineRohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto. [PDF][Code], 2023.

Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality. OnlineThe Vicuna Team. [PDF][Code], 2023.

QLoRA: Efficient Finetuning of Quantized LLMs. arXivTim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer. [PDF][Code], 2023.

Code Llama: Open Foundation Models for Code. arXivBaptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve. [PDF][Code], 2023.

A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3. arXivHa-Thanh Nguyen. [PDF], 2023.

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks. arXivTiedong Liu, Bryan Kian Hsiang Low. [PDF][Code], 2023.

Visual instruction tuning. NeurIPSHaotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee. [PDF][Code], 2023.

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXivDeyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny. [PDF][Code], 2023.

非 Transformer 架构

Efficiently modeling long sequences with structured state spaces. arXivAlbert Gu, Karan Goel, Christopher Ré. [PDF][Code], 2021.

On the Parameterization and Initialization of Diagonal State Space Models. NeurIPSAlbert Gu, Karan Goel, Ankit Gupta, Christopher Ré. [PDF], 2022.

RWKV: Reinventing RNNs for the Transformer Era. EMNLPBo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Leon Derczynski, Xingjian Du, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Jiaju Lin, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Johan S. Wind, Stanislaw Wozniak, Zhenyuan Zhang, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu [PDF][Code], 2023.

Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXivAlbert Gu, Tri Dao. [PDF][Code], 2023.

Learning to (Learn at Test Time): RNNs with Expressive Hidden States. arXivYu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, et al. [PDF][Code], 2024.

Prompt 工程 Prompt 工程简介

A Survey of Large Language Models. arXiv

Wayne Xin Zhao, Qian Liu, Zhicheng Dou, Jian-Yun Nie, and Ji-Rong Wen.[PDF], 2023.

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models EMNLP

Huiqiang Jiang, Qianhui Wu, Chin-Yew Lin, Yuqing Yang, Lili Qiu. [PDF] [Code], 2023.

FIT-RAG: Black-Box RAG with Factual Information and Token Reduction. arXiv

Yuren Mao, Xuemei Dong, Wenyi Xu, Yunjun Gao, Bin Wei, Ying Zhang.[PDF], 2024.

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model arXiv

DeepSeek-AI. [PDF] [Code], 2024.

Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. EMNLP

Tao Yu, Rui Zhang, Kai Yang, Michihiro Yasunaga, Dongxu Wang, Zifan Li, James Ma, Irene Li, Qingning Yao, Shanelle Roman, Zilin Zhang, Dragomir Radev.[PDF] [Code], 2018.

Measuring Massive Multitask Language Understanding ICLR

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt. [PDF] [Code], 2021.

FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis. SIGMOD

Chao Zhang, Yuren Mao, Yijiang Fan, Yu Mi, Yunjun Gao, Lu Chen, Dongfang Lou, Jinshu Lin.[PDF] [Code], 2024.

Alpaca: A strong, replicable instruction-following model. Stanford Center for Research on Foundation Models

Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, and Percy Liang.[PDF] [Code], 2023.

Wizardcoder: Empowering code large language models with evol-instruct. arXiv

Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang.[PDF] [Code], 2023.

Generative Agents: Interactive Simulacra of Human Behavior. UIST

Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein.[PDF] [Code], 2023.

上下文学习

Language Models are Few-Shot Learners NeurIPS

Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. [PDF] [Code], 2020.

An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR

Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma.[PDF], 2022.

In-context Learning with Retrieved Demonstrations for Language Models: A Survey. arXiv

Man Luo, Xin Xu, Yue Liu, Panupong Pasupat, Mehran Kazemi.[PDF], 2024.

What Makes Good In-Context Examples for GPT-3? ACL

Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, Weizhu Chen.[PDF] [Code], 2022.

Self-Prompting Large Language Models for Zero-Shot Open-Domain QA arXiv

Junlong Li, Jinyuan Wang, Zhuosheng Zhang, Hai Zhao. [PDF] [Code], 2024.

Long Short-Term Memory Neural Computation

Sepp Hochreiter, Jürgen Schmidhuber. [PDF] [Code], 1997.

The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis. arXiv

Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He.[PDF], 2024.

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model. NAACL

Seongjin Shin, Sang-Woo Lee, Hwijeen Ahn, Sungdong Kim, HyoungSeok Kim, Boseop Kim, Kyunghyun Cho, Gichang Lee, Woomyoung Park, Jung-Woo Ha, Nako Sung.[PDF], 2022.

Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression. NeurIPS

Allan Raventós, Mansheej Paul, Feng Chen, Surya Ganguli.[PDF] [Code], 2023.

Data Distributional Properties Drive Emergent In-Context Learning in Transformers NeurIPS

Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh, Pierre H. Richemond, Jay McClelland, Felix Hill. [PDF] [Code], 2022.

Emergent Abilities of Large Language Models. Transaction of Machine Learning Research

Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus.[PDF], 2022.

In-Context Learning Learns Label Relationships but Is Not Conventional Learning arXiv

Jannik Kossen, Yarin Gal, Tom Rainforth. [PDF] [Code], 2024.

Ground-Truth Labels Matter: A Deeper Look into Input-Label Demonstrations. EMNLP

Kang Min Yoo, Junyeob Kim, Hyuhng Joon Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-Woo Lee, Sang-goo Lee, Taeuk Kim.[PDF], 2022.

What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning. ACL

Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen.[PDF] [Code], 2023.

Emergent Abilities of Large Language Models. Transaction of Machine Learning Research

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? EMNLP

Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, Luke Zettlemoyer.[PDF] [Code], 2022.

Unified Demonstration Retriever for In-Context Learning. ACL

Xiaonan Li, Kai Lv, Hang Yan, Tianyang Lin, Wei Zhu, Yuan Ni, Guotong Xie, Xiaoling Wang, Xipeng Qiu.[PDF] [Code], 2023.

Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. ACL

Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, Pontus Stenetorp.[PDF] [Code], 2022.

思维链

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou.[PDF], 2022.

Large Language Models are Zero-Shot Reasoners NeurIPS

Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. [PDF] [Code], 2022.

Automatic Chain of Thought Prompting in Large Language Models. ICLR

Zhuosheng Zhang, Aston Zhang, Mu Li, Alex Smola.[PDF] [Code], 2023.

Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS

Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan.[PDF] [Code], 2023.

Graph of Thoughts: Solving Elaborate Problems with Large Language Models AAAI

Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Michal Podstawski, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Hubert Niewiadomski, Piotr Nyczyk, Torsten Hoefler. [PDF] [Code], 2024.

Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou.[PDF], 2023.

Prompt 技巧

Lost in the middle: How language models use long contexts. Transactions of the Association for Computational Linguistics

Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang.[PDF] [Code], 2024.

C3: Zero-shot Text-to-SQL with ChatGPT arXiv

Xuemei Dong, Chao Zhang, Yuhang Ge, Yuren Mao, Yunjun Gao, Lu Chen, Jinshu Lin, Dongfang Lou. [PDF] [Code], 2023.

PaLM: Scaling Language Modeling with Pathways Journal of Machine Learning Research

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel. [PDF] [Code], 2023.

Better Zero-Shot Reasoning with Role-Play Prompting arxiv

Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou, Enzhi Wang, Xiaohang Dong. [PDF] [Code], 2023.