文中对推理(inference)效率的分析颇具看点:在大约1000个token数左右,新模型理论上需要的计算资源就比LLama2-7b具备优势,且之后随着下上文中token数越大,新模型优势越大。具体结果见论文中的图15,其中的蓝色表示LLama2- ...