Llama3是一种革命性的新技术,它通过使用Unsloth进行微调,可以在保持相同的计算效率的同时,显著降低VRAM的使用量。最近的研究表明,使用Unsloth微调Llama3可以使上下文长度增长六倍,这比HF的flash attention技术...
Read MoreAphrodite引擎可以用于减少VRAM需求,提高AI推理工作负载的吞吐量。Pygmalion推理引擎是一种全新的AI推理引擎,它可以在减少VRAM需求的同时提高吞吐量。该引擎基于Aphrodite引擎并进行了优化,可以在保持准确性的同...
Read More稳定性人工智能发布了一种新的人工智能模型,用于生成比以往更逼真的图像。该模型名为SDXL 0.9,可以根据基于文本的提示创建图像,这些图像比以前的模型更美观,并具有更多的构图细节。据悉,Stable Diffusion的下一...
Read More