预训练的相关内容 - 漫话开发者

2023-06-08 talkingdev

用Hiera简化视觉变换器，加速和提高图像和视频识别准确性

近日，研究人员在GitHub上发布了一篇名为“Hiera：简化视觉变换器，加速和提高图像和视频识别准确性”的论文。以下是该论文的三个核心要点： - Hiera是一种简化的视觉变换器，通过使用一个强大的视觉预文本任务（MAE...

2023-06-06 talkingdev

## 概述该指南分享了使用GPT时获得更好结果的策略和技巧。 ## 主要内容 - GPT简介 - 改进GPT结果的方法和技巧 - 最佳实践 ## GPT简介 - GPT是一种自然语言处理技术，可生成高质量的文本。 - GPT的工作原理是基于...

2023-06-02 talkingdev

内容摘要： - 研究介绍了一种名为“Occ-BEV”的自动驾驶预训练方法，旨在充分利用多个相机视角，而不仅仅是一个，从而捕捉周围环境的更准确理解。 - 该技术使用独特的3D解码器来预测环境的三维几何形状。 - 这一技术的...

2023-06-01 talkingdev

利用预训练的图像-文本扩散模型和生成对抗网络（GAN）进行训练，作者提出了一种创新的方法来创建高质量、个性化的3D头像。通过使用这些先进的模型，我们可以创建各种风格的多视角头像图像，从而实现多样性。 ## 核...

2023-05-30 talkingdev

近日，Sophia的官方实现已经上线，Sophia是一种可扩展的随机二阶优化器，用于语言模型预训练。以下是该实现的三个核心要点： - Sophia是一种适用于大规模语言模型预训练的随机二阶优化器； - Sophia的实现基于PyTor...

2023-05-16 talkingdev

近几个月来，视觉问答技术得到了广泛的应用和快速发展。这主要得益于像Blip和clip这样的预训练模型的出现。然而，将这些模型应用于视频问答仍然存在巨大的计算需求挑战。为了解决这个问题，研究人员引入了一系列不同...

2023-05-03 talkingdev

近日，研究人员开发出一种名为StyleAvatar的新方法，能够生成高保真的人像头像，并且能够控制表情变化。该方法采用了不同的网络组合，并结合了新的技术，如滑动窗口增强方法和预训练策略，生成了高质量的人像视频，...

2023-04-28 talkingdev

该研究介绍了一种技术，可以根据文本提示自动变形三角网格，利用可微分渲染和预训练图像编码器，如CLIP和DINO。通过使用雅可比矩阵进行网格变形表示，该方法实现了平滑变形，并避免了噪声梯度，从而实现了大的形状变...