Ai开源项目-cd解析，ai网站导航网 - 汇聚智能科技，一键直达未来网络世界

notesGPT，一个能够录下你的语音内容，然后自动帮助你把这些语音转成文字，对内容进行总结，创建具有视觉吸引力的文档，并能够添加图像、待办事项列表、图表、链接...

MoneyPrinter，一个自动创建YouTube短视频的自动化赚钱项目，只要输入视频文本MoneyPrinter即可自动产生与之相关的短视频。MoneyPr...

YOLO-World，腾讯ai实验室开发的一个实时目标检测工具，它能够自动识别和定位图像中的各种对象。YOLO-World在速度和准确性方面都优于许多最先进的方...

在人工智能领域，从语音中创建准确的面部唇部动作一直是一个持续的挑战。然而，突破已经到来——Media2Face。Media2Face是通过音频、文本和图像多模态...

Audio2Face，一款由ai驱动的应用程序，通过语音生成富有表现力的3D面部动画。Audio2Face 简化了 3D 角色的动画，以匹配任何画外音轨道，无论...

WhisperFusion 建立在开源工具 WhisperLive 和 WhisperSpeech 的功能之上。WhisperFusion可以让你和ai聊天机器...

StreamRAG，一个视频搜索和流媒体代理工具，StreamRAG 使您能够在 ChatGPT 中与您的视频库聊天并观看视频流。StreamRAG能够在数百小...

DuckDB-NSQL，一个专门为DuckDB数据库设计的文本到SQL的模型，你可以使用自然语言说描述你的需求，它会自动转换成SQL代码，也就是可以使用自然语言...

Diffuse to Choose主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节，并且能够进行准确的语义操作。Diffuse to Choose能让...

SupIR是一个通过增加模型规模来提升图像修复能力的技术，SupIR能够根据文本提示进行智能修复，提高图像修复的质量和智能程度。SupIR是一种突破性的图像恢复...

Lumiere是谷歌研究院团队开发的基于空间时间的文本到视频扩散模型。Lumiere采用了创新的空间时间U-Net架构，该架构通过模型中的单次传递一次性生成视频...

DiffusionGPT，字节跳动开发的由LLM驱动文本生成图像多合一系统，专门设计用于为不同的输入提示生成高质量的图像。其主要目标是解析输入提示并确定产生最优...

GPT-SoVITS，一个声音克隆和文本到语音转换的开源 Python RAG框架，只需1分钟语音即可训练一个自己的TTS模型。完美克隆你的声音！GPT-SoV...

LibreChat，一个增强版的ChatGPT程序，一个免费开源的聊天机器人平台，集成了多种 ai 模型，例如 ChatGPT、OpenAI、BingAI、Pa...

Motionshop，ai角色动画工具，通过先进的视频处理和3D渲染技术，Motionshop能够自动检测视频中的人物，并替换成3D卡通角色模型，生成有趣的AI...

PhotoMaker，利用多张照片作为身份ID，获取人物特征，然后根据描述生成符合描述的人物照片创造出一个新的、个性化的人物图像。PhotoMaker也能把几个...