推广 热搜: 公司  快速  上海    未来  中国  企业  政策  教师  行业 

三、Follow-Your-Click:能够根据用户的点击和提示,使图像特定区域动起来

   日期:2024-03-17       caijiyuan   评论:0    移动:http://hond.cs-ej.cn/news/3463.html
核心提示:和昨天Deepmind发布的SIMA感觉非常像,功能都几乎差不多 但是Univers是OpenAI 2016年就已经发布并开源的一个项目通过模拟人类观

 

和昨天Deepmind发布的SIMA感觉非常像,功能都几乎差不多 但是Univers是OpenAI 2016年就已经发布并开源的一个项目

通过模拟人类观察屏幕和操作虚拟键盘鼠标,Universe允许AI代理像人类一样与计算机交互... 不需要任何API和特殊访问权限,只靠观察屏幕,和SIMA一样

 

 Universe的几个关键能力:

1、多样性的环境:Universe提供了一千个包括Flash游戏、浏览器任务和复杂游戏(如http://slither.io和GTA V)的环境,为AI提供了丰富的学习和测试场景。 2、人类操作方式的模拟:通过模拟人类观察屏幕像素和操作虚拟键盘鼠标的方式,Universe允许AI代理以与人类相似的方式与计算机交互,增强了AI的适用性和灵活性。

3、强化学习的广泛应用:数百个环境已经准备好用于强化学习,几乎所有环境都可以通过universe Python库免费运行,支持AI在多种任务上的学习和进步。 4、无需特殊访问权限:Universe可以通过自动启动程序在VNC远程桌面后面运行,不需要对程序内部、源代码或机器人API有特殊访问权限,这使得任何程序都可以转化为Gym环境进行AI训练。

5、支持广泛的环境接入:包括了上千种不同的环境,从简单的Flash游戏到复杂的网页任务,甚至包括流行的视频游戏。通过将任何游戏、网站或应用转化为Gym环境,Universe为AI的通用智能训练提供了几乎无限的可能性。同时还支持网页浏览、CAD软件设计、图片编辑程序操作或电子表格编辑。

6、与人类性能比较:由于Universe环境对人类来说是熟悉的,可以使用人类的表现作为有意义的基线,并通过简单保存VNC流量来记录人类演示,为AI提供学习和模仿的基础。 详细:https://openai.com/research/universe

 

 

 

还记得阿里巴巴那个 EMO:一张照片+音频即可生成会说话唱歌的视频的项目吗?Google的VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频 VLOGGER的独特之处在于:

  • 不需要针对每个人进行训练。
  • - 不依赖于面部检测和裁剪。
  • - 生成的是完整图像(而不仅仅是面部或嘴唇)。
  • - 考虑了一系列广泛的场景(例如,可见的躯干或多样的身份特征),这对于正确合成交流的人类至关重要。
  • 但是看演示视频,效果好像没有阿里的EMO好...
  • 项目地址:https://enriccorona.github.io/vlogger/
  • 论文:https://arxiv.org/abs/2403.08764

 

 

 

也就是指哪打哪... 通过点击和短提示,让图像的某一个部分按照你的指示动起来。 支持多种动作表达,如头部调整、翅膀拍动、微笑、悲伤、起飞、漂移、跳舞、来回驾驶等。

该项目由香港科技大学、腾讯、清华大学的研究者共同开发。

主要功能: 1、局部动画生成: "Follow-Your-Click"框架可以通过用户的点击和简短动作提示生成局部图像动画。这意味着用户可以选择图像的特定区域并指定如何动画化这些区域(例如,让物体微笑、跳舞或飘动)。 2、多对象动画: 除了能够控制单个对象的动画,这个框架还支持同时对多个对象进行动画处理,增加了动画的复杂性和丰富性。 3、用户友好的交互: 通过简单的点击和短语提示,用户可以轻松地指定希望动画化的区域和动作类型,无需复杂的操作或详细描述。

项目地址:https://follow-your-click.github.io

论文:https://arxiv.org/abs/2403.08268

GitHub:https://github.com/mayuelala/FollowYourClick

 

 

 

 

这个直接把AI实时画图商业化了 能够进行实时绘画,每一个笔触都能即时转化为数字画面,极大地提升了创作的直观性和互动性。 还能快速对图像进行增强和放大,提升效果和分辨率,可以直接打印。

主要特色:

1、实时绘画:借助AI的力量,你的每一笔都能即时反映在画布上,让你的创意瞬间变为现实。

2、快速增强和放大: 提供秒级的图像增强和放大功能,轻松生成适合打印的高质量作品。

3、直观设计与高级图层: 应用设计直观,支持高级图层操作,便于艺术家创作复杂作品。

4、自定义画笔: 提供丰富的自定义画笔,满足不同艺术风格和技巧的需求。

官网:http://musepro.app

 

 

 

开放API接口,1000,000 tokens 最低6元

 

 

 

速度最快最有性价比的型号 每百万输入token0.25美元,每百万输出token1.25美元。 Claude 3 Haiku只需1美元就可以处理和分析400起最高法院案件或2500张图片

本文地址:http://houdi.cs-ej.cn/news/3463.html    成事e家 http://houdi.cs-ej.cn/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号