36氪获悉,HiDream.ai近期已完成新一轮融资,由科大讯飞创投基金领投,将门创投等多家机构跟投。

  从创立到现在,HiDream.ai半年内已完成两轮融资,先后由阿尔法公社和讯飞创投领投,累计融资额近亿元人民币。本轮融资将用于产品研发、电商场景的市场拓展和C端产品出海方向的发展等。

  HiDream.ai是36氪多次报道的企业,是一家定位于围绕视觉方向,打造生成式多模态基础模型及应用的初创公司,由前京东集团副总裁、京东探索研究院副院长梅涛博士于2023年初创立。

  梅涛博士是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒体领域荣获国际最佳论文奖最多的华人学者(15项),也是科技部科技创新2030人工智能重大项目首席科学家。HiDream.ai团队中,博士、硕士占90%以上,核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球500强公司的核心技术团队。

  自去年ChatGPT点燃全球大模型领域浪潮以来,如今模型层已经从原来的纯文字大模型,逐步走到多模态(包括文字、图像、视频、3D模型等)大模型的探索,包括OpenAI的GPT-4、谷歌近期发布的Gemini等都走向了这一道路。而在生成式图像、视频这一细分赛道,Runway、Pika等应用近期引起全球关注,也正是多模态领域模型技术和产品化进展飞快的证明。

  “当前,大公司的主要精力还是在大语言模型,还无暇顾及视觉多模态生成。虽然最近多模态大模型进展迅猛,但主要还是在追求通用人工智能,特别是多模态内容的理解和识别。而HiDream.ai从成立之日起就立志做自研的生成式多模态基础模型,聚焦多模态内容生成,是国内这个领域起步最早的初创公司。”HiDream.ai创始人兼CEO梅涛对36氪表示, “半年前,大家普遍觉得视频领域的大模型应用很难,但这个领域的进展比大家想象中的都要快。”

  从3月成立以来,如今HiDream.ai已经形成了清晰的多模态大模型+应用的布局。当前,HiDream.ai底层的自研视觉大模型具备文本、图像、视频、3D四种模态,其参数已经超过100亿,每两周就会进行一次迭代。在全球范围基于Diffusion框架开发的视觉生成式大模型中,HiDream.ai的参数规模也是位于前列。在香港中文大学主导构建的文生图测试集上,HiDream.ai在总共三项指标中(人类主观偏好HPS、文图匹配相关性CLIP、图像美感Aesthetic),有两项已经超过了Midjourney V5和Dall-E 3,整体处于领先位置,特别是反映综合水平的HPS指标,HiDream.ai位居第一。

  国内AIGC市场从去年的文生图热潮,现在也走到了对视频生成的探索上。“但视频想要做好的话,一定要有一个比较好的图片基础模型。”梅涛表示。“这是因为,视频是由连续的图片组合而成的,如今想要生成视频,用户通常更偏向于先生成一个关键帧图片,也就是物体关键动作所处的那一帧,再基于关键帧在时间域做扩展。这样的视频生成方式通常也有更好的可控性。

  在生成式视频领域,模型训练的难点主要在于如何同时建模复杂的时间域和空间域。HiDream.ai的底层视觉大模型是基于海量图片和视频数据的联合训练,从而既保持了空间域上的美感和文本相关性,也针对性地细化了时间域上丰富的运动变化,最终才能实现高质量的视频生成。

  就在12月初,HiDream.ai就推出了一次重磅更新,特别针对图生视频的功能进行了强化,提升了镜头控制的能力。用户可以实现上下、左右、前后六种单一方向以及组合方向的运镜,参数由用户确定,从而满足了用户在各种不同场景下的需求。

  从今年3月到如今,HiDream.ai基于底层大模型+应用的定位,已经形成“一横一纵”的发展战略。其中,“一横”指基于底层多模态大模型所推出的“Pixeling千象”应用,主要面向设计师人群提供服务,类似GPT-3.5模型和上层的ChatGPT应用的关系。

  而从提供的服务来看,Pixeling千象在单纯提供图像生成等功能上更进一步,其定位是做专业设计者的设计工具和平台,覆盖创意生成、素材收集、编辑精修和排版交付等设计环节,覆盖全流程。

  比如, Pixeling千象当前提供了包括文生图、图生图、文生视频、图生视频等多种生成式AI服务。用户在开始寻找灵感时, Pixeling千象就可以提供包括文案模版、预设的提示词库等辅助内容,支持中英文提示词(prompt),并且针对配色、构图、视角、情绪、环境、光线、风格等十多种维度。

  在每个维度下方,还有数十个二级类目提示词指导,可以大幅降低用户使用门槛,为用户提供易上手、交互式的生成入口。

  基于底层基础模型的高性能,当前Pixeling千象也已经能做到生成图像后选定区域后局部重绘(类似PS中的修图功能),用户只需要简单地涂抹待选区域,就能实现精准抠图、改图和替换:

  例如:生成一张“穿红色毛衣、站在樱花树下的女人”,选中需要修改的区域,改为“身穿白色毛衣/粉色衬衫/棕色大衣”。

  还可针对人像面部进行配件微调,比如“新增金边眼镜/炫酷墨镜/奢华面具”:

  除了重绘,为了满足图像在不同场景的使用需求, Pixeling千象也能提供智能拓图功能,基于原有画面延展,效果真实自然:

  围绕专业设计师、普通设计师到有设计诉求的C端用户,Pixeling千象已经搭建了一个设计社区,所有用户都可以将设计创意和设计作品上传到社区中,激发社区的创造力。

  而为了保证图像的审美和风格领先,千象已经和中央美术学院、北京电影学院、清华美术学院、北京邮电大学等高校设计艺术和数字媒体院系建立长期专家顾问合作。

  “过去,国内的设计师和设计爱好者通常需要同时使用几个国外的产品(如Midjourney和Runway),才能产生一个好的创意和作品,并且这些服务在国内是受限的。现在,HiDream.ai的Pixeling千象提供了一站式图片和视频的生成、编辑等功能,更好地方便了我们的个人用户。”

  一横一纵的“一纵”,则是指HiDream.ai会基于底层大模型的能力,针对不同的垂直行业提供产品和服务。

  HiDream.ai所选择的第一个细分赛道是电商。基于多模态基础模型,HiDream.ai打造了面向电商商家的AI工具“PixMaker”,可以生成商品营销的商品图和人像模特图等。团队在这一领域有很深的技术积累,CEO梅涛在京东时就已经围绕计算机视觉,主导拍照购、多模态内容审核与生成、视觉多算法平台等多项技术的研发。

  另一方面,电商营销对图像和视频内容的需求很大,市场也很广阔。梅涛表示,如果是一个头部的电商客户,一年GMV在数十亿到百亿元左右,单月的图片需求就会到百万张这一量级;而中小型电商卖家的单月需求也在万张级别。

  在以往,商家想要拍摄一张。

分类: 设计素材

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注