新闻中心 News 分类>>
金沙乐娱场自研多模态大模型公司HiDreamai完成新一轮融资将门创投参投
金沙乐娱场自研多模态大模型公司HiDreamai完成新一轮融资将门创投参投自研多模态大模型公司HiDream.ai近日宣布已完成新一轮融资,由科大讯飞创投基金领投,将门创投等多家机构跟投。
从创立到现在,HiDream.ai半年内已完成两轮融资,先后由阿尔法公社和讯飞创投领投,累计融资额近亿元人民币。本轮融资将用于产品研发、电商场景的市场拓展和C端产品出海方向的发展等。
HiDream.ai是一家定位于围绕视觉方向,打造生成式多模态基础模型及应用的初创公司,由前京东集团副总裁、京东探索研究院副院长梅涛博士于2023年初创立。
梅涛博士是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow,是多媒体领域荣获国际最佳论文奖最多的华人学者(15项),也是科技部科技创新2030人工智能重大项目首席科学家。HiDream.ai团队中,博士、硕士占90%以上,核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球500强公司的核心技术团队。
自去年ChatGPT点燃全球大模型领域浪潮以来,如今模型层已经从原来的纯文字大模型,逐步走到多模态(包括文字、图像、视频、3D模型等)大模型的探索,包括OpenAI的GPT-4、谷歌近期发布的Gemini等都走向了这一道路。而在生成式图像、视频这一细分赛道,Runway、Pika等应用近期引起全球关注,也正是多模态领域模型技术和产品化进展飞快的证明。
“当前,大公司的主要精力还是在大语言模型,还无暇顾及视觉多模态生成。虽然最近多模态大模型进展迅猛,但主要还是在追求通用人工智能,特别是多模态内容的理解和识别。而HiDream.ai从成立之日起就立志做自研的生成式多模态基础模型,聚焦多模态内容生成,是国内这个领域起步最早的初创公司。”HiDream.ai创始人兼CEO梅涛表示, “半年前,大家普遍觉得视频领域的大模型应用很难,但这个领域的进展比大家想象中的都要快。”
从3月成立以来,如今HiDream.ai已经形成了清晰的多模态大模型+应用的布局。当前金沙乐娱场app下载,HiDream.ai底层的自研视觉大模型具备文本金沙乐娱场app下载、图像、视频、3D四种模态,其参数已经超过100亿,每两周就会进行一次迭代。在全球范围基于Diffusion框架开发的视觉生成式大模型中,HiDream.ai的参数规模也是位于前列。在香港中文大学主导构建的文生图测试集上,HiDream.ai在总共三项指标中(人类主观偏好HPS、文图匹配相关性CLIP、图像美感Aesthetic),有两项已经超过了Midjourney V5和Dall-E 3,整体处于领先位置,特别是反映综合水平的HPS指标,HiDream.ai位居第一。
国内AIGC市场从去年的文生图热潮,现在也走到了对视频生成的探索上。“但视频想要做好的话,一定要有一个比较好的图片基础模型。”梅涛表示。“这是因为,视频是由连续的图片组合而成的,如今想要生成视频,用户通常更偏向于先生成一个关键帧图片,也就是物体关键动作所处的那一帧,再基于关键帧在时间域做扩展。这样的视频生成方式通常也有更好的可控性。
在生成式视频领域,模型训练的难点主要在于如何同时建模复杂的时间域和空间域。HiDream.ai的底层视觉大模型是基于海量图片和视频数据的联合训练,从而既保持了空间域上的美感和文本相关性,也针对性地细化了时间域上丰富的运动变化,最终才能实现高质量的视频生成。
就在12月初,HiDream.ai就推出了一次重磅更新,特别针对图生视频的功能进行了强化,提升了镜头控制的能力。用户可以实现上下、左右、前后六种单一方向以及组合方向的运镜,参数由用户确定,从而满足了用户在各种不同场景下的需求。
从今年3月到如今,HiDream.ai基于底层大模型+应用的定位,已经形成“一横一纵”的发展战略。其中,“一横”指基于底层多模态大模型所推出的“Pixeling千象”应用,主要面向设计师人群提供服务,类似GPT-3.5模型和上层的ChatGPT应用的关系。
而从提供的服务来看,Pixeling千象在单纯提供图像生成等功能上更进一步,其定位是做专业设计者的设计工具和平台,覆盖创意生成、素材收集、编辑精修和排版交付等设计环节,覆盖全流程。
比如, Pixeling千象当前提供了包括文生图、图生图、文生视频、图生视频等多种生成式AI服务。用户在开始寻找灵感时, Pixeling千象就可以提供包括文案模版、预设的提示词库等辅助内容,支持中英文提示词(prompt),并且针对配色、构图、视角、情绪、环境、光线、风格等十多种维度。
在每个维度下方,还有数十个二级类目提示词指导,可以大幅降低用户使用门槛,为用户提供易上手、交互式的生成入口。
基于底层基础模型的高性能,当前Pixeling千象也已经能做到生成图像后选定区域后局部重绘(类似PS中的修图功能),用户只需要简单地涂抹待选区域,就能实现精准抠图、改图和替换:
例如:生成一张“穿红色毛衣、站在樱花树下的女人”,选中需要修改的区域,改为“身穿白色毛衣/粉色衬衫/棕色大衣”。
除了重绘,为了满足图像在不同场景的使用需求, Pixeling千象也能提供智能拓图功能,基于原有画面延展,效果真实自然:
围绕专业设计师、普通设计师到有设计诉求的C端用户,Pixeling千象已经搭建了一个设计社区,所有用户都可以将设计创意和设计作品上传到社区中,激发社区的创造力。
而为了保证图像的审美和风格领先,千象已经和中央美术学院、北京电影学院、清华美术学院、北京邮电大学等高校设计艺术和数字媒体院系建立长期专家顾问合作。
“过去,国内的设计师和设计爱好者通常需要同时使用几个国外的产品(如Midjourney和Runway),才能产生一个好的创意和作品,并且这些服务在国内是受限的。现在,HiDream.ai的Pixeling千象提供了一站式图片和视频的生成、编辑等功能,更好地方便了我们的个人用户。”
一横一纵的“一纵”,则是指HiDream.ai会基于底层大模型的能力,针对不同的垂直行业提供产品和服务。
HiDream.ai所选择的第一个细分赛道是电商。基于多模态基础模型,HiDream.ai打造了面向电商商家的AI工具“PixMaker”,可以生成商品营销的商品图和人像模特图等。团队在这一领域有很深的技术积累,CEO梅涛在京东时就已经围绕计算机视觉,主导拍照购、多模态内容审核与生成金沙乐娱场app下载、视觉多算法平台等多项技术的研发。
另一方面,电商营销对图像和视频内容的需求很大,市场也很广阔。梅涛表示,如果是一个头部的电商客户,一年GMV在数十亿到百亿元左右,单月的图片需求就会到百万张这一量级;而中小型电商卖家的单月需求也在万张级别。
在以往,商家想要拍摄一张图,找拍摄团队、模特等硬性支出成本,单张商品图可能就要30-50元,而一个SKU迭代上新一次就需要5-10张图,如果是需要模特出镜,图像成本还会上升到平均数百元,并且需要数天不等的拍摄周期。“但使用PixMaker后,我们基本可以将成本降低10倍以上,而效率提升就远远不止10倍了。”梅涛表示。
而无论是图像还是视频,进入到电商领域的生产作业环节,可控性是非常重要的一环。比如客户要拍摄特定场景中的商品图,那么商品需要保证和原来的图像一模一样,PixMaker基于自研基础模型和工程优化,可以保证99%以上商品图和原商品一致——在模特换脸、衣服换模特等场景,也同样需要这种保真性。
而HiDream.ai的另一个优势在于,比起如今主流的1K图片分辨率,HiDream.ai已经可以生成2K的高清图片。
从服务形式来看,HiDream.ai对用户主要采用预充值的收费方式,提供月费、年费和订阅制等不同类型的会员套餐。用户可以根据自己的需求选择合适的套餐。目前,最低的套餐首次充值价格为9.9元,其他套餐价格从39.9元到数百元不等。
HiDream.ai的商业化也已经在推进当中。梅涛透露,当前电商AIGC产品PixMaker近期已经与多家跨境电商签约,达成第一步合作。另一方面,HiDream.ai通过组织AI创作比赛、建立社区等形式,面向设计人群的Pixeling千象自9月正式上线,如今月活用户已经过万,付费用户已突破千人。
对未来的发展规划,梅涛表示,目前图像生成效果已经对标Midjourney V5,未来除了在图像领域继续加深底层基础模型投入和产品研发之外,HiDream.ai在今年8月也已经推出了视频生成的部分功能,主要通过文字或者文字生成的图片,再生成一个数秒的视频片段。而到今年年底,HiDream.ai也计划推出视频生成领域的重要更新,可以生成的视频时长会进一步延长。
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: