情报局直击CVPR2024
超 1.2 万人参加 CVPR 2024,谷歌研究院获得更佳论文:
2024 年的 CVPR 会议在美国西雅图举办,成为了该会议历史上更大规模和最多参与人数的一届,共有 1.2 万人参与。本届会议共有 35691 位注册作者,提交了 11532 篇论文,其中 2719 篇论文被接收,录用率为 23.6%。与去年相比,论文数量增加了 20.6%,但录用率略有下降。
会议颁发了两项更佳论文奖和两项更佳学生论文奖,其中谷歌研究院团队的《Generative Image Dynamics》和由多所机构共同发表的《Rich Human Feedback for Text-to-Image Generation》获得了更佳论文奖。此外,会议还讨论了视觉基础模型和图像视频生成等热点话题,以及机器遗忘、3D 视觉和自主系统等领域的最新研究进展。
https://mp.weixin.qq.com/s/45DYFWMXn-ce7ysJTrjp7g
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号: AIyanxishe2备注行业岗位。
融资快报
MainFunc获6000万美元种子轮融资:由前百度高管(原小度科技CEO景鲲和CTO朱凯华)创立的MainFunc,推出旗下首款AI Agent搜索产品Genspark。已在一笔超额认购的种子轮融资中筹集了6000万美元,本轮融资由蓝驰创投领投,对这家目前尚未盈利的初创企业的估值为2.6亿美元。
CuspAI获得3000万美元种子轮融资:CuspAI是一家人工智能材料搜索引擎开发商。由 Hoxton Ventures 领投,Basis Set Ventures、Lightspeed Venture Partners、LocalGlobe、Northzone、Touring Capital、Giant Ventures、FJ Labs、Tiferes Ventures 和 Zero Prime Ventures 参投。
Point72筹备专注于AI行业的新对冲基金:据悉,Steve Cohen的Point72 Asset Management寻求为一支新的专注于AI的选股对冲基金筹集约10亿美元。该基金将在全球范围内押涨、押跌AI硬件和半导体公司。这将是Point72几十年来之一支新对冲基金。
San Francisco AI Factory Inc获2000 万美元融资:San Francisco AI Factory 旨在利用 AI 简化编码任务司,提供自动化 AI 系统—— Droids,帮助企业生成软件功能、审查代码和解决漏洞等工程任务。截至目前,Factory共筹集了2000万美元,除了红杉美国,其他投资者包括 Lux Capital、Hugging Face以及Databricks CEO,还有洛杉矶音乐组合The Chain *** okers。
英伟达收购软件初创公司Shoreline:Shoreline.io由亚马逊 *** 服务前高管创办。对Shoreline的估值约为1亿美元。
Constructor 筹集2500 万美元 B 轮融资:Constructor使用语义搜索和人工智能技术,提供准确和个性化的搜索结果,并支持图像、内容和语音搜索产品。本轮融资由 Sapphire Ventures 领投。
Aim Security 筹集1800 万美元 A 轮融资:Aim Security 专注于在企业环境中部署和使用生成式 AI 工具的安全性。本轮融资由 Canaan Partners 领投
Omi 筹集1400 万美元种子轮融资:Omi 利用人工智能帮助品牌创建 3D 视觉资产,包括静止图像和视频。本轮融资由 Dawn Capital 领投。
Finaloop完成3500万美元A轮融资:Finaloop是一家AI驱动的电商会计平台。本轮融资由Lightspeed Venture Partners领投,Vesey Ventures、Commerce Ventures以及现有投资者Accel和Aleph参与投资。
Aim Security完成1800万美元A轮融资:Aim Security是一家企业AI安全平台。本轮融资由Canaan Partners领投,该公司种子轮投资者YL Ventures也参与了投资。
Trustwise筹集了400万美元的种子轮融资:Trustwise是一家生成式AI应用性能和风险管理初创公司。本轮融资由Hitachi Ventures领投,Firestreak Ventures和Grit Ventures参与投资。
Promaxo获战略投资:Promaxo是一家美国医学影像服务提供商,专注于医学影像,机器人和AI技术。本次投资由Zynext Ventures投资。
百奥几何完成Pre-A轮融资:百奥几何是一家大分子药物研发开源机器学习平台提供商,用于大分子药物研发。本轮融资由将门创投领投,智谱AI、盛景嘉成跟投,老股东高榕创投持续追加投资。
环天智慧完成B轮融资:环天智慧以遥感应用、云计算、大数据、物联网、人工智能等信息技术为依托,推出“天空地一体化”与“星-云-网-端”的系统服务架构。投资方为鼎晖百孚。
Enveda Biosciences获5500万美元融资:Enveda使用其AI工具来识别和表征生物体产生的各种分子,从而创建一个新的化学生物多样性数据库。本轮融资由新投资者Premji Invest 、Lingotto Investment Fund、微软、The Nature Conservancy及老股东 Kinnevik、True Ventures、FPV、Level Ventures 和 Jazz Venture Partners共同参与。
先楫半导体完成近亿元B轮融资:先楫半导体是一家国产高性能微控制器厂商,本轮融资由天堂硅谷资本领投,天津永钛海河、杭州元琰股权投资基金及三旺奇通等跟投。融资将用于加速在智能驾驶、机器人、边缘侧AI芯片等领域的开拓。
(欢迎添加微信 AIyanxishe2 ,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
国内情报
华为昇腾 AI 算力性能已超英伟达 A100,近半中国大模型选择昇腾技术路线:
江苏鲲鹏・昇腾生态创新中心首席运营官王陶表示,昇腾集群是国内唯一已完成训练千亿参数大模型的技术路线。该芯片在训练效率层面更高可达英伟达 1.1 倍。“在跟英伟达 A100(指 0.8 倍)的确还有一定差距,但在大模型训练这一块已跟英伟达 A100 芯片没有明显差距。特别是在万卡算力集群,包括鲲鹏云脑、科大讯飞这一块都经过了市场检验。”
中国气象局发布三个AI气象大模型系统,命名风清、风雷、风顺:
“风清”是人工智能全球中短期预报系统,“风雷”是人工智能临近预报系统,两个模型由中国气象局联合清华大学组建攻关团队构建。“风顺”是人工智能全球次季节—季节预测系统,由中国气象局联合复旦大学和上海科学智能研究院基于人工智能 *** 构建。
中国电信、智源发布全球首个单体稠密万亿参数语义模型 Tele-FLM-1T:
该模型基于模型生长和损失预测等技术,仅使用了业界普通训练方案 9%的算力资源, 112 台 A800 服务器,用 4 个月完成 3 个模型总计 2.3T tokens 的训练。TeleFLM 系列模型已经全面开源了 52B 版本,开源模型下载量过万,积累超 40 万用户。Tele-FLM-1T 版本也即将开源。
百度曦灵数字人平台升级,支持文生 3D 数字人、音色克隆等功能:
新版平台能够在短时间内自动生成逼真的 3D 数字人,并提供了极速和精品两种克隆选择,以满足不同需求。极速克隆可在半小时内完成,适用于效率追求的场景;精品克隆则能够 1:1 还原真人,适合对真人还原要求较高的场合。此外,曦灵平台还推出了音色克隆功能,用户仅需 30 秒的录音即可生成专属音色。
百度文库新产品“橙篇”支持10万字长文生成:
在超长图文理解上,橙篇可实现超长文本无损理解,支持用户一次性上传100个多种格式、单个更大200MB的文件,并支持基于上传内容进行快速总结、问答和创作。
商汤披露50篇论文入选CVPR 2024:
商汤科技披露今年50篇论文入选CVPR,其中还有9篇被录用为Oral、Highlight。论文涉及自动驾驶、机器人等前沿方向。
国际情报
OpenAI与Color Health合作打造辅助筛查、治疗癌症的AI工具:
OpenAI 公司宣布与基因检测公司 Color Health 合作,将使用 GPT-4o 模型开发 AI 工具 Cancer Copilot,帮助医生根据患者数据制定筛查和治疗计划,识别缺失的诊断结果,并创建量身定制的工作计划,让医疗服务提供者能够就癌症筛查和治疗做出循证决策。
TikTok 推出全新 AI 功能套件 Symphony :
Symphony包括数字化身、翻译工具、AI 助手等。品牌可以从一系列基于真实演员的“库存化身”中进行选择,或者创建自定义化身,作为虚拟品牌代表 。此外,TikTok 还推出了“全球覆盖翻译”功能。这是一种新的 AI 配音工具,可以自动转录、翻译和配音视频,支持 10 多种语言,帮助品牌在全球范围内扩展内容。
Notion 推出 AI 连接器功能,提升工作流程效率 :
用户可以直接从公司的 Slack 中提取知识,无需离开当前工作流程,减少了工具和窗口切换的需要。已在 X 平台上发布,旨在提高用户的工作效率。目前,Slack 的集成已经开始逐步推出,Google Drive 和其他未公开的集成功能也在推进中。
苹果叫停Vision Pro高端机:
苹果暂停了下一代 Vision Pro 的开发,转而专注于 2025 年底发布更便宜的机型。或将推出名为N109的低价Vision产品,重量是 Vision Pro 的 1/3,价格或与高端iPhone差不多,或将保留高端显示屏,由视涯科技供应。设备摄像头更少、头带更简单、扬声器更小。
Meta 宣布重组 Reality Labs,成立新的可穿戴设备组:
重组后Reality Labs 将主要分为两个部分,一个是元宇宙:该部门涵盖 Quest 头显系列、Horizon(Meta 的社交 *** )以及相关技术。另一个是可穿戴设备:该新部门包括 Meta 其余的硬件业务,例如与 Ray-Ban 合作的智能眼镜。
Meta FAIR团队发布多款模型、研究和数据集:
Meta FAIR团队发布了多款模型、研究和数据集,包括Meta Chameleon:多模态模型,7B/34B;Multi-Token Prediction:多词预测模型;JASCO:文本生成音乐模型;AudioSeal:AI语音检测;PRI *** :AI反馈数据集;“DIG In”:人文地理差异评估 *** 。
环球音乐与 SoundLabs 推出 AI 插件 MicDrop:
MicDrop 是一款 AI 人声插件,使用艺术家自己的声音数据进行训练,可创建高保真人声模型,保留艺术家所有权,用于专属创作,不向公众开放。它将于今年夏天推出,兼容所有主要的 DAW,环球音乐称它可以实现多种声音转换。
组队训练 AI,MLX 项目亮相:
MLX 项目使用 MPI 分布式计算,通过 Thunderbolt 4 电缆来连接主控机和多台 Mac 设备,可以实现高效并行计算,适合家庭环境下训练 AI 等场景。苹果公司此前曾探索开发出类似的 XGrid 项目,串联多台 Mac 设备实现并行计算,不过主要面向企业和 *** 机构,对于消费者和业余爱好者并不友好。
“AI 教父”Hinton担任CuspAI 董事会顾问:
Hinton对这家初创公司给予了较高的评价,称该公司及其使命给自己留下了深刻印象。“他们利用 AI 为新材料设计过程提速,以应对人类最紧迫的挑战之一 —— 气候变化。”据悉,CuspAI 公司由剑桥大学创立,该公司计划利用搜索引擎的功能按需识别新型建筑材料所需的特性。
ChatGPT等模型疯狂训练,2026年或迎来AI界“数据荒”:
Epochai 研究报告指出目前人类公开的高质量文本训练数据集约有 300 万亿个 tokens,但随着大模型的胃口增大,这些数据可能很快将被消耗殆尽。例如 Meta 的 Llama3 模型在 8B 版本上的过度训练竟然达到了惊人的 100 倍。
Epochai 提出了四种获取新训练数据的 *** :合成数据、多模态和跨领域数据学习、私有数据的使用以及与真实世界实时交互学习。旨在避免 AI 界的 “数据荒”,并为 AI 模型的持续发展提供数据支持。
ACM顶会SIGGRAPH 2024更佳论文揭晓,英伟达CMU各占40%:
ACM SIGGRAPH共评选出了5篇更佳论文、12篇荣誉提名,并延续去年的传统将时间检验奖颁给了2012年和2013年发表的4篇论文。上海科技大学、华中科技大学、香港中文大学等国内机构榜上有名。
更多国际情报
BCG报告称生成式AI正在撼动就业市场:报告预测生成式 AI 将在未来十年内对全球经济产生至少 2.2 万亿至 3.7 万亿美元的经济影响,同时对某些重复性高、创造性低职位带来威胁,但也将创造新的职位,推动人才对技能进行重新塑造和学习。
三星电子将于明年推出配备人工智能的家电:三星电子正在开发带有大型语言模型的集成家电产品,目标在2025年发布。
AI产品
Product Hunt 热榜, 免费的 AI *** 搜索引擎Genspark :
Genspark 是一个免费的 AI *** 搜索引擎,通过专业的 AI *** 为用户查询研究并生成所谓的 Sparkpages。这些页面综合可靠信息,提供更有价值的结果,为用户节省时间。创始人景鲲强调,Genspark 与传统搜索引擎不同,更像是一群快速为用户找到所需答案的有用 AI 伙伴。Genspark 旨在消除广告、诱导内容和偏见结果,提供干净、高质量的信息,让用户从一个地方就能访问所需信息,节省时间。
https://www.genspark.ai/
GitHub Trending 热榜, 开源的增强型 ChatGPT 克隆 LibreChat:
LibreChat 是一个开源的增强型 ChatGPT 克隆项目,支持多种 AI 模型和 API,包括 OpenAI、Azure、Groq 等,具备 AI 模型切换、消息搜索和多用户安全系统等功能,并且正在积极开发中添加更多特性。由 danny-avila 维护的 LibreChat 在 GitHub 上拥有 12.9k stars 和 2.3k forks。
https://www.librechat.ai/
https://github.com/danny-avila/LibreChat?tab=readme-ov-file
开发者推荐
1.Omni-Zero: 零样本风格化肖像创作
omni-zero 是一个基于 GitHub 的开源项目,旨在通过扩散管道实现零样本风格化肖像创作。此外,项目还提供了一个 Gradio 应用程序,并且在 Fal.ai、Replicate 和 HuggingFace Spaces ZeroGPU 上提供了演示。用户可以通过克隆仓库并按照指定步骤运行 demo.py 来尝试使用 omni-zero。
https://github.com/okaris/omni-zero
2.ElevenLabs 的 V2A 视频自动配音
ElevenLabs Texts to Sounds Effects API ,展示了其通过 AI 为视频添加声音效果的能力。用户可以上传视频,客户端每秒提取 4 个帧,并将这些帧和提示发送给 GPT-4o,以创建自定义的文本到声音效果提示。随后,使用 ElevenLabs Text to Sounds Effects API 根据提示生成声音效果,并利用 ffmpeg.wa *** 在客户端将视频和音频合并,生成可下载的单个文件。
https://www.videotosoundeffects.com/
3.Hedra Labs 推出 Character-1 研究预览版
Hedra Labs 发布了能够生成表现力强的说话、唱歌和说唱角色的基础模型 Character-1 的研究预览版,该模型可在桌面和移动设备上使用,预览版提供无限视频时长,但开放预览版限制为 30 秒视频。如果 H100 供应充足,模型能在每 60 秒生成 90 秒的视频。模型具有生成角色具有强烈的表现力的特点,其愿景是通过构建基础模型并将其融入产品中,激发人类下一代的故事讲述能力,同时还宣布了即将推出的 “Worlds” 功能,允许用户构建虚拟世界。
https://www.hedr *** /
4.GenType创建自定义字母表
GenType 是一个在线工具,它利用 Imagen 2 API 为用户提供创建自定义字母表的能力。用户可以通过描述来定制字母的风格,例如使用星座地图、未来科幻飞船、银色管道等元素。GenType 提醒用户创作时要尊重他人权利,鼓励用户分享反馈帮助改进 AI。
https://labs.google/gentype
大牛洞见
最强 GenAI/LLM 学习资源索引发布!
Will Brown发布 《GenAI Handbook》这本书被誉为 GenAI 领域最前沿发展的开源教科书,汇聚了自 ChatGPT 发布以来的 18 个月里,GenAI/LLM 领域的发展和系统知识指南。分为 9 个部分,参考了顶尖的 Blog、论文、Youtube 视频和在线课程,为读者提供了一个清晰了解 GenAI 发展的脉络。
https://genai-handbook.github.io/
热门活动
「云启Attent!on · 深圳站」见面聊 | 网红AI硬件翻车后,真正的头号玩家在哪?
6月28日,「Attent!on」深圳站将聚焦 软件与硬件的融合,以「AI+跨境+硬件=?」为主题,探讨AI硬件的机会和挑战。
云启资本联合雷峰网(公众号:雷峰网)将携手大疆早期孵化投资人、长江商学院金融学教授甘洁创办的创新企业赋能组织知行研习院,与来自华为、腾讯、科大讯飞、Kickstarter、元生智能、火火兔、时空壶、蜂巢科技等知名公司的资深人士展开深度交流。
欢迎创业者、产品负责人报名。
https://mp.weixin.qq.com/s/D9YIyKBz0UUdjP3iNqXefA
敬请期待明日的最新动态!
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号: AIyanxishe2备注行业岗位。
雷峰网
发表评论
2024-11-25 06:03:25回复
2024-11-25 06:06:45回复