25年3月31日,全球AI资讯约30条:谷歌通用医学治疗大模型、AI「癌症神探」降临准确度近100%、单照片生360°3D场景等

AI应用进展和演化


1-1. 从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?

Evo 2 是目前最大的基因组 AI 模型,基于超过 12.8 万个基因组数据训练,包含 9.3 万亿个核苷酸。这一模型能够预测突变效应、设计 DNA 序列,其前代模型 Evo 1 已在单细胞基因组上展示了强大的零样本功能预测能力。

Evo 2 的训练数据涵盖了细菌、古菌、噬菌体以及人类和植物等真核生物的基因组信息。模型采用了新的 StripedHyena 2 架构,能够在长达 100 万个核苷酸的序列中进行有效推理,比前代模型提升了 8 倍。此外,Evo 2 在预测致病突变方面实现了超过 90% 的准确率,为加速药物开发和治疗“不治之症”提供了可能。

image.png




1-2. 迈向群体智能 | 智源首个跨本体具身大小脑协作框架与开源具身大脑

近日,智源研究院在2025中关村论坛上发布了首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。这一技术突破旨在推动单机智能向群体智能迈进,为机器人跨场景多任务的轻量化快速部署和协作提供支持。

RoboBrain由三个核心模块组成:任务规划基座模型、A-LoRA感知模块和T-LoRA轨迹预测模块。它在任务规划、可操作区域感知和轨迹预测方面表现出色。例如,在任务规划评测中,RoboBrain在多个基准测试集上的表现优于GPT-4V等6个领先模型。在可操作区域感知方面,其精度超过了Qwen2-VL。此外,RoboBrain能够生成高相似度的操作轨迹,确保任务执行的稳定性。

1743505803008.png




1-3. 自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

近期,香港大学联合英伟达和德国图宾根大学提出了一种名为Centaur的方法,大幅提升了自动驾驶汽车在复杂场景中的适应性和安全性。该方法首次将“测试时训练”(TTT)应用于端到端自动驾驶,使车辆能够在行驶过程中实时优化驾驶策略,摆脱对预设规则的依赖。

Centaur通过Cluster Entropy技术衡量不确定性,动态调整模型权重,帮助车辆更好地应对变道、加塞等不确定性场景。在navtest基准测试中,Centaur的综合规划与驾驶指标得分(PDMS)达到92.6%,接近人类驾驶水平,显著优于基于回退的传统方法。

https://www.qbitai.com/2025/03/268955.html

论文地址: https://arxiv.org/abs/2503.11650




1-4. 国内首款中医 AI 大模型 “广医・岐智” 发布

近日,中国中医科学院广安门医院发布了国内首款中医AI大模型“广医・岐智”,标志着中医药与人工智能的深度融合迈出了重要一步。这款大模型依托广安门医院70年的深厚积累,汇集了407万临床病例数据,并构建了包含9类、1400万条知识的庞大临床知识库体系。

“广医・岐智”通过国产算力和模型底座,实现了对名老中医经验的深度解析,为患者和医生提供了智能化服务。在患者端,它嵌入了AI导诊、预问诊等功能,支持语音、文字、图片等多种交互方式,帮助患者更便捷地获取就医信息。而在医生端,该模型能在2至3秒内生成病历文书,同时提供辨证思路、方剂推荐等诊疗建议,显著提升了医生的工作效率。




1-5. Ideogram 3.0 —— Ideogram推出的最新一代AI图像生成模型

Ideogram 3.0是Ideogram推出的新一代AI图像生成模型,专注于提升图像的真实感、创意表达和风格一致性。它不仅能够生成高质量的图像,还特别擅长文本渲染,支持多种字体、语言和艺术风格,为设计师、艺术家和内容创作者提供了强大助力。

功能亮点:
1. 文本渲染:生成清晰可读且风格统一的艺术化文本,适用于海报标题、宣传语等。
2. 多样化风格:支持3D渲染、电影、绘画等多种风格,满足不同场景需求。
3. 高效生成:优化算法后,生成速度更快,用户能迅速获得高质量图像。
4. 批量生成功能:一次生成多张相关图像,适合电商、社交媒体等领域使用。




1-6. BizGen —— 清华大学联合微软推出的AI信息图生成工具

BizGen是由清华大学与微软联合开发的一款人工智能信息图生成工具,旨在帮助用户快速将复杂的文本内容转化为专业水准的信息图和幻灯片。这款工具特别适合需要处理大量数据和复杂逻辑的商业场景,能够显著提升工作效率和内容质量。

BizGen的核心功能包括“一键生成”、精细布局控制、多语言和多风格支持等。用户只需输入文本内容,选择语言和风格,即可生成高质量的信息图。其背后依赖一个规模空前的商业内容数据集Infographics-650K,包含超过65万张精美信息图素材,为输出提供了坚实基础。此外,BizGen通过“布局引导的交叉注意力机制”,确保生成的信息图布局合理、层次分明,文字拼写准确率极高。




1-7. TxGemma —— 谷歌推出的通用医学治疗大模型

TxGemma是谷歌推出的一款通用医学治疗大模型,旨在通过大型语言模型的强大功能加速药物研发过程。它基于Gemma模型微调而成,能够理解和预测小分子、蛋白质、核酸、细胞系和疾病等多种治疗实体的属性。这一模型的推出标志着谷歌在医学人工智能领域迈出了重要一步。

创新点包括多任务处理能力、高效预测能力和对话式交互接口。TxGemma广泛应用于药物研发、疾病诊断和个人化医疗。

截至目前,TxGemma已开放多个访问渠道,包括Hugging Face社区。其论文详细介绍了技术细节,为研究者提供了重要参考。例如,在某项测试中,TxGemma将药物研发周期缩短了约30%,显著提升了效率。




1-8. ModelEngine —— 华为开源的全流程AI开发工具链

ModelEngine是由华为开源的一站式AI开发工具链,旨在解决AI行业化落地中的关键问题,如数据工程耗时长、模型训练和应用部署困难等。它通过数据使能、模型使能和应用使能三大模块,为开发者提供从数据处理到模型部署再到应用发布的全流程解决方案。

该工具广泛应用于智能制造、智慧城市、金融科技和医疗健康等领域。例如,在医疗领域,ModelEngine可用于疾病诊断和药物研发;在金融领域,可助力风险评估和智能投顾。

评估标准包括模型训练效率(如速度和收敛性)、模型准确率、应用部署效率及用户体验等。据统计,使用ModelEngine后,模型训练效率可提升约30%,应用开发周期缩短约40%。



1-9. AI歌曲创作教程来啦,用全网爆火的昆仑万维Mureka O1进行歌曲创作

Mureka 是昆仑万维推出的一款 AI 音乐创作工具,被誉为“东方音乐魔盒”。2024年8月,其升级版 Mureka O1 正式发布,这是全球首款音乐推理大模型。结合 Mureka V6 模型,用户可以轻松制作个性化音乐。

Mureka 的界面简洁易用,注册后即可开始创作。它提供多种功能,如“一键同款”模仿现有歌曲风格、创作纯音乐和生成歌词等。纯音乐功能支持场景分类,适合视频配乐,且生成的音乐版权归用户所有。高级模式下,用户可以选择不同模型(如 Mureka O1 和 V6),定制化程度更高。O1 模型以专业级人声和混音著称,每2首歌需10积分;V6 则支持10种语言,适合多用途创作。

https://www.1ai.net/31881.html

图片




1-10. AI心理医生来了!“话疗”机器人临床效果惊艳,仅需四周,抑郁症减轻51%!

近日,达特茅斯学院开发的AI心理治疗机器人Therabot在首次临床试验中取得了显著成效。研究显示,重度抑郁症患者使用Therabot四周后,症状平均减少51%,广泛性焦虑症和饮食失调患者的症状分别减轻31%和19%,效果与传统人类心理咨询相当。

Therabot基于认知行为疗法开发,经过近六年的微调,其超过95%的回复达到了“黄金标准”。此外,它还能记住用户并提供个性化建议。试验中,210名参与者中有75%仅依赖Therabot进行治疗,且许多人对其建立了类似朋友的信任关系。目前,国内外多家AI心理健康公司已获资本青睐。例如,Slingshot AI融资7000万美元,估值达2.2亿美元。





1-11. VaricoSeek:全球首个AI静脉曲张智能体上线!24小时+多国语言+权威专业信息

在科技与医疗深度融合的浪潮下,张强医生集团经过一年多的研发和测试,正式推出全球首个静脉曲张垂直领域AI智能体——VaricoSeek 1.0版。这款智能体并非简单的聊天机器人,而是基于血流动力学理论,融合全球静脉病学知识的专业工具,为患者提供权威、客观、高效的健康管理支持。

VaricoSeek突破了时间和地域限制,实现24小时全天候在线服务,仅需10秒即可完成数据分析和响应,大幅缩短等待时间。它支持10+N种语言,兼容语音和文字输入,让全球用户轻松使用。同时,通过AI深度学习技术,VaricoSeek能够根据用户需求不断优化模型,提供个性化互动体验。

https://aitntnews.com/newDetail.html?newId=12634

图片




1-12. 单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

人大高瓴李崇轩、文继荣团队联合北师大王一凯团队与字节跳动提出了新方法FlexWorld。该方法通过合成和整合新的3D内容,逐步构建并扩展持久的3D表示。FlexWorld包含两个核心组件:(1) 一个强大的视频到视频(V2V)扩散模型,用于生成完整视角图像;(2) 几何感知的3D场景扩展过程,提取并整合新内容至全局结构中。团队通过微调先进的视频基础模型,使其能在大幅度相机变化(如360°旋转和缩放)下生成高质量内容。

实验表明,FlexWorld在生成灵活视角3D场景时表现出色,支持高质量视频输出和高空间一致性。相比现有方法,FlexWorld在视角灵活性和视觉质量方面均有显著提升。

https://aitntnews.com/newDetail.html?newId=12631

图片

论文链接:https://arxiv.org/abs/2503.13265

项目地址:https://ml-gsai.github.io/FlexWorld/

代码仓库:

https://github.com/ML-GSAI/FlexWorld




1-13. AI「癌症神探」降临:准确度近100%,医生也自叹不如!

最近,医学领域迎来了一项革命性突破!国际科研团队开发出一种名为ECgMPL的AI模型,它能通过分析细胞和组织的微观图像精准诊断癌症。特别是在子宫内膜癌的诊断中,该模型的准确率高达99.26%,远超医生平均水平(约78.91%-80.93%)。

子宫内膜癌是一种常见的生殖系统肿瘤,如果能在早期发现,患者的五年生存率会显著提高。然而,传统方法难以捕捉到细微的病变特征,而ECgMPL通过深度学习算法,能够快速识别这些微小变化。此外,研究还表明,该模型在其他癌症类型(如结直肠癌、乳腺癌和口腔癌)的诊断中也表现出色,准确率分别达到98.57%、98.20%和97.34%。




1-14. 讯飞医疗发布全球首个“1型糖尿病专病大模型”,号称超越GPT-4o!

讯飞医疗近日发布全球首个“1型糖尿病专病大模型”,这是国家“四大慢病”重大专项核心成果的首次临床转化。

这一专病大模型聚焦1型糖尿病诊疗中的痛点,整合了65个专科场景的临床路径、135部权威指南和2000万份真实病例数据,构建了覆盖筛查、分型、治疗到管理全流程的数智化防控体系。

其核心技术包括:权威知识中枢,形成国内领先的1型糖尿病专业知识体系;动态感知网络,通过AIoT技术实时监测患者14维代谢参数,异常血糖捕捉灵敏度高达99.2%,比传统方式提升40%;决策支持引擎,基于讯飞星火医疗大模型X1,可生成个性化治疗方案,涵盖膳食、运动、胰岛素调整等八大维度。





1-15. 中国电建“智成一号”智能巡检机器人首次亮相,已在世界第一高坝双江口水电站进行测试

中国电建研发的“智成一号”智能巡检机器人近日首次亮相,并在世界第一高坝双江口水电站展开测试。这款机器人具备200TOPS的强大算力,外形小巧,高度仅85厘米,重量20公斤,却能轻松翻越15厘米障碍、在15度坡道上稳定行动。

“智成一号”续航能力出色,可连续工作5小时,移动速度达5米/秒,能够高效守护长达3公里的运输线。通过融合多光谱成像系统与深度学习算法,结合抗干扰滤波声纹识别技术,它能精准检测传送带托辊的裂纹、位置偏移等问题,并实时发出预警。这一技术突破解决了长距离胶带传送机安全运行监测的难题,为大型工程的安全运维提供了有力保障。




AI大模型算法、赛事和会议


2-1. 生数科技发布高可控视频大模型 Vidu Q1:可精准调整所有动作行为

近日,清华大学人工智能研究院副院长朱军发布了高可控视频大模型 Vidu Q1,这是业内首个实现高度可控的 AI 视频生成模型。这一技术突破为视频创作带来了全新的可能性。

Vidu Q1 的核心优势在于其“高可控性”。它能够在多主体细节上实现精准调整,比如控制场景中人物或物体的位置、大小以及运动轨迹等。用户不仅可以使用语义指令,还能结合参考图的视觉指令,对视频中的动作行为(如出场、退场、坐立姿态和行动路线)进行精细调整。这种灵活性让视频内容更加贴合创作者的需求。

此外,Vidu Q1 还支持音效同步可控功能。根据视频环境和画面转场的变化,它可以自动生成相应的音效。

https://www.ithome.com/0/841/703.htm

图片




2-2. CVPR 2025高分论文:从照片重建3D矢量,告别模糊渲染,重建边缘更清晰

三维场景重建技术近年来取得了显著进展,但传统方法如3D Gaussian Splatting(3DGS)在几何和纹理边界处常出现模糊问题。为解决这一瓶颈,比利时鲁汶大学与上海科技大学的研究团队提出了Bézier Gaussian Triangle(BG-Triangle),一种结合贝塞尔三角形矢量特性和高斯概率模型的创新方法。

研究团队在NVIDIA 3090 GPU单卡上实现了实时渲染,场景重建仅需约半小时。BG-Triangle不仅在渲染质量上优于现有方法,还在参数效率和几何精度之间达到了更好的平衡,为3D场景表示提供了新的解决方案。

https://aitntnews.com/newDetail.html?newId=12627





2-3. 13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

浙大与上海AI Lab等机构提出了一种全新的视觉生成范式——邻近自回归建模(NAR),解决了传统“下一个token预测”方法在图像和视频生成中的效率瓶颈问题。

在实验中,NAR表现出显著优势。例如,在ImageNet 256×256数据集上,NAR-L模型比LlamaGen-XXL实现了13.8倍的吞吐提升,同时生成质量更高。在视频生成任务中,NAR模型生成步骤减少了97.3%,且相比并行解码方法PAR,吞吐提升了8.6倍。此外,在文本到图像生成中,NAR仅用0.4%的训练数据就达到与Stable Diffusion v1.5相当的效果,且吞吐率提高了166倍。

https://www.qbitai.com/2025/03/269194.html




2-4. 业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

近日,OPPO研究院与香港科技大学(广州)联合提出了一项新技术——OThink-MR1,旨在解决多模态大模型在复杂推理任务中的不足。这一技术基于动态强化学习,显著提升了多模态模型的泛化推理能力。

目前,大多数多模态模型依赖监督微调进行训练,虽然能在特定任务中表现良好,但缺乏通用推理能力。而强化学习通过奖励机制让模型更灵活地应对各种任务,但由于多模态任务的复杂性,传统RL方法存在瓶颈。

实验结果表明,OThink-MR1在跨任务评估中表现出色。例如,在视觉计数和几何推理任务中,相比仅使用监督微调的模型,OThink-MR1的成绩显著提升。

https://www.qbitai.com/2025/03/269180.html

论文地址:https://arxiv.org/abs/2503.16081




2-5. 模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

Databricks 最近推出了一种名为 TAO的新型模型调优方法,解决了微调大型语言模型(LLMs)时缺乏高质量标注数据的问题。传统微调需要大量标注数据,而 TAO 只需未标注数据即可显著提升模型性能,甚至超越基于标注数据的传统微调方法。

TAO 的核心创新在于结合测试时计算和强化学习算法。它通过让模型在测试阶段探索任务响应,并根据反馈更新参数,从而实现性能优化。这种方法不仅避免了昂贵的人工标注成本,还能灵活融入领域知识。实验表明,在 Llama 系列开源模型上应用 TAO 后,其性能可媲美专有商业模型(如 GPT-4o),且推理成本与原模型相同。

https://aitntnews.com/newDetail.html?newId=12655


原文链接:

https://www.databricks.com/blog/tao-using-test-time-compute-train-efficient-llms-without-labeled-data






AI基础设施方面(硬件、系统和数据)


3-1. 能效比狂飙40%!酷睿Ultra 200HX游戏本震撼登场,AI算力重构游戏规则

近日,英特尔推出全新酷睿Ultra 200HX处理器,这款高性能处理器为游戏玩家和专业用户带来了革命性的体验。相比英特尔酷睿i9 14900HX,单核性能提升10%,多核性能提升19%,能效比更是提升了40%。在实际应用中,设计类负载POV-Ray性能提升31%,搭配英伟达RTX 50系列显卡后,游戏性能进一步提高11%,让玩家畅玩3A大作。

此外,酷睿Ultra 200HX首次引入独立NPU,解锁AI+游戏的新体验。通过英特尔AI游戏助手,玩家可享受专属指导和陪伴功能。同时,APO技术覆盖200多款热门游戏,一键提升游戏性能高达10%。

https://www.qbitai.com/2025/03/269118.html




AI人才和资本动态


4-1. 马斯克xAI收购X,AI吞噬一切!左手倒右手,新xAI估值飙至1130亿

马斯克宣布将旗下社交平台X以全股票交易方式出售给他的AI公司xAI。合并后,xAI估值达到1130亿美元,超过了今年2月他对OpenAI提出的974亿美元收购要约,彰显了马斯克“All in AI”的战略决心。

此次合并中,X的估值为330亿美元(从450亿美元减去120亿美元债务),而xAI估值为800亿美元。两家公司的发展轨迹截然不同:xAI自成立以来迅速崛起,成为全球领先的人工智能实验室之一,其Colossus超级计算机目前拥有10万颗NVIDIA Hopper GPU,并计划扩展至20万颗。X则拥有超过6亿活跃用户,被马斯克视为未来数字世界的“数字广场”。

https://www.163.com/dy/article/JRQH6OK50511ABV6.html?spss=dy_author





4-2. 98%授权通过率!前医生创办Taxo,用透明AI“推理”重塑医疗效率,获投500万!

英国医生艾哈迈德·克尔万因不堪医疗文书工作的重负,转行创立了人工智能初创公司 Taxo。这家公司专注于通过 AI 技术简化医疗保健领域的复杂管理任务。近日,Taxo 完成了 500 万美元的种子轮融资。

克尔万回忆,他早期作为医生时,每天仅有 3 小时用于患者护理,其余时间被行政事务占据。为解决这一痛点,Taxo 开发了一种独特的“推理引擎”,能够透明地解释其决策逻辑。这种特性对赢得医生信任至关重要,并显著减少了 AI 幻觉问题。数据显示,Taxo 的系统已将事先授权的批准率提升至 98%,远高于行业平均水平 80%。

https://www.aibase.com/zh/news/16714




4-3. 软银拟豪掷万亿美元建设全美 AI 工厂集群,机器人将成制造业主力

软银集团正计划在美国建设以人工智能为核心的产业园区,总投资可能超过1万亿美元,远超此前宣布的5000亿美元“星际之门”AI基建项目。这一计划旨在通过AI和机器人技术解决美国制造业面临的劳动力短缺问题。

软银董事长孙正义目前正与美国政府商讨合作细节,预计推出“工业园构想”。根据规划,这些园区将包括无人化工厂,利用AI自主设计生产线,并引入具备自主行走能力的人形机器人等设备。此外,软银还计划与鸿海精密工业合作,在智能手机、汽车、服务器等领域深度整合AI技术,打造减少人工依赖的新型制造模式。鸿海曾生产软银研发的机器人“Pepper”,未来或成为“星际之门”项目中AI服务器的独家供应商。

https://www.1ai.net/31823.html

图片



4-4. OpenAI豪赌400亿美金融资,却遭微软围剿!改组霸王条款,失败砍半200亿

据报道,OpenAI 即将完成一笔高达 400 亿美元的融资,这将是初创企业历史上最大规模的融资之一。然而,这笔资金并非全额到账:如果 OpenAI 无法在 2025 年底前转型为一家独立的营利性公司,它只能获得一半的资金(200 亿美元)。这一条件由软银领投设定,软银计划贡献 300 亿美元,其余部分则由微软等投资者补充。

目前,100 亿美元已确认到位,但剩余的 300 亿美元取决于转型是否成功。若改组顺利完成,OpenAI 的估值有望飙升至 3000 亿美元,成为 AI 领域的“独角兽之王”。然而,转型之路充满挑战。最大的障碍来自最大股东微软,它对改组持强硬态度,并拥有否决权。

https://www.163.com/dy/article/JRT8EJEK0511ABV6.html?spss=dy_author





AI风险与政策管理

5-1. 哈佛学霸被当场遣返,Nature曝出75%科学家想逃离美国!欧洲加拿大光速抄底

近年来,美国科学家正在大规模考虑离开美国,这一趋势引发了全球关注。根据《Nature》的调查,超过1600名科学家参与了问卷,其中约1200人表示正在考虑离开,比例高达75%,尤其是在早期职业阶段的研究人员中更为明显。特朗普政府大幅削减科研经费、收紧移民政策以及学术自由受限,是导致这一现象的主要原因。

具体来看,一位哈佛大学的俄罗斯科学家因携带未申报的青蛙胚胎样本被拘留并面临遣返,事件震惊学界。同时,许多科学家因研究资金中断或同事被解雇而选择前往欧洲、加拿大甚至墨西哥寻找机会。一位植物基因组学博士生坦言:“这是我家乡,但我不得不离开。”她正积极在欧洲和澳大利亚寻找工作。

https://www.163.com/dy/article/JRQBHEFP0511ABV6.html?spss=dy_author




5-2. 宫崎骏“怒了”?ChatGPT吉卜力风潮惹版权争议,OpenAI或面临法律挑战!

近期,OpenAI 的聊天机器人 ChatGPT 因用户大量生成“吉卜力风格”图像而引发热议。这种趋势一度风靡,甚至 OpenAI 首席执行官 Sam Altman 也调侃自己被转化为“吉卜力风格”。然而,OpenAI 迅速调整政策,限制了相关图像的生成请求。这一事件再次将生成式人工智能与版权问题推至风口浪尖。

批评者认为,模仿吉卜力风格可能侵犯了工作室动画师和出版商的知识产权。专家 Rob Rosenberg 表示,吉卜力可能有法律依据起诉 OpenAI,理由包括《兰哈姆法案》中的商标侵权和不正当竞争指控。例如,未经授权使用吉卜力的独特风格可能导致消费者混淆,误以为这些内容得到官方认可。

https://www.aibase.com/zh/news/16715





5-3. 父母用 AI 自行问诊险误孩子病情,汕头大学医学院第一附属医院提醒“用药诊断应遵循专业医生意见”

近期汕头大学医学院第一附属医院发布的一则案例提醒我们,过度依赖AI问诊可能带来严重后果。

案例中,一位名叫“欣儿”的幼儿因反复咳嗽和发热,其父母通过手机AI问诊自行判断为“普通呼吸道感染”,并按此用药。然而,实际病情是“细菌合并腺病毒感染”,这种病毒可能长期潜伏于淋巴组织,导致症状反复,甚至可能发展为重症肺炎或呼吸衰竭。由于延误治疗,欣儿的肺部炎症范围扩大,最终不得不住院治疗。

数据显示,AI在医疗领域的应用虽能提供一定参考,但其误判率仍然较高,尤其是在复杂病例中。AI工具的便捷性值得肯定,但它仅能作为辅助手段,不能替代专业医生的诊断和建议。涉及用药或治疗决策时,务必以医生的意见为准。


 

TEL


13058138036