最近,一家来自中国杭州的初创公司 深度求索 (DeepSeek)凭借发布的两款 大语言模型 (LLM),在全世界科技界掀起波澜,这两款模型的性能可与美国科技巨头开发的主流工具相媲美,但研发成本和所需算力却只是其一小部分。
重塑世界的力量不在硅谷,而在一代中国从业者的努力中。来源:石头学习笔记(ID:notes2024)原标题:AI 2025的硅谷答案:60条关键洞察编者按:2024 年末国内大模型公司的组团推新品,让人们看到了 AI 依旧火热。在硅谷,AI 从业者们在热烈讨论后,总结出了 2025 年,AI ...
龙年即将结束,但有些股民可能无心过春节了。受低成本推理模型 DeepSeek-R1 热潮影响,美股昨日开盘后迎来重挫。 周一,英伟达市值大幅下跌,损失接近 6000 亿美元,创下美国历史上公司单日市值最大跌幅。此次股价暴跌幅度达 17%,最终收盘价为 ...
除了指令微调、代码专项微调、多任务学习与多目标损失函数等拉升AI Coding能力的传统艺能外,Claude 3.5 Sonnet的强代码能力,还有部分来自于其长上下文能力,有助于模型评估需求并生成量身定制的解决方案。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
DeepSeek的低成本高效能模式彻底颠覆了硅谷的“算力至上”逻辑。其最新模型仅需600万美元的算力成本,远低于美国同行的数十亿美元投入,这直接导致美股科技股集体暴跌。截至当地时间1月27日收盘时间,英伟达股价单日暴跌17%,市值蒸发近6000亿美元 ...
白宫人工智能和加密货币事务负责人大卫·萨克斯表示,人工智能中有一种叫“蒸馏”的技术,它指的是一个模型从另一个模型中学习的过程。他认为,在接下来的几个月里,美国领先的人工智能公司将采取措施,试图防止“蒸馏”。
加星标,才能不错过每日推送!方法见文末插图 物理学从没有错失工业革命浪潮,在人工智能急速发展的今天也一样。事实上,物理学对神经网络研究历史同样悠久,如霍菲尔德的联想记忆网络,也是2024年诺贝尔物理学奖的工作。而在感知学习、无监督学习、神经动力学方面,都存在物理学思想的深刻体现。 撰文 | 黄海平(中山大学物理学院) 神经网络在当今人工智能研究和应用中发挥着不可替代的作用。它是人类在理解自我(大脑 ...