近期推荐

给5G基带也加上机器学习单元:高通的AI脑洞还有太多
2 年前

最近,高通再次利用 AI 实现了突破性的 5G 效能,高通 CEO 安蒙发布了全球首款搭载 AI 计算核心的 5G 通信基带骁龙 X70。

深度学习撞墙了
2 年前

近年来,AI 在大数据、大模型的深度学习之路上一路狂奔,但很多核心问题依然没有解决。深度学习可能就要「撞到南墙」了,整个 AI 领域需要寻找新的出路。

单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
2 年前

谷歌提出基于 Transformer 的可微文本检索索引,明显优于双编码器模型等强大基线,并且还具有强大的泛化能力。

CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
2 年前

来自上海交通大学、Mila 魁北克人工智能研究所以及字节跳动的研究者提出了一种具有层级语义结构的自监督表征学习框架,在 ImageNet 数据集上预训练的模型在多个下游任务中取得了 SOTA 性能。

机器学习中的目标函数总结
2 年前

本文介绍机器学习中若干典型的目标函数构造方法。分为有监督学习,无监督学习,半监督学习,距离度量学习,以及强化学习进行介绍。

理解过拟合
2 年前

介绍了过拟合、欠拟合,损失函数等等,比较通俗易懂。

给GNN一堆数据,它自己发现了万有引力定律
2 年前

研究者训练了一个图神经网络,通过 30 年的轨迹数据来模拟太阳系的太阳、行星和大型卫星的动力学。然后,他们使用符号回归来发现神经网络隐式学习的力学定律解析表达式,结果表明表达式等效于牛顿万有引力定律。

Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
2 年前

本文介绍了 Fudan DISC 实验室提出的一种基于多层次语义对齐的多阶段视觉 - 语言预训练模型 MVPTR,MVPTR 是一个多阶段的视觉 - 语言表征模型和预训练方法,通过显式地学习表示不同层级的,来自图片和文本信息的语义,并且在不同的阶段对齐不同层次的语义,在大规模图片 - 文本对语料库上预训练的 MVPTR 模型在下游视觉 - 语言任务上取得了明显的进展,包括图片 - 文本检索、视觉语言问答、视觉推断、短语指代表示。

512块A100,AlphaFold训练时间从11天压缩至67小时:尤洋团队FastFold上线
2 年前

来自潞晨科技和上海交大的研究者提出了一种蛋白质结构预测模型的高效实现 FastFold。FastFold 包括一系列基于对 AlphaFold 性能全面分析的 GPU 优化。同时,通过动态轴并行和对偶异步算子,FastFold 提高了模型并行扩展的效率,超越了现有的模型并行方法。

单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
2 年前

近日,谷歌研究院在论文《Transformer Memory as a Differentiable Search Index》中提出了一种替代架构,研究者采用序列到序列 (seq2seq) 学习系统。**该研究证明使用单个 Transformer 即可完成信息检索**,其中有关语料库的所有信息都编码在模型的参数中。

自编码器26页综述论文:概念、图解和应用
2 年前

TOELT LLC 联合创始人兼首席 AI 科学家 Umberto Michelucci 对自编码器进行了全面、深入的介绍。

图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」
2 年前

Yann LeCun 最近提出了一种新思路:他认为让算法预测世界内在运行规律的「世界模型」将是关键,他提出联合嵌入预测架构(JEPA)是未来的发展方向。

LoveLive!出了一篇AI论文:生成模型自动写曲谱
2 年前

KLab 等机构提交的论文介绍了自己的节奏动作游戏生成模型,应用深度生成模型来合成乐谱,并改进乐谱的制作流程。

强化学习教父Richard Sutton新论文探索决策智能体的通用模型:寻找跨学科共性
2 年前

对于 Richard S. Sutton 最新论文《The Quest for a Common Model of the Intelligent Decision Maker》的介绍。

扎克伯格曝光Meta的小目标:AI自动生成元宇宙,实时翻译所有语言
2 年前

Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的技术。首席执行官马克 · 扎克伯格本周三表示,该公司正在研究改善人们与语音助手交流顺畅程度,以及在不同语言之间进行翻译的方式。

神经辐射场基于点,训练速度提升30倍,渲染质量超过NeRF
2 年前

来自南加州大学、Adobe Research 的研究者们提出了 Point-NeRF,该方法使用神经 3D 点云及其相关神经特征,将立体神经渲染以及深度多视图立体方法两者的优点进行结合,来建模辐射场。

速度提升45000倍,英伟达用傅里叶模型实现前所未有天气预报准确率
2 年前

在近日的一篇论文中,英伟达、劳伦斯伯克利国家实验室、密歇根大学安娜堡分校、莱斯大学等机构的研究者开发了一种基于傅里叶的神经网络预测模型 FourCastNet,它能以 0.25° 的分辨率生成关键天气变量的全球数据驱动预测,相当于赤道附近大约 30×30 km 的空间分辨率和 720×1440 像素的全球网格大小。这使得我们首次能够与欧洲中期天气预报中心(ECMWF)的高分辨率综合预测系统(IFS)模型进行直接比较。

华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
2 年前

华为诺亚方舟实验室的研究者发布了一个名为「悟空」的大型中文跨模态数据集,其中包含来自网络的 1 亿个图文对。为了保证多样性和泛化性,悟空数据集是根据一个包含 20 万个高频中文单词列表收集的。

将点云与RGB图像结合,谷歌&Waymo提出的4D-Net,成功检测远距离目标
2 年前

来自谷歌的研究者提出了一种利用 3D 点云和 RGB 感知信息的 3D 物体检测方法:4D-Net。4D-Net 能够更好地使用运动线索和密集图像信息,成功地检测遥远的目标。

3D点云识别安全吗?密歇根大学提出稳健性分析数据集应对严重失真
2 年前

近日,来自密歇根大学等机构的研究者提出了一个新颖且全面的数据集 ModelNet40-C ,以系统地测试以及进一步提高点云识别模型对于失真的稳健性。