因配置不当，约 5000 个 AI 模型与训练数据集在公网暴露

伊森 Z

本人专注网络安全，在终端安全以及数据安全行业积累10+年经验，一直专注于安全的整体方案规划及服务建设，从非结构化数据安全到结构化数据的安全有一定的理解和认识，涉及到的能力范围有DLP、DAP、DCAP、DSG。欢迎一起交流探讨。

0879

图片来源：安全内参

一名安全研究人员透露，数千个机器学习工具已暴露在开放的互联网中，其中一些还属于大型科技公司。任何人都能访问这些工具，并存在敏感数据泄露的潜在风险。

这则消息表明，尽管公司和研究人员在人工智能研究上突飞猛进，但保护这些工具，仍需要依赖适用于其他类型账号的通用账号安全和身份验证最佳实践。

Reddit的安全研究人员兼首席安全工程师Charan Akiri在其研究报告中指出：“除了机器学习（ML）模型本身，暴露的数据还可能包括训练数据集、超参数，甚至有时是用于构建模型的原始数据。”

暴露的工具包括MLflow、Kubeflow和TensorBoard实例。这些工具通常用于帮助企业在云端训练和部署生成式AI模型，或可视化其结果。

Akiri在研究报告中写道：“这种配置错误使得未经授权的人员能够访问、下载，甚至运行敏感的机器学习模型和数据集。这类暴露事件本不应发生，因为这些平台应该仅限于内部使用。”

Akiri指出，他们已经能够识别出部分暴露实例的所有者，但他强调，“这只是整体暴露的一小部分，实际上可能还有许多公司尚未被我们识别出来。”

其中一家公司是日本的半导体制造商瑞萨电子（Renesas Electronics）。Akiri表示，通过控制面板证书中的线索，他们确认了一个机器学习工具属于瑞萨电子。外媒404 Media联系瑞萨电子请求对此事发表评论后，瑞萨电子立即撤下了暴露的控制面板，Akiri也通知了该公司这一问题。然而，瑞萨电子最终未对评论请求作出回应。

404 Media在访问几个可以通过开放互联网找到的MLFlow实例时，发现控制面板提供了创建“新运行”的选项。用户还能查看之前的实验记录，通常还能够执行与原用户相同或类似的任务。Akiri表示，他们发现了大约5000个暴露的MLFlow实例。

参考资料：https://www.404media.co/thousands-of-internal-ai-training-datasets-tools-exposed-to-anyone-on-the-internet/

转自安全内参

文章版权归原作者所有，转摘请注明出处。文章内容仅代表作者独立观点，不代表安全壹壹肆&安全114的立场，转载目的在于传递网络空间安全讯息。部分素材来源于网络，如有侵权请联系首页管理员删除。

THE END