人工智能走进矿山规划:首个强化学习智能体的诞生

原创 浩特智能-矿业工业出海 2025-08-20

谁是浩特?请参考下图



引言:


近年来的深度强化学习(RL)研究,往往依赖人工设计的启发式规则。例如利用DQN进行铲车调度、基于Double DQN的实时卡车调度、低碳车队的DRL方法以及课程引导的策略。相比之下,我们将Lane的理论模型重新表述为一个强化学习任务,训练一个无需任何采矿先验知识的智能体,仅通过交互学习提取策略。该整体方法不仅能解决经典的采矿问题,还能推广至其他资源优化领域。我们的目标不仅是解决问题,而是教会机器自己去解决问题。


01
让AI自己学会“挖矿”

莱恩理论构建数学模型反映了矿山的地质和运营约束,如加工能力等。同时,训练一个强化学习代理并和这个模拟环境进行交互。我们的目标是实现矿山在一段时间内的盈利能力最大化。在每一步中,代理观察状态(矿石品位和可用量),选择行动(开采多少吨矿石),并获得奖励(该奖励体现了对净现值的影响)。

通过这种方式,我们无需一次性解决复杂的积分问题,而是训练代理通过反复试错来逐步学习最优开采策略。主要步骤包括:

💡用 Lane理论 搭建一个虚拟矿山世界,包含矿石、储量、加工能力等约束;

💡放进一个强化学习智能体,让它在这个世界里“自由挖矿”;

💡它会尝试各种开采方式,得到奖励或惩罚(对NPV的影响),逐渐学会最优策略。

为了便于理解,我们将简要解释各项研究发现。1988 年,莱恩证明了图 1 所示的方程,通过求解 0 到 R 范围内的定积分,可以估算最大经济价值。我们可以把它理解为:与其一次性解一个复杂的积分方程,我们选择让智能体像人一样在尝试与错误中逐渐进步。





图1 缩略语


以下图片列出了本摘要中使用的缩略语:


莱恩在 1988 年提出的矿石经济定义通过动态规划解决了这一问题。随后,萨顿和巴托利用贝尔曼方程和马尔可夫链,将其转化为强化学习形式,以定义最优策略(方程 1 和方程 2)。在我 2024 年的硕士论文中,我将莱恩积分重新构建为一个 Q 学习问题,并证明了它们的等价性(方程 3 和方程 4)。我们在一个简化的矿山模型上构建并测试了一个软件原型,还添加了基于图的数据结构,用于记录代理的学习路径并整合规划能力。



02
Lane理论的关键启示


从公式到智能化

结果显示净现值持续增长,表明智能代理正逐步接近最大值。强化学习代理会根据矿石品位和产能调整开采和加工方案,且仅从环境中学习。它所找到的最优解和其他可行解都对工程分析具有参考价值。

矿业数字化 2025 第十二届国际矿业自动化、机器人与数字化大会 累计现金流散点图 1.70 145 11 1.55 300 1.50 27.5 39 现金流分析 净现值分布 - 1000 次模拟 现金流(百万美元) 11 亿美元 10.6 亿美元 10.6 亿美元 10.2 亿美元 10 亿美元 


03
当机器开始“聪明挖矿”
实验结果表明:
  • 智能体不仅能找到最优解,还能生成一系列“可行解”,为工程师提供更多参考;

  • 它学会根据矿石品位、加工能力灵活调整策略;

  • 净现值持续上升,说明它真的在接近最大化目标。

举个例子:
如果市场突然暴跌,传统规划可能完全失效,需要人工重算。而智能体会像老司机一样,迅速调整方向,选择“先采高品位矿,暂缓低品位矿”,让整体收益保持稳定。


04
矿业的未来发展迎来智能化

通过把强化学习与Lane理论结合,我们打造了一个能够适应环境、市场甚至政策变化的矿山规划智能体。它是世界上第一个无需采矿经验、完全靠强化学习来解决战略矿山规划问题的AI智能体。这不仅是一个科研突破,更是矿业未来的缩影。

  • 智能化:AI能实时学习和调整,替代传统的僵化计划。

  • 绿色低碳:它可以主动优化车队调度,减少能源浪费。

  • 全球应用:从铜矿到铁矿,从南美到亚洲,任何资源优化问题都能借鉴。

未来的矿山,不再是“铁与火的世界”,而是一个 智能调度、绿色高效的数字化矿山。



📌 延伸阅读推荐

MANUFACTURE

  • Sutton & Barto《Reinforcement Learning: An Introduction》

  • Lane(1988)矿山经济价值模型

  • AI 在能源调度与交通优化中的应用案例





END

素材收集及整理:



孔灿

国际市场营销

实习生


四川外国语大学成都学院 翻译专业(在读)

专业方向:英语,二外选修德语

在校期间曾获阅读竞赛一等奖,词汇竞赛三等奖,优秀学生干部,优秀志愿者等。目前已获取英语专业四级证书,国际英语人才初级证书。多次参与市级志愿者活动,如成都市2023世界科幻大会,成都市国际工业博览会等。







X射线智能矿石分选机


HOT智能X射线分选机,是集X光、传感技术、电、气、磁于一体的高科技矿石分选设备,具有精准快速识别不同密度矿石的功能。自主研发全系列不同分辨率和不同能量谱段的 X 射线探测器,支持特殊定制和深度优化。



采选技术导航

联系
客服

在线客服服务时间:9:00-6:00

您想沟通客服列表

客服
热线

028-83311885
7*24小时客服服务热线

X

X

欢迎来到浩沃特!
请问有什么需要帮助的吗?