Ant Bailing Big Modelチームは先日、深層学習の推論効率を向上させるために特別に設計された2つの新しい高効率推論モデル(Ring-flash-linear-2.0とRing-mini-linear-2.0)をオープンソースとしてリリースしたことを発表しました。また、独立して開発された2つの高性能融合演算子(FP8融合演算子と線形アテンション推論融合演算子)もリリースされました。これらの演算子は、大規模なパラメータと低い活性化数での効率的な推論をサポートし、非常に長いコンテキストも処理します。
アーキテクチャ最適化と高性能演算子の相乗効果により、これらの新モデルは深層学習シナリオにおいて、同規模の高密度モデルと比較してわずか10分の1のコストを実現しています。これは、前世代のRingシリーズと比較して50%以上の削減に相当します。これは、ユーザーが複雑な推論を実行する際のコンピューティングリソースの消費を大幅に削減し、効率を向上させることができることを意味します。さらに、トレーニングエンジンと推論エンジンの演算子を密接に連携させることで、強化学習中にモデルを長期にわたって安定的に最適化することができ、複数の高難易度推論ランキングにおいて最先端のパフォーマンスを実現します。
両モデルは現在、Hugging FaceやModelScopeなどのプラットフォームでオープンソース化されており、開発者はモデルにアクセスして実験することができます。今回のオープンソース化は、Ant FinancialのAI分野における技術力を示すだけでなく、開発者に効率的なツールを提供することで、AI研究と応用におけるさらなる飛躍的な進歩を促進することが期待されます。