Bitget App
スマートな取引を実現
暗号資産を購入市場取引先物コピートレードBotsBitget Earn
Gensyn が協調強化学習のための RL Swarm フレームワークをリリース、3 月にテストネットの立ち上げを計画

Gensyn が協調強化学習のための RL Swarm フレームワークをリリース、3 月にテストネットの立ち上げを計画

MPOSTMPOST2025/02/28 11:55
著者:MPOST

簡単に言えば Gensyn は、協調的な強化学習を促進するために RL Swarm を導入し、3 月にテストネットを立ち上げて、オープン マシン インテリジェンスの進歩への幅広い参加を可能にすることを発表しました。

機械知能ネットワーク、 ゲンシン は、インターネット上での協調的な強化学習を促進するために設計された分散型ピアツーピアシステムであるRL Swarmを導入しました。来月、このプロジェクトはテストネットを立ち上げ、オープンマシンインテリジェンスの進歩に幅広い参加を可能にする予定です。  

RL Swarm は、分散システム全体で強化学習モデルを集合的にトレーニングできる、完全にオープンソースのプラットフォームです。RL を活用したモデルは、単独でトレーニングするよりも、協調的な群れの一部としてトレーニングすると、学習効率が向上することを示す研究結果をリアルタイムで実証します。  

スウォーム ノードを操作すると、新しいスウォームを開始するか、パブリック アドレスを使用して既存のスウォームに接続することができます。各スウォーム内では、モデルが集合体として強化学習を行い、Hivemind に基づく分散型通信プロトコルを使用して知識の共有とモデルの改善を促進します。提供されたクライアント ソフトウェアを実行することで、参加者はスウォームに参加し、共有された更新を確認し、集合知の恩恵を受けながらローカルでモデルをトレーニングできます。今後は追加の実験が導入され、このテクノロジーの進歩への幅広い関与が促進される予定です。  

RL Swarm に参加して、システムを直接体験してください。参加には、標準的な消費者向けハードウェアと、より高度なクラウドベースの GPU リソースの両方が利用できます。

機械知能のためのネットワーク

2 年前、私たちは機械学習コンピューティング プロトコルのビジョンを打ち出しました。これは、ゲートキーパーや人工的な境界なしに、世界中のあらゆるデバイスをオープン ネットワークに接続して機械知能を実現するというものです。

今週は… pic.twitter.com/W9WGJHiJPI

— ジェンシン (@gensynai) 2025 年 2 月 26 日

RL Swarm はどのように機能しますか? 

ゲンシン ジェンシンは、機械学習が分散化され、広大なデバイス ネットワーク全体に分散される未来を長い間思い描いてきました。このアプローチでは、大規模な集中型モデルに頼るのではなく、モデルを小規模で相互接続されたコンポーネントに分割し、それらが連携して動作するようにします。このビジョンの研究の一環として、ジェンシンは分散型学習へのさまざまな道を模索し、最近、強化学習 (RL) 後のトレーニングは、モデルが相互に通信してフィードバックを提供する場合に特に効果的であることを確認しました。  

具体的には、実験により、RL モデルは独立してトレーニングするよりも、協調的な群れの一部としてトレーニングすると学習効率が向上することが示されています。  

この設定では、各スウォーム ノードが Qwen 2.5 1.5B モデルを実行し、構造化された 8 段階のプロセスを通じて数学の問題 (GSMXNUMXK) を解決します。最初の段階では、各モデルが独立して指定された問題の解決を試み、指定された形式で推論と回答を生成します。XNUMX 番目の段階では、モデルはピアの回答を確認し、建設的なフィードバックを提供します。最後の段階では、各モデルが大多数が最適な回答と見なすと予測するものに投票し、それに応じて回答を改良します。これらの反復的なインタラクションを通じて、モデルは集合的に問題解決能力を強化します。  

実験結果によると、この方法により学習プロセスが加速され、モデルはより少ないトレーニング反復で未知のテスト データに対してより正確な応答を生成できるようになります。  

TensorBoard を使用したデータの視覚化は、参加しているスウォーム ノードで観察された主要な傾向を示しています。これらのプロットは、共同トレーニングのラウンド間で発生する定期的な「リセット」による周期的なパターンを示しています。すべてのプロットの x 軸は、ノードがスウォームに参加してからの経過時間を表し、y 軸はさまざまなパフォーマンス メトリックを伝えます。プロットは、左から右に、モデルが応答を正しくフォーマットし、数学的に正確な回答を生成したインスタンスを測定するコンセンサス正確性報酬、ルールベースの評価 (フォーマット、数学的正確性、論理的一貫性など) の加重合計である合計報酬、モデルが報酬信号に基づいて調整して学習プロセスを最適化する方法を反映するトレーニング損失、および応答で使用されるトークンの数を追跡する応答完了長さ (モデルがピア批評を受けると簡潔になることを示します) を示しています。

0

免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。

PoolX: 資産をロックして新しいトークンをゲット
最大12%のAPR!エアドロップを継続的に獲得しましょう!
今すぐロック