字幕表 動画を再生する
Welcome back to our annual Nureep's Guide.
毎年恒例のヌレープガイドへようこそ。
In this video, we're diving into some of the most noteworthy and impactful papers from this year's conference, giving you a front-row seat to the latest developments in AI.
このビデオでは、今年のカンファレンスで最も注目され、インパクトのあった論文のいくつかを紹介し、AIの最新動向を最前列でご覧いただきます。
Let's kick things off with this paper on graph neural networks, which earned the highest review scores of the conference.
まずは、この会議で最も高いレビュースコアを獲得したグラフ・ニューラル・ネットワークに関する論文から始めよう。
The authors identify a unifying mechanism called representation scattering that enhances various contrastive learning algorithms.
著者らは、様々な対比学習アルゴリズムを強化する、表現散乱と呼ばれる統一的なメカニズムを明らかにしている。
They propose a new framework that combines this scattering mechanism with a topology-based constraint to improve representation diversity and prevent over-scattering.
彼らは、この散乱メカニズムをトポロジーベースの制約と組み合わせることで、表現の多様性を向上させ、過剰散乱を防ぐ新しいフレームワークを提案している。
Their benchmarks show state-of-the-art performance, solidifying this as a milestone in graph learning.
彼らのベンチマークは最先端の性能を示しており、グラフ学習のマイルストーンとして確固たるものとなっている。
Next, we have differentiable logic gate networks.
次に、微分可能な論理ゲートネットワークである。
These models use a relaxed, differentiable formulation of logic gates to achieve faster, more efficient inference compared to traditional neural networks.
これらのモデルは、従来のニューラルネットワークと比較して、より高速で効率的な推論を実現するために、論理ゲートの緩和された微分可能な定式化を使用している。
By introducing deep logic gate tree convolutions, or pooling, and residual initializations, The authors scaled these networks, achieving 86.29% accuracy on CIFAR-10 using just 61 million logic gates, being 29 times smaller than competing methods.
深い論理ゲートツリーの畳み込み(プーリング)と残差初期化を導入することで、著者らはこれらのネットワークを拡張し、わずか6100万論理ゲートを使用してCIFAR-10で86.29%の精度を達成した。
We also wanted to give a shout-out to the RoadLess Scheduled, which reimagines optimization by eliminating the need for learning rate schedules, all while maintaining state-of-the-art performance across a variety of tasks.
また、さまざまなタスクで最先端のパフォーマンスを維持しながら、学習率スケジュールを不要にすることで最適化を再構築したRoadLess Scheduledにも賞賛を送りたい。
For those that seek alternatives to the transformer architecture, XLSTM introduces two variants to address the limitations of traditional LSTMs.
トランスフォーマーアーキテクチャーの代替を求める人のために、XLSTMは従来のLSTMの限界に対処する2つの変種を導入している。
The SLSTM uses scalar memory and exponential gating, while the MLSTM employs matrix memory and a covariance update rule, enabling better parallelization.
SLSTMはスカラーメモリと指数ゲーティングを使用し、MLSTMは行列メモリと共分散更新ルールを使用することで、より優れた並列化を可能にする。
These models outperform modern alternatives like transformers and state-space models, particularly in scaling and efficiency, making them a noteworthy contender in language modeling.
これらのモデルは、変換器や状態空間モデルのような最新の代替モデルを、特にスケーリングと効率において凌駕しており、言語モデリングにおいて注目すべき候補となっている。
Speaking of attention, Flash Attention 3 pushes the envelope with an asynchronous, low-precision mechanism that significantly speeds up attention computations on GPUs, a big step forward for efficient training and inference.
アテンションといえば、フラッシュ・アテンション3は、GPU上でのアテンション計算を大幅に高速化する非同期、低精度のメカニズムで限界を押し広げ、効率的なトレーニングと推論に大きな前進をもたらした。
Spherical Diffusion combines a dynamics-informed diffusion framework with the Spherical Fourier Neural Operator to create highly accurate, physically consistent climate simulations.
Spherical Diffusionは、ダイナミクスに基づいた拡散フレームワークとSpherical Fourier Neural Operatorを組み合わせ、高精度で物理的に一貫性のある気候シミュレーションを行います。
This model can emulate 100-year climate trajectories at 6 hourly intervals with minimal computational overhead, which marks a major breakthrough in climate modeling, offering stable, high-resolution simulations at a low cost.
このモデルは、最小限の計算オーバーヘッドで6時間間隔の100年気候の軌跡をエミュレートすることができ、安定した高解像度シミュレーションを低コストで提供するという、気候モデリングにおける大きなブレークスルーを示している。
Another standout is Trajectory Flow Matching, a simulation-free approach for training neural differential equation models.
もうひとつの特筆すべき点は、ニューラル微分方程式モデルを訓練するためのシミュレーション不要のアプローチである軌跡フロー・マッチングだ。
This method excels at clinical time-series modeling, offering improved trajectory predictions and better uncertainty quantification.
この方法は臨床時系列モデリングに優れており、軌道予測の改善と不確実性の定量化が可能である。
A team from UC Berkeley reframed humanoid control as a next-token prediction problem, similar to language modeling.
カリフォルニア大学バークレー校の研究チームは、ヒューマノイドの制御を、言語モデリングと同様に、次のトークンを予測する問題として捉え直した。
Using a causal transformer trained on diverse sensorimotor datasets, including YouTube videos, they enabled a robot to walk in real-world environments, like the streets of San Francisco, zero-shot.
YouTubeの動画を含む多様な感覚運動データセットで学習させた因果変換器を用いて、ロボットがサンフランシスコの通りのような実環境をゼロショットで歩行することを可能にした。
On the LLM front, Row1 snagged a Best Paper award for its selective language modeling approach.
LLMの面では、ロウワンが選択的言語モデリング・アプローチで最優秀論文賞を獲得した。
By training on the most informative tokens, rather than all tokens, it achieves state-of-the-art performance on benchmarks like math, with significantly fewer pre-training tokens.
すべてのトークンではなく、最も情報量の多いトークンで学習することで、数学のようなベンチマークにおいて、少ない事前学習トークンで最先端の性能を達成する。
Special mentions go to SGLang, a system for efficiently programming complex language model workflows, and Buffer of Thoughts, a framework for reasoning that improves accuracy, efficiency, and robustness by storing high-level thought processes.
特に、複雑な言語モデルのワークフローを効率的にプログラミングするシステムであるSGLangと、高レベルの思考プロセスを保存することで正確性、効率性、堅牢性を向上させる推論のためのフレームワークであるBuffer of Thoughtsに言及する。
Next, DeepMind's work on many-shot in-context learning demonstrated how to leverage GemIIni's expanded context windows to incorporate hundreds or even thousands of examples.
次に、DeepMindの多ショットインコンテキスト学習に関する研究は、GemIIniの拡張コンテキストウィンドウを活用して、数百、数千の例を組み込む方法を示した。
Their findings showed significant performance gains across various tasks, introducing techniques like reinforced ICL and unsupervised ICL, highlighting the potential of in-context learning to rival fine-tuning in certain scenarios.
その結果、強化ICLや教師なしICLのようなテクニックを導入することで、さまざまなタスクでパフォーマンスが大幅に向上することが示され、特定のシナリオで微調整に匹敵するコンテキスト内学習の可能性が強調された。
Multimodality remains a hot topic, and CambrianOne steps up with a family of vision-centric multimodal large-language models.
マルチモーダリティは依然としてホットなトピックであり、CambrianOneは視覚を中心としたマルチモーダル大規模言語モデルファミリーを提供しています。
Using their new Spatial Vision Aggregator, the authors bridge the gap between language and vision, achieving state-of-the-art results and releasing a treasure trove of resources for the community.
新しい空間ビジョンアグリゲータを使用することで、言語とビジョンのギャップを埋め、最先端の結果を達成し、コミュニティのためのリソースの宝庫をリリースした。
On the image generation front, unlike traditional raster-scan token prediction, Visual Autoregressive Modeling uses a course-defined next-scale prediction approach, outperforming diffusion transformers on metrics like FID while being 20 times faster.
画像生成の面では、従来のラスタースキャンによるトークン予測とは異なり、Visual Autoregressive Modelingは、コース定義のネクストスケール予測アプローチを使用し、FIDのようなメトリクスで拡散変換を上回り、20倍高速である。
Finally, a new method for iterative reasoning optimizes chain-of-thought preferences using a refined DPO loss function with an additional negative log-likelihood term.
最後に、反復推論のための新しい方法は、負の対数尤度項を追加した精緻なDPO損失関数を用いて、思考連鎖選好を最適化する。
The approach significantly boosts accuracy on reasoning benchmarks like GSM 8k and math, outperforming other LLAMA2-based models.
このアプローチは、GSM 8kや数学のような推論ベンチマークにおいて精度を大幅に向上させ、他のLLAMA2ベースのモデルよりも優れている。
That's a wrap on our NeurIPS 2024 highlights.
以上、NeurIPS 2024のハイライトをお伝えした。
Did we miss a paper you think deserved the spotlight?
スポットライトを浴びるにふさわしいと思われる論文を見落としたか?
Let us know in the comments below.
下のコメントで教えてください。
Thanks for watching, and as always, enjoy discovery!
いつもご覧いただきありがとうございます!
www.neurips.com
www.neurips.com