Recent posts
#ICML2026に論文2本採択!そしてちょうど同じタイミングでTMLRにも1本採択された。ソウルでお会いしましょう!🇰🇷
原文を表示 (en)
2 papers accepted to #ICML2026! Also (by a happy coincidence), 1 more accepted to TMLR at the same time. See you all in Seoul! 🇰🇷

ICML'26に論文2件、あとTMLRに論文1件が(偶然同じタイミングに)採択されました!以前公開したSoftMatcha 2に加え、拡散言語モデルにおいて複数モデルを協調させる推論時スケーリングの話、難しいreasoning系問題を解くためにLLMをPythonインタプリタになりきらせてみる話などなど。また詳細は追々。

ICML'26に論文2件、あとTMLRに論文1件が(偶然同じタイミングに)採択されました!以前公開したSoftMatcha 2に加え、拡散言語モデルにおいて複数モデルを協調させる推論時スケーリングの話、難しいreasoning系問題を解くためにLLMをPythonインタプリタになりきらせてみる話などなど。また詳細は追々。

LLMは指示通り確率的な振る舞いが出来るか。個人的にもずっと解いてみたかった問題だったんですが、一風変わったプロンプト(だけ)でとても上手くいくことを発見できました。今週からの #ICLR2026 で発表あります。 こういった確率的な指示に対する追従性は、ある種 "言語モデル" としての本能に逆 らう部分があります。このプロンプトを発見するに至る経緯は結構面白く、最初は工夫した追加学習で解決しようとしてたのですが、学習に使うプロンプトを試行錯誤していると、いつしか最初のイテレーションから出来てない?となり、気づいたらプロンプトだけで解決していたという。 このプロンプトには実用性があり、アイディア出しや創作等の状況における出力の多様性を上げる効果も観測出来ました。言うまでもなくこれは推論時スケーリングととても相性が良いんですよね。手軽に多様性をブーストする方法として社内でも既に試してもらってます。

LLMは頭の中でコイントスができるか? ブログ:https://t.co/Jp9ubKDK7x 論文(#ICLR2026):https://t.co/9yt4aAsGrW 一見簡単そうで奥深いこの問題を「プロンプトだけ」で解決した論文 "SSoT: Prompting LLMs for Distribution-Faithful and Diverse Generation" が #ICLR2026 に採択されました。 LLMに「コイントスをして」と100回プロンプトすると、出力の表と裏の比率は50:50から大きく離れてしまいます。明示的に確率の指示が与えられても、LLMがそれに忠実に従って出力を生成することは難しい問題です。 このことは、コイントスに留まりません。LLMに小説のアイデアを何本か出してもらったら似たような案ばかり出てきた、という経験はないでしょうか。コイントスを歪ませるのと同じ確率的な偏りが、創作やブレインストーミングなど多様な出力が求められるタスク全般で多様性を抑制しています。 私たちはこれらの問題の解決策として、String Seed of Thought (SSoT)というプロンプトを発見しました。SSoTは、LLMに頭の中で一旦ランダムな文字列を考えさせ、その文字列を操作させて結果を出力させるという非常にシンプルな手法です。外部の乱数生成器は一切使いません。 SSoTにより出力のバイアスはオープンモデルでもクローズドなモデルでも幅広いLLMで低減されます。一部のreasoningモデルでは、実際に乱数を使った場合とほぼ変わらない精度を達成しました。これは、2択の選択肢だけでなく一般の離散分布について有効です。 さらに重要なのは、SSoTはモデル出力の多様性を高めるのに使えることです。創作的な文書作成などにおいて、SSoTをプロンプトに加えるだけで、出力される文書などの多様性が高まることがわかりました。 本手法はコンテンツ生成やアイディア出し、推論時スケーリングの新手法の開発など、LLMを実世界のシステムに組み込んでいく上で重要な基盤になると考えています。 SSoTのメカニズム、理論的な解析、インタラクティブなデモについてはブログと論文をご覧ください。 OpenReview:https://t.co/XVEi2kXTrq
「作ってわかる大規模言語モデルの仕組み」を著者の @h0shi__x さんから恵贈頂きました!序盤はコードが多くて丁寧に進めつつ、最新のトピックまでスムーズに繋げてるのがいいなと思いました。ぜひ。 https://amzn.asia/d/04fh7Dcc

新サービス「Sakana Marlin」の発表&βテスターの募集です!他のDeep Researchより更に入念に調べ、その分めっちゃ詳しいレポートが出ます。僕らのチームで開発した技術AB-MCTSが活用されてます。

🐟Ultra Deep Researchアシスタント「Sakana Marlin」、βテスター募集🐟 Sakana AIは、当社初の商用プロダクトとして、独自のエージェント技術によるビジネス向けAIリサーチアシスタント「Sakana Marlin」を開発しました。 https://t.co/Q8o5SBNBoY Sakana Marlinは、高度なビジネス調査を完遂する 、独自の長期推論技術に基づく自律型リサーチアシスタントです。 主な特徴 ・ テーマを与えると、8時間近くにわたり自律的にリサーチ ・ 詳細な調査ドキュメントとまとめスライドを自動生成 ・ 複数人のチームが数週間かけるプロフェッショナルな戦略調査を想定 複雑な社会情勢の中で良質な判断を下すため、AIのポテンシャルを最大限生かすソリューションとして構想しました。 本技術は、先日Nature誌にも掲載された科学的発見の自動化「AIサイエンティスト」の知見と、戦略的探索を可能にする「AB-MCTS」を融合。長く考えた分だけアウトプットの質が向上する「効率的な推論スケーリング」を実現しています。 クローズドβテストを実施します 金融機関・事業会社の経営戦略/事業企画部門、コンサルファーム、シンクタンクなど、日常的に高度なリサーチに取り組む方が対象です(期間中無料)。皆様からのフィードバックをもとに改善を重ねていきます。 ▼ クローズドβテスター応募はこちら https://t.co/fkaCwJceHb

本件、個人的にとても反省しております。 Sakana AIでは魚に関連した日本語をプロジェクト名に利用する慣習があります。本プロジェクトについて初期に暫定的につけた名前がNamazuでした。その後、リリースに当たって様々な正式名称案を広く検討しましたが、商標調査・人気投票・ステークホルダー間の 議論等の過程を行き来し(これはとても難航しました)、最終的にNamazuだけが候補に残りました。恥ずかしながら、我々の大部分は全文検索システムNamazuを存じ上げておりませんでした。会社全体がNamazuという名前でリリースされることを数ヶ月前から認識していましたが、名前について懸念する声は上がりませんでした。 今回の指摘を受けて、個人的にも改めて調査をさせて頂きました。世代的なギャップもあり、最初はピンと来なかったのですが、全文検索システムNamazuは90年代後半から日本のウェブを支えた重要な存在であることをやっと実感することが出来ました。また、大きな感銘を受けたのが、作者の高林哲さんについて知ることが出来たことです。私は技術書をじっくり読むのがとても苦手な性格をしており、ちゃんと読んだ認識のある技術書は多くありません。高林さんは、そんな私が何度も開いた数少ない思い出の技術書の1つ「Binary Hacks」の著者でもある、ということを今更ながら知るとともに、敬意・感謝・申し訳なさがとても強まりました。(Binary Hacksに関する私の2024年のポスト: https://t.co/bvQ04f7KcY ) 高林さんに直接ご相談し、名称変更の覚悟も含めてお詫びを差し上げたところ、名称は問題視せず、また身に余る応援のお言葉を頂きました。自分の至らなさを反省するとともに、今後も精一杯頑張ります。

【新LLMシリーズ「Namazu」の名称について】 先日、公開した Sakana Chat(https://t.co/l9j4NPDX4o)に搭載した新LLMシリーズ「Namazu」の名称に関して、1990年代から2000年代にかけて広く親しまれた全文検索システム「Namazu」を想起される皆様から、貴重なご意見をいただきました。 全文検索システムNamazuは、日本語全文検索の礎を築いたシステムです。Sakana AIではNamazuの命名に際して商標等の法的な確認は行っていたものの、この分野の歴史的背景に対するリサーチが不足しておりました。 ご指摘を受け、全文検索システムNamazuの作者である高林様へ当社からご連絡差し上げ、経緯のご説明とともに、名称について相談いたしました。高林様からは、名称の使用をご快諾いただいたのみならず、「Namazuの発展に期待している」という旨の激励のお言葉を頂戴いたしました(私信のため大意のみ)。 偉大な先達が築き上げたその名に相応しいものとなるよう、今後の開発に取り組んでまいります。
