Recent posts
Cursor Long running agents も完了条件を満たすか、所定の時間を経過するまで最大限の努力を行う。 Claude Code や Codex の /goal コマンドに萌えを感じないのは、非同期エージェントで普通に存在する機能だから。

Devin には、Claude Code や Codex の /goal コマンドのような機能は不要。生まれつきのネイティブな自律型エージェント。 驚くべきことは、2024年12月一般公開された時点からそうだったこと。

Devin の Android仮想デバイス(AVD)を検証するプロジェクトとして、Cursory の Android 版を作りますかね。

Devin をぶん回せるのは「エンプラ」か、限られた「富裕層」ですかねw

コスト的に厳しくて、ぶん回す用途を諦めています……(というかぶん回す用途しかなくて……)
とかく話題になる「ハーネス」だけど、どのツールも一定以上の精度はあるので、「ワークフロー」にもっと目を向けるステージだと思います。 コーディングが10倍速くなったも、10倍速くリリースやデプロイができるわけではありません。
Claude Code、Codex にもクラウド上のサンドボックスはあるけど、機能性では Devin、Cloud Agents とはかなり差がある。 それでも、もっと活用した方がよいと私は思うけど。
Cloud Agents が Devin に対して明確に優れている点、コスト。Cloud Agents は現時点では モデル課金のみでインフラは無料状態。Composer 2.5 を使えば特にコスト高。

Composer 2.5、Opus 4.7、GPT-5.5 との比較もいろいろアップされているけど、タスク依存、使い方依存。 どれだと「○○できない」という評価も、人が違えば結果も違うので、自分で評価するのが一番だとと思いますよ。
論理的な分析タスク、Data Analyst Agent (DANA) に任せて、今夜は寝る。DANA はあまり使ったことがなかったので、結果が楽しみ。

私も日次のリポ更新の要約を Slack に送信する Automations を使っている。日毎に何をやったか、振り返ることができて、とても良い。 欲を言えば、Automations も複数リポジトリに対応して欲しいかな。

サブエージェントに指示を渡す時点、結果が戻る時点でのコンテキストの欠落は意外に馬鹿にならない。メインのエージェントには、サブエージェントの結果を盲信しないで検証するように指示しないと、思わぬ誤判断が紛れ込む原因にもなる。







