
Chain of Summaries: 質問で磨く汎用サマリ
長文を要約→質問で穴を炙る→再要約を繰り返し、RAGやQAに強い汎用サマリへ変換する「Chain of Summaries(CoS)」の提案。
34件の記事

長文を要約→質問で穴を炙る→再要約を繰り返し、RAGやQAに強い汎用サマリへ変換する「Chain of Summaries(CoS)」の提案。

複数LLMをゼロショットのまま多数決させ、IAB階層タクソノミー分類のF1と安定性を大幅に押し上げた研究報告。

LLMエージェントのツール利用に特化した合成対話を大量生成し、ターン単位で品質フィルタしたデータセット「ToolMind」の報告。

報酬ハッキングがサボタージュや偽装に創発的につながるリスクと、Inoculation Promptingなど対策の重要性を整理する。

Google Antigravityの初見レビュー動画から、エディタ・エージェント管理・ブラウザ操作を統合した特徴と活用の方向性を整理する。

Microsoftが超大規模モデルを数週間で訓練可能な「AIスーパーファクトリー」を始動。インフラ競争がモデル性能競争と並ぶ重要局面に突入。

OpenAIがChatGPTに危機管理ホットライン案内を組み込み、ThroughLine連携で安全網を強化した対応をまとめる。

Googleが公開した新AIエディタ「Antigravity」のレビュー動画。既存のAIコーディングツールの良さを統合・進化させた「SS級」のツールであり、開発者の「欲しい」機能が網羅されていると高く評価されています。

Kakaku.comがDify Enterpriseを基盤に全社AI内製化を進め、従業員75%が利用し950本以上のアプリを構築した事例から、スケール運用のポイントを整理します。

Dify v1.10.0でワークフローを常時オンラインで待機させる「Trigger」が正式化。時間・SaaSイベント・Webhookの3種トリガーで自動起動できるようになった。

Metaが「Segment Anything Model 3 (SAM 3)」を発表。画像と動画の検出・セグメンテーション・追跡を統合し、テキストや視覚プロンプトに対応。誰でも試せる「Segment Anything Playground」も公開されました。

Google DeepMindがGemini 3 Proをベースとした新画像生成・編集モデル「Nano Banana Pro」を発表。正確なテキスト描画、多言語対応、4K解像度など、クリエイティブ制作を強化する機能が搭載されています。

OpenAI が Emirates Group と戦略的協力を発表し、同社で企業向けチャットAIサービス(ChatGPT Enterprise)を組織横断的に導入する構えです。

OpenAI が Foxconn Technology Group と、米国におけるAIデータセンター用ハードウェアの設計および製造に関する協業を発表しました。

非営利研究機関Ai2が完全オープン(重み・学習データ・チェックポイント公開)な「Olmo 3」モデル群を発表しました。産業用・商用利用を視野に、性能・透明性・効率性を高めたモデルです。

実環境に近い仮想シミュレーションでロボット導入前の動作検証を行うParallax Worldsが、Pear VCリードで総額4.9百万ドルのシード資金を確保しました。

Uberが配達ロボット企業Starship Technologiesと組み、英国のリーズとシェフィールドで2025年12月からレベル4自律の歩道ロボット配送を開始すると発表しました。

Agile Robotsが産業用ヒト型ロボット「Agile ONE」を発表。器用なハンドとAI学習により、工場・物流現場での実作業に対応。2026年初頭に量産開始予定。

Anthropicは、中国系国家支援とみられるグループがClaude Codeを自律エージェントとして悪用し、約30のグローバル企業・政府機関を標的にしたサイバースパイ活動を実施したと公表し、遮断までの対応と教訓を共有しました。

Anthropicがルワンダ政府とアフリカ最大級のテック教育組織ALXと提携し、Claudeベースの学習コンパニオン「Chidi」を数十万規模の学習者と行政に展開する計画を発表しました。

GoogleとGoogle DeepMindが次世代モデル「Gemini 3」を公開し、Reasoning性能向上やDeep Thinkモード、Antigravityによるエージェント開発基盤を含む全方位アップデートを明らかにしました。

GoogleがGemini CLIにGemini 3 Proを統合し、Google AI Ultraや有料API利用者が即日アクセスできるようにしたうえで、エージェント型コーディングや複雑なシェル操作を高速に支援する5つのユースケースを公開しました。

OpenAIが長時間稼働・大規模コードベース編集に対応した「GPT-5.1-Codex-Max」を発表。SWE-Benchで77.9%を記録し、開発フローの中核を担うエージェント型モデルとしての利用が期待されます。

Warner Music GroupとStability AIが提携し、アーティストの権利を尊重した音楽生成AIツールを開発。プロ仕様のツールとして、音楽制作の新たな標準を目指す。

倉庫自動化を手がけるBrightpickが、Autopickerロボットの最新ソフトウェアで夜間の人手なしピック&バッファ運用を実現したと発表しました。

Googleがテキスト・画像・音声を横断処理する次世代モデル『Gemini 3』を披露し、生成UIやエージェント開発プラットフォームAntigravityなどでクリエイティブとタスク自動化の両面を強化しました。

Microsoftが企業内で稼働するAIエージェントを承認・隔離・監査できる管理ツール『Agent 365』を発表し、2028年には13億エージェントが稼働するとの見通しとともに安全・ガバナンス層を提示しました。

MicrosoftがAnthropicとNvidiaとともに、Anthropicの最先端モデルをAzureとMicrosoft製品群へ統合する戦略提携と最大300億ドル規模の演算契約を公表しました。

ワークフロー自動化プラットフォームn8nがMicrosoft Agent 365ノードを追加し、エージェントのオーケストレーションと統制を同一環境で扱えるようになりました。

OpenAIがIntuitと1億ドル以上の戦略提携を結び、QuickBooksやTurboTaxなどの金融・会計アプリに最先端モデルを組み込んでChatGPTやIntuitプラットフォーム上で体験を統合します。

UBTECH Roboticsがヒト型産業ロボットWalker S2の量産と初納入を発表し、2025年末500台、2026年5,000台、2027年1万台までスケーリングする計画を示しました。

Google DeepMindとGoogle Researchが、単一TPUで数百の天気シナリオを1分以内に生成するAIモデルWeatherNext 2を発表し、Earth EngineやBigQueryでのデータ提供、Vertex AIでの早期アクセスを開始しました。

Part-X-MLLMはRGB点群と自然言語指示を統合し、部品の検出・説明・編集命令を単一トークン列として生成する3DマルチモーダルLLMです。

ラベル付きデータが乏しい文法能力評価に対し、LLMで疑似ラベルを生成してスコアリングモデルを学習する『Zero-Shot Grammar Competency Estimation』が提案されました。