
Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告
Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。
34件の記事

Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。

Anthropicが、並行作業やビジュアルな差分レビュー機能を備えた開発者向けGUIアプリ「Claude Code Desktop」のドキュメントを公開しました。

Anthropicが世界各都市でClaudeを中心としたミートアップやハッカソンを主導する「Claude Community Ambassadors」のメンバー募集を開始しました。

Anthropicが、既存のAnthropic契約枠の予算を使用して連携パートナー企業のAIツールを購入・導入できる「Claude Marketplace」を発表しました。

OpenAIがソフトウェアコードの脆弱性の発見から修正パッチ作成までを自律的に行うセキュリティエージェント「Codex Security」のプレビュー公開を開始しました。

OpenAIが「GPT-5.4」の長文脈・エージェント性能を最大限に引き出すための公式プロンプトガイドラインを公開しました。

Anthropicは、米・戦争省から「サプライチェーンリスク」の指定を受けたことに対し、法的根拠がないとして法廷で争う姿勢を表明しました。

Anthropicは、AIが労働市場に与える影響につき「理論上できること」と「実際の利用データ」を掛け合わせた新分析結果を公開。大規模な失業の兆候は現時点で見られません。

OpenAIの大規模言語モデルが直接Excelに介入し、データ整理や分析を支援してくれる「ChatGPT for Excel」ベータ版がリリースされました。

みずほFGは、自社環境(オンプレミス)で安全に稼働し、トップクラスの精度を持つ金融領域特化の独自LLMの開発に成功しました。

OpenAI Codexに、コード生成の待機時間を大幅に削る「Fast mode」と超軽量モデル「Codex-Spark」が追加されました。

OpenAIがPCの自律操作と「思考制御」が可能な最新フロンティアモデル『GPT-5.4』シリーズをリリースしました。

OpenAIは、推論モデルが自分自身の「思考の過程(CoT)」をうまくコントロール(隠蔽や操作)できないという、AIの安全性においてポジティブな研究結果を発表しました。

「コードはテストするのに、AIのスキルはなぜテストしないのか?」を問う、エージェント用スキルの評価(Eval)に関する実践的ガイドが公開されました。

X Article「上位1%のClaude Skills構築方法」では、業務ノウハウをClaude Skillsとして組み込み自律型AIを作る5ステップを解説。逆質問・モジュール化・失敗パターンの蓄積が鍵。

gws(Google Workspace CLI)がOSS公開。Drive・Gmail・CalendarなどWorkspace全APIをコマンド一本で操作でき、AIエージェントスキル100本超・Gemini CLI拡張・MCPサーバーが付属する。

X Article「How To Be A World-Class Agentic Engineer」から15の実践原則を解説。コンテキスト管理の失敗がパフォーマンス最大の阻害要因であり、シンプルさと契約ベースの終了条件が鍵。

Onbo Hubは人気モバイルアプリのオンボーディングフローをスクリーンショット付きで一覧できるサービス。デザインパターン研究やCVR改善のリファレンスとして活用できる。

OpenAIのCodexデスクトップアプリがMicrosoftストで公開。複数のコーディングエージェントをプロジェクト・スレッド単位で管理し、Windowsセキュアサンドボックス内で安全に並列実行できる。

Codex CLI v0.110.0リリース。スキル・MCPエントリを一括管理するプラグイン機構、マルチエージェント承認フロー、ワークスペース単位のメモリ管理などが加わり実用性が高まった。

OpenAIがSymphonyフレームワークをGitHubで公開。チームがコーディングエージェントを監視する代わりに、タスクを高レベルで管理できる仕組みを提供する。

QwenのOpenSource最前線を担った林俊旸がアリバを退職申請。後任にはGoogleDeepMind出身の周浩が浮上し、阿里AIの戦略転換が急加速している。

Claude skill-creator がevalテスト・並列エージェント評価・A/B比較・説明文最適化を追加。コードを書かずにAgent Skillsの品質を定量計測・改善できるようになった。

Gemini 3.1 Flash-Lite は入力$0.25/1Mトークンでgemini 3シリーズ最安値、2.5 Flashより2.5倍高速なGoogleのコスト効率特化AIモデル。高ボリューム翻訳・コンテンツモデレーションに最適。

GPT-5.3 Instant は幻覚率を医療・法律・金融で最大26.8%削減し、不要な断りや前置きを大幅に減らした最新のChatGPT標準モデル。ChatGPT全ユーザーが即日利用できる。

arXivにLLMエージェントのスキル概念を体系化したSoK論文が登録。7つの設計パターン、超大規樯な悪意スキル扝入事例、安全ガバナンスの課題を包括的に整理。エージェント設計者必見。

Alibaba CloudがAI Coding Planを提供開始。Qwen3-Coder-Plusを月額固定で利用可能(Lite 18,000回/月、Pro 90,000回/月)。Cline・Claude Code・Qwen Codeに対応したコーディングAI定額プラン。

Claude Code向けの無料広告監査スキル『Claude Ads』がOSSで公開。Google・Meta等6プラットフォームを186項目で自動チェックし、MCPでAPIに直接アクセスしてネガティブキーワード設定まで30秒で自動化する。

Claude Codeをコーディング以外の日常業務に活用する実践ガイド。経費精算・プレゼン資料・メール監視などを「半自動化」で爆速化するコツを、Claude Code日常業務活用の具体事例で解説。

Claude CodeでPlanモード後に質問を続けるとコンテキストが汚染され性能が落ちる問題を、/rewindと/forkコマンドで解決する実践的Tipsを解説。コンテキスト汚染を防ぐClaude Code活用術。

AnthropicがClaude有料プラン向けにAIメモリのインポート機能を公開。ChatGPTやGeminiで蓄積したコンテキストを2ステップでClaudeへ移行でき、AIの乗り換えコストを大幅に引き下げる。

Gemini CLI向けExtensions Marketplaceがgeminicli.comに登場。mcp-neo4j・pickle-rick・sonarqube-mcp-serverなどを中心に全430の拡張を一覧できる開発者向けプラットフォーム。

Gemini CLI向けの画像生成・編集・修復拡張機能『Nano Banana』がGitHub上で公開。テキストプロンプトから画像を生成でき、3モデルに対応。インストールは1コマンドで完了する。

AlibabaのQwen3.5シリーズがHuggingFaceに公開。MoE構造の0.8B~397Bまで8サイズ展開で、フラッグシップQwen3.5-397B-A17BはHuggingFace上で100万以上のダウンロードを記録(2026-03-03確認時点)。FP8量子化版も提供。