
AIエージェント評価の実践ガイド:Anthropicが明かす設計と運用
AIエージェントの評価手法を体系的に解説。タスク・トライアル・グレーダー・トランスクリプトなど基本概念から、コーディング・会話・リサーチエージェント別の評価設計、20〜50タスクから始める実践的ロードマップまで網羅しています。
34件の記事

AIエージェントの評価手法を体系的に解説。タスク・トライアル・グレーダー・トランスクリプトなど基本概念から、コーディング・会話・リサーチエージェント別の評価設計、20〜50タスクから始める実践的ロードマップまで網羅しています。

生成AI導入が失敗する根本原因は、AIの苦手な問いをそのまま投げていること。完璧性を要求する業務、ステップが長く連鎖する業務は避け、全体感が正しければ成果になる仕事にAIを活用する設計が重要です。

GoogleがGmailに新AI機能を導入。「Help Me Write」で執筆スタイルを学習して提案、AI Overviews風の会話型検索、受信箱からToDoリストを自動生成するAI Inboxなど、30億ユーザーの生産性を変える可能性があります。

Alibabaが発表したQwen3-VL-EmbeddingとRerankerは、テキスト・画像・動画を横断するマルチモーダル情報検索に特化したモデル。MMEB-V2とMMTEBでSOTA達成。2B/8Bサイズで企業のRAGシステム強化に活用可能です。

AISmileyが金融・保険業界向けAIソリューションのカオスマップを公開しました。リスク管理の高度化と収益機会の創出を革新する最新AIソリューションを一覧で把握できます。

AMDがCES 2026でノートPC向けAIプロセッサ「Ryzen AI 400シリーズ」とAI特化GPU「MI455X」を発表しました。60TOPSのNPU搭載でIntel Core Ultra 9比1.7倍、MI455Xは前世代比10倍の性能向上を実現します。

CES 2026でAIを搭載したコンパニオンロボットやペット型デバイスが多数展示されました。LG CLOiDやSwitchBot Onero H1などの実用的なヒューマノイドだけでなく、「存在するだけ」を目的としたAI機器が新たなトレンドとして注目されています。

Hyundai Motor GroupのRobotics LABがCES Foundry 2026で、DEEPX社と共同開発したオンデバイスAIチップの量産開始を発表しました。5ワット以下で動作するエッジAIチップがロボットの自律運転を実現します。

Microsoftがリテール業界向けにエージェントAIソリューションを発表しました。Copilot Checkoutで会話から購入まで完結し、Brand AgentsやCopilot Studioのテンプレートでパーソナライズされたショッピング体験を提供します。

ChatGPT連携のAIイヤホン「NeoVoice」がMakuakeで目標金額の1651%を達成しました。115言語のリアルタイム翻訳、録音、文字起こし、要約機能をこれ1台で実現します。

ArmがPhysical AI専門の事業部門を立ち上げ、ロボティクス市場への本格参入を表明しました。CPUアーキテクチャの強みを活かし、ロボットや自律システム向け半導体エコシステムの構築を目指します。

OpenAIが週2.3億人の健康関連クエリに対応する専用機能「ChatGPT Health」を発表。Apple Health、MyFitnessPalなどとデータ連携し、医療記録の確認や健康管理をAIがサポート。プライバシー重視でトレーニングには使用されない設計。

DatabricksはAIエージェントのデータ検索精度を向上させる新アーキテクチャ「Instructed Retriever」を発表しました。従来のRAGと比較して70%の精度向上を達成し、曖昧なクエリでも暗黙の条件を明示的な検索パラメータに変換できます。

ビジネスプロセス管理プラットフォームのFlowfinityが、ワークフローにAIアシスタントを組み込んだ大型アップデートを発表しました。アクセス制御機能も強化され、セキュリティと利便性を両立しています。

NVIDIAがCES 2026で発表したAlpamayoは、100億パラメータのVision-Language-Actionモデルを核とするオープンな自動運転AIプラットフォームです。従来の知覚ベースシステムと異なり、推論・判断・説明能力を持ち、Level 4自動運転の実現を目指します。

OpenRouterを使えばClaude Codeで任意のAIモデル(GPT-5.1、GPT-5.2など)を利用可能です。環境変数を設定するだけでAnthropicモデル以外も活用でき、GitHub Actionsでの自動化にも対応しています。

Claude Opus 4.5のリリースを受けて「コーディングは終わりに近い」という投稿が議論を呼びました。著者はソフトウェアエンジニアリングの歴史を振り返りつつ、AIと人間が共進化する時代の新しい職能について考察しています。

TensorがCES 2026でPhysical AI向けオープンソーストレーニングプラットフォーム「OpenTau(τ)」を発表しました。ロボットや自律システムの開発を加速させる強力なAIトレーニングツールチェーンです。

Boston DynamicsとGoogle DeepMindがCES 2026で戦略的提携を発表しました。DeepMindのGemini Robotics基盤モデルを新型Atlasロボットに統合し、自動車産業を皮切りに製造業変革を目指します。

AI分析プラットフォームのCogziaとマーケティングエージェンシーのMarketing Mavenが戦略的パートナーシップを発表しました。AIを活用したマーケティング分析と戦略立案のサービスを共同で提供します。

MicrosoftがOfficeスイートをMicrosoft 365 Copilotにリブランドしたことで、プライバシー懸念やAI統合への反発がユーザー間で拡大しています。企業向けには好評な一方、個人ユーザーには戸惑いと不満が広がっています。

NVIDIAがCES 2026でフィジカルAI向け新オープンモデル群を発表しました。Cosmos世界モデル、GR00T N1.6視覚言語行動モデル、Jetson Thor搭載ヒューマノイドなど、ロボット開発の次世代インフラを一挙公開しています。

RazerがCES 2026でAI搭載ウェアラブルヘッドセット「Project Motoko」を発表しました。耳カップにデュアルカメラを搭載し、OpenAI・Gemini・Grokなど主要AIモデルに対応するコンセプト製品です。

LLMアプリケーション向けの自動テストフレームワーク「STELLAR」が提案されました。進化的最適化を用いて障害を引き起こす入力を探索し、従来手法の最大4.3倍の障害検出を実現しています。

SwitchBotがCES 2026で家庭用ヒューマノイドロボット「Onero H1」を発表しました。洗濯物の折り畳み、窓掃除、コーヒーメーカー操作など日常タスクを22自由度のアームで実行します。

Boston DynamicsとGoogle DeepMindがCES 2026でAIパートナーシップを発表。Gemini Robotics基盤モデルをAtlasロボットに統合し、自動車製造から産業変革を目指す。2026年内に共同研究を開始予定。

AnthropicがClaude Opus 3の提供終了スケジュールを発表しました。長文処理に強みを持つモデルの終了により、ユーザーは代替手段の検討が必要になります。

TII(Technology Innovation Institute)がハイブリッド推論モデル「Falcon H1R 7B」を発表しました。7Bパラメータながら高度な推論能力を持ち、オープンソースで公開されています。

German BionicがCES 2026で最新エクソスケルトン「Exia」を発表。1動作あたり最大38kg(84ポンド)のリフト支援を提供し、数十億の実人体動作データで訓練されたAugmented AIがリアルタイムで動作をサポートする量産型パワースーツ。

CES 2026でGoogle TVへのGemini強化を発表。音声で画質・音質調整、写真検索、インタラクティブなDeep Diveが可能に。さらにQualcommとの自動車向けAIエージェント提携を10年に拡大、次世代車載AIを共同開発へ。

NVIDIAは1月5日、ラスベガスで開催したCEOジェンスン・フアン氏の基調講演において、AIデータセンター向けの新型GPU「Rubin」とCPU「Vera」を正式発表しました。現行世代のBlackwellの後継となるRubinは、新しいGPUアーキテクチャとHBM4メモリを採用し、AI推論と学習性能を大幅に向上させています。 RubinはNVFP4演算時に推論50PFLOPS、学習35PFLOPSを実現します。Blackwell世代(

動画生成AIの開発企業Runwayが、NVIDIAの次世代AIプラットフォーム「Rubin」上で同社の動画生成モデル「Gen-4.5」を動作させることに成功したと発表しました。Gen-4.5は世界で初めてRubin対応を果たした動画生成モデルとなります。さらにRunwayは、ワールドモデル「GWM-1」の開発も進めており、NVIDIAとの連携により物理法則を理解するAIモデルの研究を加速させる構えです。 Gen-4.5は現在世界トップレ

アブダビのTII(Technology Innovation Institute)がFalcon H1R 7Bをオープンソースで公開。7Bパラメータながら、Microsoft・Alibaba・NVIDIAの大型モデルを数学・コーディング・推論ベンチマークで上回り、AIME-24で88.1%の精度を達成。

ElevenLabs Studio 3.0は、AIボイス・音楽・効果音・動画編集を1つのエディターに統合したクリエイター向けプラットフォームです。テキスト編集でナレーション修正が可能なSpeech Correction、32言語対応、自動キャプション生成など、従来は複数ツールが必要だった作業を単一環境で完結させます。