← AI開発 資料アーカイブ
ハーネス設計

Anthropic公式資料再確認メモ:ハーネス設計・評価・長時間エージェント

元ファイル: システム要件定義の分析と汎用化方法/Anthropic公式資料再確認メモ:ハーネス設計・評価・長時間エージェント.md

要約

Anthropicの公式エンジニアリング記事4本を精読し、要件定義自動化体系へ反映すべき要点を表形式で整理したメモ。evaluation harness・agent harness・transcript・outcome・grader・evaluator-optimizerといった公式概念を、自前の体系(Test Plan、RYGゲート、Codex/Opus/人間の役割分担、SDD、進捗ログ)にマッピングしている。結論として、先に世界最高基準の型を用意してからリサーチV2で埋める方式が公式知見と整合すると述べる。

要点

Anthropicハーネス設計評価長時間エージェントevaluator-optimizer公式資料

Anthropic公式資料再確認メモ:ハーネス設計・評価・長時間エージェント

作成者: Manus AI

1. 確認した公式資料

No 資料 URL 主な確認観点
1 Demystifying evals for AI agents https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents evaluation harness、agent harness、grader、transcript、outcome、回帰評価
2 Harness design for long-running application development https://www.anthropic.com/engineering/harness-design-long-running-apps generator/evaluator分離、planner/generator/evaluator、context reset、構造化handoff
3 Building effective agents https://www.anthropic.com/research/building-effective-agents workflowとagentの区別、evaluator-optimizer、sandbox、guardrails
4 Effective harnesses for long-running agents https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents initializer agent、coding agent、feature list、progress file、git、E2Eテスト

2. 統合テンプレート体系へ反映すべき要点

論点 公式資料からの要点 今回の体系への反映
Evaluation harness 評価をend-to-endで実行し、指示・ツール・タスク実行・記録・採点・集計を担う基盤である。 Test Plan、Harness Design、CI Quality Gate、RYG Gateを分離せず接続する。
Agent harness モデルがツールを使い、状態を更新し、結果を返すための実行基盤である。Claude Codeも柔軟なagent harnessとして扱える。 Claude Codeを単なる実装者ではなく、仕様・環境・テスト・進捗ログ付きの制御された実行系として扱う。
Transcript / trace 実行中の出力、ツール呼び出し、推論、途中結果を含む完全な記録が評価対象になる。 Review Finding Log、Gate Log、Progress Log、Evidence Matrixに痕跡を残す。
Outcome 最終発話ではなく、環境やDBなどに残る実際の結果が重要である。 「できました」というAIの自己申告ではなく、E2Eテスト、DB確認、投稿確認、dry-runログで判定する。
Grader code-based、model-based、human graderを組み合わせる。 Codexをコード・CI・テスト系、Opusを要件・運用・事業リスク系、人間を目的・許容可否の最終判断に置く。
Evaluator-optimizer 生成者と評価者を分け、明確な評価基準がある場合に反復改善が有効である。 Claude Code、Codex、Opusの役割分離とレビュー・再リサーチ・再提案ループの根拠にする。
Long-running harness 長時間タスクでは、初期化、機能リスト、進捗ファイル、git履歴、クリーンな状態、段階実装が重要である。 SDD、feature_list、progress log、git commit、1機能ずつ実装、Green条件を必須化する。
Testing Claudeは明示しないと十分なE2Eテストをせずに完了扱いしがちである。 「テストIDなしの要件は実装不可」「E2E未確認の完了禁止」「人間ユーザー同等の操作確認」を入れる。
Sandbox / guardrails 自律エージェントはエラーが複合しやすいため、sandboxとguardrailsが必要である。 本番投稿、削除、課金、メール配信、個人情報処理はdry-run、権限制御、rollback、手動承認を必須にする。

3. 今回のユーザー要件への直接的な結論

非エンジニアがClaude Codeに「Substack自動化を作りたい」と伝えるだけで進める場合、いきなり実装に入るのではなく、最初に世界最高基準の型を用意し、その型を埋めるためにリサーチV2を行う必要がある。この方式は、Anthropic資料が示す「評価基準の明確化」「生成者と評価者の分離」「長時間エージェントの構造化handoff」「進捗ログとテストによるground truth確認」と整合する。

したがって、今回の最終体系では、要件定義書、仕様書、技術要件、ハーネス設計、テスト計画、SDD、Evidence Matrix、Risk Register、Gate Logを先に定義し、Claude Codeがそれを埋めるために調査・提案・実装準備を進める方式を標準とする。

↑ トップへ戻る