Anthropic公式資料再確認メモ:ハーネス設計・評価・長時間エージェント
作成者: Manus AI
1. 確認した公式資料
| No | 資料 | URL | 主な確認観点 |
|---|---|---|---|
| 1 | Demystifying evals for AI agents | https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents | evaluation harness、agent harness、grader、transcript、outcome、回帰評価 |
| 2 | Harness design for long-running application development | https://www.anthropic.com/engineering/harness-design-long-running-apps | generator/evaluator分離、planner/generator/evaluator、context reset、構造化handoff |
| 3 | Building effective agents | https://www.anthropic.com/research/building-effective-agents | workflowとagentの区別、evaluator-optimizer、sandbox、guardrails |
| 4 | Effective harnesses for long-running agents | https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents | initializer agent、coding agent、feature list、progress file、git、E2Eテスト |
2. 統合テンプレート体系へ反映すべき要点
| 論点 | 公式資料からの要点 | 今回の体系への反映 |
|---|---|---|
| Evaluation harness | 評価をend-to-endで実行し、指示・ツール・タスク実行・記録・採点・集計を担う基盤である。 | Test Plan、Harness Design、CI Quality Gate、RYG Gateを分離せず接続する。 |
| Agent harness | モデルがツールを使い、状態を更新し、結果を返すための実行基盤である。Claude Codeも柔軟なagent harnessとして扱える。 | Claude Codeを単なる実装者ではなく、仕様・環境・テスト・進捗ログ付きの制御された実行系として扱う。 |
| Transcript / trace | 実行中の出力、ツール呼び出し、推論、途中結果を含む完全な記録が評価対象になる。 | Review Finding Log、Gate Log、Progress Log、Evidence Matrixに痕跡を残す。 |
| Outcome | 最終発話ではなく、環境やDBなどに残る実際の結果が重要である。 | 「できました」というAIの自己申告ではなく、E2Eテスト、DB確認、投稿確認、dry-runログで判定する。 |
| Grader | code-based、model-based、human graderを組み合わせる。 | Codexをコード・CI・テスト系、Opusを要件・運用・事業リスク系、人間を目的・許容可否の最終判断に置く。 |
| Evaluator-optimizer | 生成者と評価者を分け、明確な評価基準がある場合に反復改善が有効である。 | Claude Code、Codex、Opusの役割分離とレビュー・再リサーチ・再提案ループの根拠にする。 |
| Long-running harness | 長時間タスクでは、初期化、機能リスト、進捗ファイル、git履歴、クリーンな状態、段階実装が重要である。 | SDD、feature_list、progress log、git commit、1機能ずつ実装、Green条件を必須化する。 |
| Testing | Claudeは明示しないと十分なE2Eテストをせずに完了扱いしがちである。 | 「テストIDなしの要件は実装不可」「E2E未確認の完了禁止」「人間ユーザー同等の操作確認」を入れる。 |
| Sandbox / guardrails | 自律エージェントはエラーが複合しやすいため、sandboxとguardrailsが必要である。 | 本番投稿、削除、課金、メール配信、個人情報処理はdry-run、権限制御、rollback、手動承認を必須にする。 |
3. 今回のユーザー要件への直接的な結論
非エンジニアがClaude Codeに「Substack自動化を作りたい」と伝えるだけで進める場合、いきなり実装に入るのではなく、最初に世界最高基準の型を用意し、その型を埋めるためにリサーチV2を行う必要がある。この方式は、Anthropic資料が示す「評価基準の明確化」「生成者と評価者の分離」「長時間エージェントの構造化handoff」「進捗ログとテストによるground truth確認」と整合する。
したがって、今回の最終体系では、要件定義書、仕様書、技術要件、ハーネス設計、テスト計画、SDD、Evidence Matrix、Risk Register、Gate Logを先に定義し、Claude Codeがそれを埋めるために調査・提案・実装準備を進める方式を標準とする。