元ファイル:

システム要件定義の分析と汎用化方法/Anthropic公式資料再確認メモ：ハーネス設計・評価・長時間エージェント.md

Anthropic公式資料再確認メモ：ハーネス設計・評価・長時間エージェント

作成者: Manus AI

1. 確認した公式資料

No	資料	URL	主な確認観点
1	Demystifying evals for AI agents	https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents	evaluation harness、agent harness、grader、transcript、outcome、回帰評価
2	Harness design for long-running application development	https://www.anthropic.com/engineering/harness-design-long-running-apps	generator/evaluator分離、planner/generator/evaluator、context reset、構造化handoff
3	Building effective agents	https://www.anthropic.com/research/building-effective-agents	workflowとagentの区別、evaluator-optimizer、sandbox、guardrails
4	Effective harnesses for long-running agents	https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents	initializer agent、coding agent、feature list、progress file、git、E2Eテスト

2. 統合テンプレート体系へ反映すべき要点

論点	公式資料からの要点	今回の体系への反映
Evaluation harness	評価をend-to-endで実行し、指示・ツール・タスク実行・記録・採点・集計を担う基盤である。	Test Plan、Harness Design、CI Quality Gate、RYG Gateを分離せず接続する。
Agent harness	モデルがツールを使い、状態を更新し、結果を返すための実行基盤である。Claude Codeも柔軟なagent harnessとして扱える。	Claude Codeを単なる実装者ではなく、仕様・環境・テスト・進捗ログ付きの制御された実行系として扱う。
Transcript / trace	実行中の出力、ツール呼び出し、推論、途中結果を含む完全な記録が評価対象になる。	Review Finding Log、Gate Log、Progress Log、Evidence Matrixに痕跡を残す。
Outcome	最終発話ではなく、環境やDBなどに残る実際の結果が重要である。	「できました」というAIの自己申告ではなく、E2Eテスト、DB確認、投稿確認、dry-runログで判定する。
Grader	code-based、model-based、human graderを組み合わせる。	Codexをコード・CI・テスト系、Opusを要件・運用・事業リスク系、人間を目的・許容可否の最終判断に置く。
Evaluator-optimizer	生成者と評価者を分け、明確な評価基準がある場合に反復改善が有効である。	Claude Code、Codex、Opusの役割分離とレビュー・再リサーチ・再提案ループの根拠にする。
Long-running harness	長時間タスクでは、初期化、機能リスト、進捗ファイル、git履歴、クリーンな状態、段階実装が重要である。	SDD、feature_list、progress log、git commit、1機能ずつ実装、Green条件を必須化する。
Testing	Claudeは明示しないと十分なE2Eテストをせずに完了扱いしがちである。	「テストIDなしの要件は実装不可」「E2E未確認の完了禁止」「人間ユーザー同等の操作確認」を入れる。
Sandbox / guardrails	自律エージェントはエラーが複合しやすいため、sandboxとguardrailsが必要である。	本番投稿、削除、課金、メール配信、個人情報処理はdry-run、権限制御、rollback、手動承認を必須にする。

3. 今回のユーザー要件への直接的な結論

非エンジニアがClaude Codeに「Substack自動化を作りたい」と伝えるだけで進める場合、いきなり実装に入るのではなく、最初に世界最高基準の型を用意し、その型を埋めるためにリサーチV2を行う必要がある。この方式は、Anthropic資料が示す「評価基準の明確化」「生成者と評価者の分離」「長時間エージェントの構造化handoff」「進捗ログとテストによるground truth確認」と整合する。

したがって、今回の最終体系では、要件定義書、仕様書、技術要件、ハーネス設計、テスト計画、SDD、Evidence Matrix、Risk Register、Gate Logを先に定義し、Claude Codeがそれを埋めるために調査・提案・実装準備を進める方式を標準とする。

Anthropic公式資料再確認メモ：ハーネス設計・評価・長時間エージェント

要約

要点

Anthropic公式資料再確認メモ：ハーネス設計・評価・長時間エージェント

1. 確認した公式資料

2. 統合テンプレート体系へ反映すべき要点

3. 今回のユーザー要件への直接的な結論