Anthropic Claude にチャットの自動的な終了機能を追加：有害な利用を防止

Anthropic: Claude can now end conversations to prevent harmful uses

2025/08/17 BleepingComputer — OpenAI と競合する Anthropic が発表したのは、危害や悪用の可能性を AI モデルが検知した場合に会話を終了する新機能を、Claude のアップデートに搭載したというものだ。この機能は、有料プランおよび API で提供される、最上位の２つのモデル Claude Opus 4／4.1 にのみ提供される。したがって、最も広く利用されている Claude Sonnet 4 には搭載されない。

この変更について、Anthropic はモデルの健全化 (model welfare) と表現しており、Claude Opus 4 の導入前テストでは、予備的なモデル評価を実施したと述べている。また、その評価の一環として、Claude の自己申告や行動の嗜好を調査し、危害に対する強固かつ一貫した嫌悪感を確認したという。

Claude は、単にクエリを処理できない場合に、会話を終了するわけではない。この終了は、Claude がユーザーを有用なリソースにリダイレクトしようとしても失敗した場合の、最後の手段となる。

Anthropic は、「この機能が発動するケースは、きわめて限定的である。とても大きな反響を呼ぶ問題を、Claude と議論する場合であっても、大多数のユーザーは、この機能に気づかず、影響を受けることもない」と補足している。

Claude AI — **Source: BleepingComputer**

このスクリーンショットに示されるように、ユーザーが Claude に対して、チャット終了を明示的に依頼することも可能である。Claude は end_conversation ツールを用いてチャットを終了する。この機能は、現時点において順次展開中である。

Anthropic が Claude に導入した、”会話終了機能” の仕組みはユニークですね。これは、危害や悪用の可能性を検知した際に発動するもので、単なるエラー応答ではなく、最後の手段として会話を打ち切る点が特徴的だとのことです。2025/08/05 の「Claude Code の AI アシスタントの脆弱性 CVE-2025-54794／54795 が FIX：特定に用いられた Inverse Prompt とは？」では、研究者による誘導により、”AI が自らの脆弱性に関する情報を開示” したという説明がありました。ひょっとすると、そのあたりが伏線になっているのかもしれません。なお、文中のリンク先である “System Card: Claude Opus 4 & Claude Sonnet 4” の日付は、2025年5月であり、ちょっとソースが曖昧という感じもします。よろしければ、Claude で検索も、ご参照ください。

M	T	W	T	F	S	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Share this: