Anthropic Claude にチャットの自動的な終了機能を追加:有害な利用を防止

Anthropic: Claude can now end conversations to prevent harmful uses

2025/08/17 BleepingComputer — OpenAI と競合する Anthropic が発表したのは、 危害や悪用の可能性を AI モデルが検知した場合に会話を終了する新機能を、Claude のアップデートに搭載したというものだ。この機能は、有料プランおよび API で提供される、最上位の2つのモデル Claude Opus 4/4.1 にのみ提供される。したがって、最も広く利用されている Claude Sonnet 4 には搭載されない。

この変更について、Anthropic はモデルの健全化 (model welfare) と表現しており、Claude Opus 4 の導入前テストでは、予備的なモデル評価を実施したと述べている。また、その評価の一環として、Claude の自己申告や行動の嗜好を調査し、危害に対する強固かつ一貫した嫌悪感を確認したという。

Claude は、単にクエリを処理できない場合に、会話を終了するわけではない。この終了は、Claude がユーザーを有用なリソースにリダイレクトしようとしても失敗した場合の、最後の手段となる。

Anthropic は、「この機能が発動するケースは、きわめて限定的である。とても大きな反響を呼ぶ問題を、Claude と議論する場合であっても、大多数のユーザーは、この機能に気づかず、影響を受けることもない」と補足している。

Claude AI
Source: BleepingComputer

このスクリーンショットに示されるように、ユーザーが Claude に対して、チャット終了を明示的に依頼することも可能である。Claude は end_conversation ツールを用いてチャットを終了する。この機能は、現時点において順次展開中である。