Private GitHub Repos Still Reachable Through Copilot After Being Made Private
2025/02/26 ghacks — かつては公開されていたが、その後は非公開になった何千もの GitHub リポジトリが、GitHub Copilot などの AI 搭載ツールを通じて、依然としてアクセス可能であることが、セキュリティ研究者たちにより明らかにされた。この問題が浮き彫りにするのは、インターネット上でのデータ露出という相も変わらぬ問題である。インターネットで問題視されるのは、一時的に公開された情報が、方針などの変更により公開が制限された後であっても、生成 AI システムにより保持され、利用されてしまう可能性である。

GitHub と OpenAI と Microsoft と共同で開発した GitHub Copilot は、開発者にコード・スニペットと補完を提案する、AI ベースのコーディング・アシスタントである。公開されている膨大なコード・コーパスでトレーニングされているため、状況に応じた適切な提案を行うことが可能だとされる。
ただし、このトレーニング・データには、トレーニング時には公開されていたが、その後も非公開になったリポジトリのコードが含まれている。したがって Copilot には、現在は非公開になっているリポジトリのコンテンツに基づき、いまもコード提案を生成する可能性が生じている。
この状況が引き起こすのは、データのプライバシーとセキュリティに関する重大な懸念である。たとえ短期間であっても、不注意により機密情報をリポジトリに公開してしまった開発者は、そのデータが AI モデルに取り込まれ、Copilot などのツールを通じて間接的にアクセス可能であることに気付くかもしれない。この問題が浮き彫りにするのは、コードを公開して共有する際に注意を払うことが重要であること、そして、オンラインで公開された情報を完全に撤回することが極めて難しいことである。
これらの懸念に応えるかたちで GitHub は、AI が生成するコード提案の透明性と制御を強化する機能を実装した。たとえば、Visual Studio では、GitHub Copilot 補完のコード参照をサポートするようになり、公開されているコードとライセンスの関係について、開発者が確認できるようにしている。この機能は、参照される公開コードの詳細情報を提供するため、提案されたコードのプロジェクトへの組み込みについて、十分な情報をベースに決定できるようになる。
これらの対策が提供されるようになったが、公開されたデータが永続的に参照される可能性を忘れてはならない。したがって開発者は、コードを公開する前に、機密情報の有無を徹底的に確認すべきである。さらに、リポジトリを非公開にした後でも、以前に公開されたデータが、それをベースにトレーニングされた AI ツールにより、継続してアクセスされてしまうリスクに、注意する必要がある。
2022年6月にリリースされた GitHub Copilot ですが、2024年には、有料会員が 130万人を突破したそうです。その成長の裏には、膨大な量のデータが存在することは、想像に難くありません。データの公開/非公開を問わず、情報管理の徹底が重要です。よろしければ、以下の関連記事も、Copilot で検索と併せて、ご参照ください。
2025/01/31:Copilot で発見されたジェイルブレイクの手法
2023/02/15:CoPilot への評価:トレーニングに開発者を利用して良いのか
2022/11/05:Copilot を巡る著作権の訴訟が提起
2021/06/30:GitHub がリリースする Copilot とは
You must be logged in to post a comment.