OpenAIは、高度な推論モデルが芸術を創造できるかどうかを調査する新しい研究を発表した。科学情報システム 簡単不正行為をする前に監視する能力。「監視の監視可能性」と題された論文の中で、OpenAIの研究者たちは、モデルの思考連鎖(CoT)を分析するための初期のフレームワークを提案している。 出力のみのチェックよりも早くリスクを検出する方法として、推論を使用します。.
核となる考え方は、不一致または欺瞞的な行動はモデルが最終的な回答を出した後よりも、「考えている」段階で捉える方が簡単である。この論文では、 監視可能性 例えば、推論の痕跡に基づいてモデルの行動を予測する能力などです。理論的には、より透明性の高い推論によって、人間や自動システムが危害が発生する前に介入できるようになる可能性があります。.
研究者たちは、より長く詳細なCoTの説明と監視性の向上との間に顕著な相関関係があることを発見しました。推論ステップをより多く開示するモデルは、一般的に評価が容易でした。ただし、著者らはこれが安全性を保証するものではないことを強調しています。推論ステップへのアクセスのみでも、危険信号を特定するのに驚くほど効果的であることが証明されました。特に、生成されたすべてのトークンの可視性と組み合わせると、その効果は顕著です。.
評価を構成するために、この論文では 3 つの補完的な監視アプローチを紹介しています。
- 介入: 推論プロセスの生成方法を調整して、検査しやすくします。.
- プロセス: モデルの推論が真実であり、内部的に一貫しているかどうかを評価します。.
- 結果特性: 推論レベルの警告を識別することが実際により安全な結果につながるかどうかを測定します。.
この研究では、これらのアイデアを複数のモデルでテストし、「監視可能性税」という概念を導入しました。これは、モデルの能力をわずかに低下させることで、例えば推論の労力が高い小規模なモデルを使用することで、パフォーマンスの低下を最小限に抑えながら、透明性と安全性を大幅に向上させることができるというトレードオフを指します。.
OpenAIは、この研究が万能薬ではないことを強調しています。むしろ、モデルがより自律的に成長し、よりリスクの高い環境に導入されるにつれて、AI推論を評価するための体系的なツールへの初期段階を示すものです。アライメントの課題が完全に解決されるまでは、AIシステムは完全に信頼できる意思決定者ではなく、強力だが誤りを犯す可能性のあるツールとして扱うべきだと研究者たちは警告しています。.
ソース:
https://www.zdnet.com/article/openai-complex-model-safety-paper/

