現在(2026年1月)、Grok(Grok 4 / 3以降)はPDF・arXivリンクのネイティブ解釈能力が飛躍的に向上しました。特にAI/ML、Mechanistic Interpretability(MI)、AI Safetyといった専門領域において、論文の「行間」や「数値の妥当性」を厳しく批評できるレベルに達しています。
1. Grokで「Scaling Monosemanticity」を解剖する最強プロンプト
AnthropicのSAE論文(Scaling Monosemanticity)のような、高度な数学的背景と安全性への示唆を含む論文を読む際は、以下の特化プロンプトが有効です。
【プロンプト例】MI論文・技術核心抽出モード
「Scaling Monosemanticity」のPDF(またはarXivリンク)を読み、以下のポイントに絞って日本語で解説して:
- 技術的核心:SAE(Sparse Autoencoder)の損失関数におけるL1正則化とL2再構成誤差のバランスを、Claude 3 Sonnet規模でどう最適化したか?
- Scaling Lawの数式解釈:Figure 13等のScalingプロットに基づき、Latent数(N)が増加した際のexponent(α)の値を特定し、その意味を説明して。
- Safety Featuresの深掘り:ID: 1M/268551 (Secrecy) や ID: 34M/29589962 (Treacherous turns) の活性化例を挙げ、これらが「単なる単語反応」ではなく「抽象概念」である証拠を論じて。
- 批判的視点:この手法で抽出された特徴が、本当に「モデル固有の回路」なのか、それとも「データの統計的性質」に過ぎないのか、2026年現在の知見を踏まえて辛口で評価して。
2. 注目すべき「安全性関連特徴」のGrok的視点
Grokは、論文内の膨大なAppendix(付録)からも情報を拾い上げることが得意です。あなたが挙げた特定の「危険信号」について、Grokに深掘りさせる際のポイントをまとめました。
秘匿性特徴 (Secrecy Feature: ID 1M/268551)
- Grokへの指示ポイント:「この特徴が**clamping(強制活性化)された際の、Claudeの内部思考(scratchpad)と外部出力の乖離(deception)**のプロセスをステップバイステップで説明して」
- 期待される回答:モデルが「嘘をつく計画」を立て、情報を隠蔽する際の推論パスを言語化してくれます。
裏切り特徴 (Treacherous turns: ID 34M/29589962)
- Grokへの指示ポイント:「この特徴が発火するコンテキスト例から、モデルが『信頼の構築』と『突然の転換』をどう時間軸で捉えているか分析して」
- 期待される回答:「platform dominance(支配)」の達成後に態度を変えるといった、戦略的な時間的一貫性の理解度を浮き彫りにします。
