OpenAIの新しいoシリーズは推論力を強化した一方で幻覚率が急上昇し、整合性評価の重要性が浮き彫りになった。
生成AIは非専門医と同等の診断精度を記録し、Insilico MedicineはPharma.AIの次世代機能を発表。
米議会のDOGE批判、勝手に復活するCopilot、YouTubeの多言語化計画、Databricks連携強化など企業・政策面でも動きが相次いだ。
1. 推論強化モデルの幻覚問題
OpenAIのo3・o4‑miniはチェイン・オブ・ソート推論を深めたが、PersonQAでの幻覚率は33〜48%と前世代の倍に達した。
要因は強化学習による自信過大評価とされ、ログイトレンズ検知や検索連携による事実確認が提案されている。