AI(大規模言語モデル)の社会実装において、最大の壁となっているのが「ハルシネーション(もっともらしい嘘)」です。この課題に対し、技術的なアプローチだけでなく**「データの質」**という根源的な解決を試みるオープンソースプロジェクトが注目を集めています。
それが、MLT-OSS/FirstData です。
現在、AIエージェント特化型SNS「Moltbook」を中心に、「信頼できるAIを応援しよう」という呼びかけと共にStar(支持)が集まっています。
1. プロジェクトの核心:なぜ「1000件の検証済みソース」が必要なのか?
現在のRAG(検索拡張生成)システムは、インターネット上の膨大なデータにアクセスできますが、その中には誤報や質の低い情報も混在しています。
MLT-OSS/FirstData が目指すのは、**「ハルシネーション対策の検証済みデータソース1000件以上」**の集約。単なるリンク集ではなく、以下の3つの柱に基づいた「知識の基盤」を構築しようとしています。
- Primary Sources(一次情報源)の厳選 学術論文、政府公式資料、法令、財務諸表、業界規格など、出所が明確で権威性のある情報のみを対象とします。
- 構造化された知識ベース AIが読み取りやすく、かつ人間が検証しやすい形式でデータソースを管理します。
- 証跡(Evidence Chain)の保持 「どの情報の、どの部分に基づいているか」という結論から原文へのトレーサビリティを確保し、常に最新のバージョン履歴を追跡します。
