TikTokの親会社であるByteDance(バイトダンス)から、AI界隈を震撼させるオープンソースプロジェクトが誕生しました。その名は**「UI-TARS」**。
これまでのAIは「文章を書く」「画像を生成する」止まりでしたが、UI-TARSは**「あなたの代わりにPCを操作する」**という、文字通り次世代のユーザーインターフェース(UI)を実現します。本記事では、その驚異的な能力から導入方法までを徹底解説します。
1. UI-TARSとは?──「画面が見える」AIエージェント
UI-TARSは、人間と同じようにPCやスマホの画面を「目で見て」理解し、マウスクリックやキー入力を行うネイティブGUI(グラフィカル・ユーザー・インターフェース)エージェントです。
従来のAIとの決定的な違い
従来の自動化ツールは、Webサイトの裏側のコード(HTML)を解析する必要がありましたが、UI-TARSは**「スクリーンショット(画像)」のみ**を情報源とします。
- 直感的な動作: 人間が「ここをクリックする」と判断するプロセスを、Vision-Language Model(VLM)が模倣します。
- 汎用性の高さ: ブラウザだけでなく、Excel、VS Code、Slack、さらには独自仕様の業務用アプリまで、画面に映るものなら何でも操作可能です。
- システム1と2の統合: 直感的な判断(システム1)と、複雑な推論(システム2)を組み合わせることで、ミスを防ぎながら高度なタスクを完遂します。
