記事
Tukun.ai: セマンティクス優先の Data Agent
Tukun.ai は、ガバナンスされたセマンティクス、複数データソース、複数 LLM、実行時 Skills、再利用可能な分析資産を中心に構築されたセマンティクス優先の Data Agent です。
自然言語と構造化データは、これまで別々の世界に存在してきました。
ビジネス上の問いは、ふつう自然言語でやってきます。成長はなぜ鈍化したのか。ある指標はなぜ動いたのか。チャネルごとの成果はどう違うのか。
しかし実際の分析は、結局また構造化された層に戻らなければなりません。データソース、テーブル、フィールド、指標定義、時間粒度、フィルター、アクセス境界、そして再利用可能な出力です。
Tukun.ai は、この二つの層をつなぐために設計されています。
一文で言えば:
Tukun.ai is a semantic-first data agent.
これは単なる ChatBI インターフェースではありません。セマンティクス、データソース、モデル、Skills、再利用可能な分析資産を中心に構成された Data Agent Harness です。
なぜ semantic-first なのか
データエージェントの難しさは、単に質問を SQL に翻訳することではありません。
実際の業務では、同じ指標でも定義が複数ありえます。同じディメンションでも異なるデータソースにまたがることがあります。同じ質問でも、時間粒度や業務上の境界が異なれば意味が変わります。セマンティクスを先に管理しなければ、強力なモデルであっても流暢に間違った答えを返してしまいます。
だから Tukun.ai は次の順序で設計されています。
- まず業務セマンティクスを管理する
- 次にデータソースを接続する
- その上で Agent にモデルとツールをオーケストレーションさせる
- 最後に分析結果を再利用可能な資産として残す
指標、ディメンション、エンティティ、リレーションシップは、一時的な prompt テキストとして扱われません。管理でき、公開でき、追跡できるプロダクトオブジェクトとして扱われます。
プロダクト構造
Tukun.ai は複数のレイヤーで構成されています。
| Layer | Role |
|---|---|
| Semantics | 指標、ディメンション、エンティティ、リレーションシップ、業務定義を管理する |
| Data | PostgreSQL、ファイル、その他の業務データソースを接続し、メタデータを同期する |
| Models | 複数の LLM をサポートし、プロダクトを単一 provider に固定せず、タスクごとにモデルを切り替える |
| Language | 多言語利用を支え、その言語を実行時コンテキストへ持ち込む |
| Skills | 反復可能な分析ワークフローやドメイン能力を拡張する |
| Workbench | 質問、分析、レビュー、追質問、再利用を扱う |
| Assets | カード、チャート、ダッシュボード、Skills、セマンティクス定義を保存する |
目標はシンプルです。分析を一度きりの回答で終わらせず、チームが検証し、追質問し、再利用し、改善できるものにすることです。
完全な Data Agent Harness
Tukun.ai の中核は単一ページではなく、分析ランタイムです。
ユーザーのリクエストがシステムに入ると、ランタイムは次を担います。
- 意図を解決する
- prompt とコンテキストを組み立てる
- 利用可能なツールと Skills を選ぶ
- 適切なモデルをディスパッチする
- セマンティッククエリや分析ツールを実行する
- 結果を再利用可能なプロダクト資産に整形する
これにより、プロダクトロジックが各ページに散らばりません。Workbench、セマンティクス、Skills、下流の資産は、すべて同じランタイムパスを中心に整理されます。
セマンティックワークフロー
Tukun.ai は、データソースから同期されたメタデータを起点にしつつ、LLM を使って MetricFlow 構造に沿うセマンティクス草案を生成します。
それらの定義は自動で公開されるわけではありません。デフォルトの経路は、AI 支援による草案生成のあとに人間がレビューする流れです。システムは初期モデリングの速度を上げ、人は業務上の意味を保持します。
この方式がデータチームに適している理由は次の通りです。
- メタデータを自動で取り込める
- LLM 支援でセマンティクス草案を生成できる
- 指標、ディメンション、エンティティ、リレーションシップを引き続き編集できる
- 公開状態とバージョン履歴を追跡できる
重要なのは、毎回モデルに業務定義を推測させることではありません。より安定したセマンティクス層の上で Agent に分析させることです。
複数データソース
企業データは、めったに一カ所にだけ存在しません。
あるデータはデータベースにあり、あるデータはファイルにあり、また別のデータは業務システムや API から来ます。Tukun.ai は最初から複数データソース前提で設計されているため、異なるソースを一つの分析ワークフローに取り込めます。
現行アーキテクチャでは、セマンティック資産と分析コンテキストは data_source_id ごとにスコープされます。これにより、異なるデータソースの指標定義が誤って混ざるのを防ぎ、ソース単位でのガバナンスや再利用に向けた明確な基盤を持てます。
複数 LLM
モデルごとに得意な仕事は異なります。
推論が得意なモデルもあれば、ツール利用に強いモデルもあります。コスト管理に向いたモデルもあり、特定の言語シナリオでより安定するモデルもあります。
Tukun.ai は、モデルを設定可能でガバナンス可能なプロダクト能力として扱います。
- 複数 provider
- 複数 model
- プラン別の利用可能モデル
- デフォルトモデルとモデル選好設定
- 設定変更後のランタイム反映
これは商用プロダクトにとって重要です。マルチモデル対応は、単なる API 統合ではありません。課金、アカウント、クォータ、キャッシュ入力、出力、推論出力にも関わります。
Prompt Cache にやさしいコンテキスト設計
長期的な利用コストを抑えるために、Tukun.ai は階層化された prompt assembly を使っています。
- Base System Prompt
- Core Runtime Rules
- Response Contract
- Evidence Rules
- Shared Memory
- Skill Prompts / Skill References
- Recent Turns
- Turn Context
これらのセクションは stable、semistable、volatile に分けて管理されます。
stable な内容はできるだけ固定し、semistable な内容は能力やタスク形状に応じて変化し、volatile な内容は現在の turn に近い部分だけを持たせます。この構造により provider の Prompt Cache の恩恵を受けやすくなり、頻繁な分析ワークフローをより低コストに保ちやすくなります。
多言語ランタイム
多言語対応は、単なる UI 翻訳ではありません。
データエージェントにとって、言語はユーザーの質問、ツール出力、エラー、分析結論、追質問の提案に影響します。Tukun.ai は requested_locale をランタイムコンテキストへ持ち込み、prompt 組み立てとツール出力がユーザーの言語環境に従えるようにします。
現在のプロダクトは、中国語、英語、日本語を前提に整えられています。将来ほかの言語を追加する際も、主な作業はローカライズ文言と言語設定の追加であり、業務ワークフローの書き直しにはならないはずです。
Skills 拡張
組み込みの分析機能に加えて、Tukun.ai は Skills を通じて反復的なワークフローを支援します。
たとえば:
- 業界特化の分析テンプレート
- 固定テンプレートからのレポート生成
- データ結果からの PPT 生成
- チーム独自の分析手法
- ドメイン特化のデータ処理や説明フロー
Skills は、ランタイム prompt とツールコンテキストに能力バンドルとして参加します。単なる UI ショートカットではありません。
従来 BI や汎用チャットアシスタントとの違い
| Comparison | Traditional BI | Generic chat assistant | Tukun.ai |
|---|---|---|---|
| Entry point | ダッシュボード / レポート | チャットボックス | Semantics + Workbench |
| Semantic management | 散在しがち | ほぼ存在しない | Built in |
| Data access | 可能だが設定負荷が高い | 弱い | 分析ワークフローの一部 |
| Analysis process | 固定的 | 一時的 | 追質問、レビュー、再利用が可能 |
| Result preservation | ダッシュボード中心 | コンテキスト記憶依存 | カード、チャート、ダッシュボード、セマンティック資産 |
Tukun.ai は、あらゆる BI 製品を置き換えようとしているわけでも、汎用チャットの入口になろうとしているわけでもありません。
焦点は一つです。自然言語の問いから始め、ガバナンスされたセマンティクスで制約し、ツールで実行し、その結果を再利用可能な分析資産として残すことです。
現在の段階
Tukun.ai にはすでに中核フレームワークがあります。
- Data Agent Harness
- semantic-first workflow
- 複数データソース対応
- マルチ LLM 設定
- Prompt Cache にやさしいコンテキスト階層
- 多言語ランタイム
- Skills 拡張
- Workbench と再利用可能な分析資産
今後は、実際の分析ワークフローに沿って改善を続けます。セマンティクスモデリングをより安定させ、分析パスをより観察しやすくし、結果の再利用をより自然にしていきます。
データエージェントの要点は、モデルをより会話的に見せることではありません。分析をより信頼でき、より制御しやすく、より積み上がるものにすることです。
それが Tukun.ai の向かう方向です。