記事

Tukun.ai: セマンティクス優先の Data Agent

Tukun.ai は、ガバナンスされたセマンティクス、複数データソース、複数 LLM、実行時 Skills、再利用可能な分析資産を中心に構築されたセマンティクス優先の Data Agent です。

15 May, 2026

自然言語と構造化データは、これまで別々の世界に存在してきました。

ビジネス上の問いは、ふつう自然言語でやってきます。成長はなぜ鈍化したのか。ある指標はなぜ動いたのか。チャネルごとの成果はどう違うのか。
しかし実際の分析は、結局また構造化された層に戻らなければなりません。データソース、テーブル、フィールド、指標定義、時間粒度、フィルター、アクセス境界、そして再利用可能な出力です。

Tukun.ai は、この二つの層をつなぐために設計されています。

一文で言えば:

Tukun.ai is a semantic-first data agent.

これは単なる ChatBI インターフェースではありません。セマンティクス、データソース、モデル、Skills、再利用可能な分析資産を中心に構成された Data Agent Harness です。

なぜ semantic-first なのか

データエージェントの難しさは、単に質問を SQL に翻訳することではありません。

実際の業務では、同じ指標でも定義が複数ありえます。同じディメンションでも異なるデータソースにまたがることがあります。同じ質問でも、時間粒度や業務上の境界が異なれば意味が変わります。セマンティクスを先に管理しなければ、強力なモデルであっても流暢に間違った答えを返してしまいます。

だから Tukun.ai は次の順序で設計されています。

まず業務セマンティクスを管理する
次にデータソースを接続する
その上で Agent にモデルとツールをオーケストレーションさせる
最後に分析結果を再利用可能な資産として残す

指標、ディメンション、エンティティ、リレーションシップは、一時的な prompt テキストとして扱われません。管理でき、公開でき、追跡できるプロダクトオブジェクトとして扱われます。

プロダクト構造

Tukun.ai は複数のレイヤーで構成されています。

Layer	Role
Semantics	指標、ディメンション、エンティティ、リレーションシップ、業務定義を管理する
Data	PostgreSQL、ファイル、その他の業務データソースを接続し、メタデータを同期する
Models	複数の LLM をサポートし、プロダクトを単一 provider に固定せず、タスクごとにモデルを切り替える
Language	多言語利用を支え、その言語を実行時コンテキストへ持ち込む
Skills	反復可能な分析ワークフローやドメイン能力を拡張する
Workbench	質問、分析、レビュー、追質問、再利用を扱う
Assets	カード、チャート、ダッシュボード、Skills、セマンティクス定義を保存する

目標はシンプルです。分析を一度きりの回答で終わらせず、チームが検証し、追質問し、再利用し、改善できるものにすることです。

完全な Data Agent Harness

Tukun.ai の中核は単一ページではなく、分析ランタイムです。

ユーザーのリクエストがシステムに入ると、ランタイムは次を担います。

意図を解決する
prompt とコンテキストを組み立てる
利用可能なツールと Skills を選ぶ
適切なモデルをディスパッチする
セマンティッククエリや分析ツールを実行する
結果を再利用可能なプロダクト資産に整形する

これにより、プロダクトロジックが各ページに散らばりません。Workbench、セマンティクス、Skills、下流の資産は、すべて同じランタイムパスを中心に整理されます。

セマンティックワークフロー

Tukun.ai は、データソースから同期されたメタデータを起点にしつつ、LLM を使って MetricFlow 構造に沿うセマンティクス草案を生成します。

それらの定義は自動で公開されるわけではありません。デフォルトの経路は、AI 支援による草案生成のあとに人間がレビューする流れです。システムは初期モデリングの速度を上げ、人は業務上の意味を保持します。

この方式がデータチームに適している理由は次の通りです。

メタデータを自動で取り込める
LLM 支援でセマンティクス草案を生成できる
指標、ディメンション、エンティティ、リレーションシップを引き続き編集できる
公開状態とバージョン履歴を追跡できる

重要なのは、毎回モデルに業務定義を推測させることではありません。より安定したセマンティクス層の上で Agent に分析させることです。

複数データソース

企業データは、めったに一カ所にだけ存在しません。

あるデータはデータベースにあり、あるデータはファイルにあり、また別のデータは業務システムや API から来ます。Tukun.ai は最初から複数データソース前提で設計されているため、異なるソースを一つの分析ワークフローに取り込めます。

現行アーキテクチャでは、セマンティック資産と分析コンテキストは data_source_id ごとにスコープされます。これにより、異なるデータソースの指標定義が誤って混ざるのを防ぎ、ソース単位でのガバナンスや再利用に向けた明確な基盤を持てます。

複数 LLM

モデルごとに得意な仕事は異なります。

推論が得意なモデルもあれば、ツール利用に強いモデルもあります。コスト管理に向いたモデルもあり、特定の言語シナリオでより安定するモデルもあります。

Tukun.ai は、モデルを設定可能でガバナンス可能なプロダクト能力として扱います。

複数 provider
複数 model
プラン別の利用可能モデル
デフォルトモデルとモデル選好設定
設定変更後のランタイム反映

これは商用プロダクトにとって重要です。マルチモデル対応は、単なる API 統合ではありません。課金、アカウント、クォータ、キャッシュ入力、出力、推論出力にも関わります。

Prompt Cache にやさしいコンテキスト設計

長期的な利用コストを抑えるために、Tukun.ai は階層化された prompt assembly を使っています。

Base System Prompt
Core Runtime Rules
Response Contract
Evidence Rules
Shared Memory
Skill Prompts / Skill References
Recent Turns
Turn Context

これらのセクションは stable、semistable、volatile に分けて管理されます。

stable な内容はできるだけ固定し、semistable な内容は能力やタスク形状に応じて変化し、volatile な内容は現在の turn に近い部分だけを持たせます。この構造により provider の Prompt Cache の恩恵を受けやすくなり、頻繁な分析ワークフローをより低コストに保ちやすくなります。

多言語ランタイム

多言語対応は、単なる UI 翻訳ではありません。

データエージェントにとって、言語はユーザーの質問、ツール出力、エラー、分析結論、追質問の提案に影響します。Tukun.ai は requested_locale をランタイムコンテキストへ持ち込み、prompt 組み立てとツール出力がユーザーの言語環境に従えるようにします。

現在のプロダクトは、中国語、英語、日本語を前提に整えられています。将来ほかの言語を追加する際も、主な作業はローカライズ文言と言語設定の追加であり、業務ワークフローの書き直しにはならないはずです。

Skills 拡張

組み込みの分析機能に加えて、Tukun.ai は Skills を通じて反復的なワークフローを支援します。

たとえば:

業界特化の分析テンプレート
固定テンプレートからのレポート生成
データ結果からの PPT 生成
チーム独自の分析手法
ドメイン特化のデータ処理や説明フロー

Skills は、ランタイム prompt とツールコンテキストに能力バンドルとして参加します。単なる UI ショートカットではありません。

従来 BI や汎用チャットアシスタントとの違い

Comparison	Traditional BI	Generic chat assistant	Tukun.ai
Entry point	ダッシュボード / レポート	チャットボックス	Semantics + Workbench
Semantic management	散在しがち	ほぼ存在しない	Built in
Data access	可能だが設定負荷が高い	弱い	分析ワークフローの一部
Analysis process	固定的	一時的	追質問、レビュー、再利用が可能
Result preservation	ダッシュボード中心	コンテキスト記憶依存	カード、チャート、ダッシュボード、セマンティック資産

Tukun.ai は、あらゆる BI 製品を置き換えようとしているわけでも、汎用チャットの入口になろうとしているわけでもありません。

焦点は一つです。自然言語の問いから始め、ガバナンスされたセマンティクスで制約し、ツールで実行し、その結果を再利用可能な分析資産として残すことです。

現在の段階

Tukun.ai にはすでに中核フレームワークがあります。

Data Agent Harness
semantic-first workflow
複数データソース対応
マルチ LLM 設定
Prompt Cache にやさしいコンテキスト階層
多言語ランタイム
Skills 拡張
Workbench と再利用可能な分析資産

今後は、実際の分析ワークフローに沿って改善を続けます。セマンティクスモデリングをより安定させ、分析パスをより観察しやすくし、結果の再利用をより自然にしていきます。

データエージェントの要点は、モデルをより会話的に見せることではありません。分析をより信頼でき、より制御しやすく、より積み上がるものにすることです。

それが Tukun.ai の向かう方向です。