Overview
タブレット上で学習する低学年の児童に向け、単なる画像としての文字認識(OCR)ではなく、「運筆のプロセス(書き順、筆圧、速度)」を時系列データとして評価する最先端のAI推論モデルを開発しました。自然言語処理や最先端のVLM(Vision-Language Model)で用いられるTransformerのアテンション機構(Self-Attention)を「画(Stroke)」のシーケンス解析に応用。「この画の次はどこに向かっているか」「とめ・はね・はらいが正しく行われているか」をタブレット上でリアルタイムに推論・フィードバックするシステムを実現しました。
プロジェクト概要
タブレット上で学習する低学年の児童に向け、単なる画像としての文字認識(OCR)ではなく、「運筆のプロセス(書き順、筆圧、速度)」を時系列データとして評価する最先端のAI推論モデルを開発しました。本プロジェクトのコアとなる StrokeAttentionInfer.ipynb では、TransformerのSelf-Attentionを「画(Stroke)」のシーケンス解析に応用。「この画の次はどこに向かっているか」「とめ・はね・はらいが正しく行われているか」をリアルタイムに推論・フィードバックするシステムを実現しました。
技術的ハイライト
Stroke Attention アーキテクチャ
1D Conv + Transformer Hybrid
タッチパネルから取得される (x座標, y座標, 筆圧, タイムスタンプ) の時系列データをトークン化し、画と画の関係性をSelf-Attentionで計算。崩れた文字であっても「正しく書こうとしている意図(運筆の軌跡)」をAIが理解し、低学年特有の癖を許容しつつ正確な評価を行います。
オンデバイス推論の最適化
Quantization / ONNX / TFLite
通信遅延(レイテンシ)をなくし、子供たちが書いてすぐにマルバツのフィードバックを得られるよう、PyTorchで学習したモデルの量子化・軽量化を実施。一般的な学習用タブレットのエッジ環境において、推論時間を数十ミリ秒単位に抑えることに成功しました。
アーキテクチャ詳細
なぜTransformerなのか — 画順の「文脈理解」
従来のCNNベースの文字認識は「完成した字の形」を評価するのみですが、本モデルはTransformerのSelf-Attentionにより「1画目を書いた後、2画目がどこに向かったか」という**画と画の文脈的な関係**を学習します。これは自然言語処理でトークン間の依存関係を捉えるのと同じ原理です。2024年〜2025年にかけて、手書き認識でもTransformerベースの手法が精度面で優位に立つことが示されており(IAM Handwriting Database等での研究)、本プロジェクトはその最新知見を実用システムに落とし込んでいます。
時系列ストローク
タッチパネルの生データをトークン化。筆圧・速度・方向を含む多次元時系列データとして処理し、運筆の意図を捉える。
Self-Attention
画と画の関係性を学習するTransformerアーキテクチャ。1DConv+Transformerのハイブリッド構造で空間・時系列特徴を同時に捉える。
エッジ最適化
PyTorchモデルをONNX/TFLite形式に変換し量子化。タブレット内蔵NPU/CPUで数十ms以内のリアルタイム推論を実現。
プロジェクト情報
カテゴリ
AI開発 / ディープラーニング / EdTech
年度
2023
分野
教育AI / 筆跡認識 / エッジ推論
言語
Python
技術スタック
キーワード
ハイライト
- ✓Transformerのアテンション機構を筆跡の画シーケンス解析に応用(StrokeAttentionInfer.ipynb)
- ✓1DConv+Transformerハイブリッドアーキテクチャで空間・時系列特徴を同時学習
- ✓INT8量子化+ONNX変換によりタブレットエッジ環境で数十ms推論を実現
- ✓「書いてすぐマルバツ」が出るリアルタイムフィードバックシステムの実装
