Overview
学習塾が提供するタブレット向けデジタル教材において、小学校低学年特有の「想定外の運筆・崩れた字形」を正確に判定するAIモデルの基盤となるデータセット構築プロジェクトです。AIの性能はデータの質に直結します。本プロジェクトでは、実際の児童の筆跡データに対し、背景ノイズの重畳やアノテーションの自動可視化パイプラインを構築し、AIモデルが実環境(エッジデバイス上)で高いロバスト性を発揮するためのデータエンジニアリングを遂行しました。
プロジェクト概要
タブレット向けデジタル教材において、小学校低学年特有の「想定外の運筆・崩れた字形」を正確に判定するAIモデルの基盤となるデータセット構築プロジェクトです。AIの性能はデータの質に直結します。本プロジェクトでは、実際の児童の筆跡データに対し、背景ノイズの重畳やアノテーションの自動可視化パイプラインを構築し、AIモデルが実環境(エッジデバイス上)で高いロバスト性を発揮するためのデータエンジニアリングを遂行しました。
実装した技術・スクリプト群
背景ノイズ重畳によるデータ拡張
add_bkgdata_to_dataset.py
実際のタブレット教材では、ガイドの罫線、消しゴムの消し跡、画面の汚れなどがAIの判定精度を落とす原因となります。本スクリプトでは、きれいな筆跡データに対して意図的に背景ノイズ(合成データ)を合成し、エッジ推論時にノイズに惑わされないモデルを学習させるための堅牢なデータセットを生成しました。
アノテーション品質管理システム
show_annotation_res.py
「とめ・はね・はらい」や「画数・画順」のアノテーション結果を自動で可視化・検証するスクリプトを開発。外注したアノテーションデータのラベル揺れを自動検知し、データ品質を一定水準に保つ品質管理(QA)プロセスを構築しました。
データ品質へのこだわり
「Garbage In, Garbage Out」を防ぐデータ設計
深層学習の精度はデータの質に依存します。特に低学年の筆跡は多様性が高く、「正しい崩れ方」と「誤った崩れ方」の境界が曖昧です。本プロジェクトでは、アノテーション基準の策定から品質管理まで一貫したパイプラインを整備することで、モデルが「意図的な書き方の多様性」と「誤った字形」を正確に区別できるよう設計しました。
データ拡張
背景ノイズ(グリッド線・消し跡・汚れ)の合成により、実環境での多様なノイズパターンに対応。ロバスト性の高いモデル学習データを生成。
アノテーション自動検証
外注アノテーションのラベル揺れを自動検知。「とめ・はね・はらい」「画数・画順」の基準統一により、データ品質を担保。
エッジ推論対応
タブレット上のNPU/CPUで高速推論できるよう、モデルが実環境ノイズに左右されないデータセット設計を実現。
プロジェクト情報
カテゴリ
AI開発 / データエンジニアリング / EdTech
年度
2023
分野
教育AI / 筆跡認識 / データ基盤構築
言語
Python
技術スタック
キーワード
ハイライト
- ✓背景ノイズ重畳(グリッド線・消し跡・汚れ)による大規模データ拡張パイプラインの設計・実装
- ✓外注アノテーションのラベル揺れ自動検知・品質管理(QA)システムの構築
- ✓エッジデバイス(タブレット)上での高ロバスト性推論を目標としたデータ設計
- ✓小学校低学年特有の多様な字形に対応する評価基準の策定
