YASUHIRO
筆跡判定AIのためのデータ基盤構築・アノテーションパイプライン
AI 開発2023

筆跡判定AIのためのデータ基盤構築・アノテーションパイプライン

EdTechData EngineeringAnnotationData Augmentation

Overview

学習塾が提供するタブレット向けデジタル教材において、小学校低学年特有の「想定外の運筆・崩れた字形」を正確に判定するAIモデルの基盤となるデータセット構築プロジェクトです。AIの性能はデータの質に直結します。本プロジェクトでは、実際の児童の筆跡データに対し、背景ノイズの重畳やアノテーションの自動可視化パイプラインを構築し、AIモデルが実環境(エッジデバイス上)で高いロバスト性を発揮するためのデータエンジニアリングを遂行しました。

プロジェクト概要

タブレット向けデジタル教材において、小学校低学年特有の「想定外の運筆・崩れた字形」を正確に判定するAIモデルの基盤となるデータセット構築プロジェクトです。AIの性能はデータの質に直結します。本プロジェクトでは、実際の児童の筆跡データに対し、背景ノイズの重畳やアノテーションの自動可視化パイプラインを構築し、AIモデルが実環境(エッジデバイス上)で高いロバスト性を発揮するためのデータエンジニアリングを遂行しました。

実装した技術・スクリプト群

Script 1

背景ノイズ重畳によるデータ拡張

add_bkgdata_to_dataset.py

実際のタブレット教材では、ガイドの罫線、消しゴムの消し跡、画面の汚れなどがAIの判定精度を落とす原因となります。本スクリプトでは、きれいな筆跡データに対して意図的に背景ノイズ(合成データ)を合成し、エッジ推論時にノイズに惑わされないモデルを学習させるための堅牢なデータセットを生成しました。

Script 2

アノテーション品質管理システム

show_annotation_res.py

「とめ・はね・はらい」や「画数・画順」のアノテーション結果を自動で可視化・検証するスクリプトを開発。外注したアノテーションデータのラベル揺れを自動検知し、データ品質を一定水準に保つ品質管理(QA)プロセスを構築しました。

データ品質へのこだわり

📊

「Garbage In, Garbage Out」を防ぐデータ設計

深層学習の精度はデータの質に依存します。特に低学年の筆跡は多様性が高く、「正しい崩れ方」と「誤った崩れ方」の境界が曖昧です。本プロジェクトでは、アノテーション基準の策定から品質管理まで一貫したパイプラインを整備することで、モデルが「意図的な書き方の多様性」と「誤った字形」を正確に区別できるよう設計しました。

🎨
手法

データ拡張

Augmentation × Noise Synthesis

背景ノイズ(グリッド線・消し跡・汚れ)の合成により、実環境での多様なノイズパターンに対応。ロバスト性の高いモデル学習データを生成。

🏷️
品質管理

アノテーション自動検証

Label Consistency Check

外注アノテーションのラベル揺れを自動検知。「とめ・はね・はらい」「画数・画順」の基準統一により、データ品質を担保。

目標

エッジ推論対応

Edge Device Robustness

タブレット上のNPU/CPUで高速推論できるよう、モデルが実環境ノイズに左右されないデータセット設計を実現。

プロジェクト情報

カテゴリ

AI開発 / データエンジニアリング / EdTech

年度

2023

分野

教育AI / 筆跡認識 / データ基盤構築

言語

Python

技術スタック

PythonOpenCVNumPyPandasSynthetic Data GenerationData Augmentation

キーワード

EdTech筆跡判定AIデータ拡張アノテーション品質管理ロバスト性エッジ推論

ハイライト

  • 背景ノイズ重畳(グリッド線・消し跡・汚れ)による大規模データ拡張パイプラインの設計・実装
  • 外注アノテーションのラベル揺れ自動検知・品質管理(QA)システムの構築
  • エッジデバイス(タブレット)上での高ロバスト性推論を目標としたデータ設計
  • 小学校低学年特有の多様な字形に対応する評価基準の策定