Data-Centric AIとReal-World

2023/04/12 | 4分
 
  • パク・チャンジュン (AI Research Engineer)

  • AIシステムにおけるデータの重要性が気になる方

    現業でData-Centric AIを適用したい方
    いいデータを作りたい方

  • AIシステムにおけるデータの重要性を強調する「Data-Centric AI」をご存知ですか?データを実際に扱っている現業、Real-Worldでは、これをどのようにビジネスに適用しているのか、良いデータを作るために必要な要素について解説します。

  • ✔️ Data-Centric AIとは?

    ✔️ Real-WorldでData-Centric AIを適用する方法

    ✔️ Real-World で Data を作成する方法

    ✔️ データの量と質

    ✔️ 良いデータとは?

    ✔️ まとめ(ではアップステージは?)

燃料がなければ車は動かないし、材料がなければ食べ物を作ることができません。同じように、人工知能システムにも燃料と材料が必要です。 その役割を果たすのがデータです。本記事では、「データ」を実際に扱っている現業、Real-Worldでどのようなことが行われているのかを紹介したいと思います。





Data-Centric AIとは?


人工知能は私たちの日常のどこにでも存在します。私たちは毎日ポータルサイトを通じて検索をして欲しい情報を得たり、言語の障壁を感じる時は翻訳機を使います。 また、YouTubeの推薦システムが私の興味にぴったりなコンテンツを継続的に表示してくれるので、時間を忘れて映像を視聴する経験をしたり、様々な作業の補助ツールとしてChatGPTを活用したりしています。 このように、私たちは日常生活の中で様々なAIシステムと向き合い、活用して生きています

このような私たちの日常の中の人工知能システムはどのような要素で構成されているのでしょうか?極端な話、すべての人工知能システムは大きくDataとCodeに分かれています。1段階でどんな人工知能システムを開発するか企画及び設計を行い(Setup)、2段階で目的に合ったデータ、つまり燃料を準備し、3段階でモデルを学習させるためのコードを作成した後、GPUハードウェアを活用して開発者が望む人工知能システムを学習します。最後の4段階では、ユーザーまたは顧客が直接そのモデルを使用できるようにシステムに対する配布(Serving)を行う方式です。

このように展開するだけで、人工知能システムのライフサイクルは終了するのでしょうか?いいえ!人間も成長するためには栄養素をまんべんなく摂取しなければならないように、人工知能システムも継続的に高度化する作業が必要です。 では、人工知能システムの高度化のためにはどのようなアプローチが必要でしょうか?

結局、2つの要素であるCodeまたはDataを高度化させることが必要です。 このうち、Code、つまりモデリングを通じて性能を向上させるのではなく、Dataの品質を向上させ、DataのQuality Controlを通じてモデルの性能を向上させるのがData-Centric AIです。つまり、Data-Centric AIとは、コード、つまりモデルだけを直すのではなく、データを直そう!ということです。

ChatGPTにData-Centric AIとは何かを聞いてみました。

Data-Centric AIに関する質問にChatGPTが回答した内容

Data-Centric AIに関する質問にChatGPTが回答した内容


回答を見ると、Data-Centric AIはデータを中心にしたAIシステムを意味し、データを変換して性能を上げる点を強調していることがわかります。Data-Centric AIは下記のように2つに整理することができます。


  • パフォーマンス向上のためにデータの観点から考える研究方法論 (Hold the Code / Algorithms fixed)

    • e.g. Data Management(新しいデータの収集), Data Augmentation(データ増強), Data Filtering(データフィルタリング), Synthetic Data(合成データ).Label Consistency (ラベリング方法の体系化), Data Consistency, Data Tool (ラベリングツール), Data Measurement, Evaluation, Curriculum learning, Active Learningなど。


  • Model Modificationなしでどのようにモデルの性能を向上させることができるのかについての研究方法論

    • 別の機種を探した方がいいのでしょうか?

    • データを理解し、その情報を使ってモデルを改善するAIアルゴリズム。



Real-World で Data-Centric AI を適用する方法

データフライホイール

データフライホイール

実際の現業のReal-Worldで企業はData-Centric AIをどのように適用しているのでしょうか?様々な方法がありますが、最も代表的なプロセスが「Data-flywheel」です。B2B企業であれ、B2C企業であれ、AIベースのサービスをやっているとlogが蓄積されます。 多くの企業では、このように蓄積されたデータをより良いサービスを提供するために活用します。


YouTubeのおすすめモデルが私たちのニーズをうまく反映してくれるのも、ログデータを通じてこれをモデルに反映し、ユーザーの満足度を高めたのです。 私たちがポータルサイトで検索する検索語や検索の旅程など、プラットフォーム上で行われる行動はデータとなり、実際に蓄積されています。このように企業でサービスを運営していく中で蓄積されるデータをモデルの学習データとして加工し、モデルに継続的に追加学習を行い、自然にモデルの認識性能を高めるのがData-flywheelです。


つまり、データを基盤にモデルと相互作用しながら複数のiterationを回し、モデルとデータの両方がクオリティが高くなるようにする形です。 これがまさにData-Centric AIをReal-worldに適用したときの最も代表的な形です。



Real-Worldでデータを制作する方法

では、Data-flywheelがReal-WorldにおけるData-Centric AIのすべてでしょうか?いいえ!Real-Worldではデータを直接製作することもあります。 しかし、従来のAI研究はほとんどモデル研究だけに集中していたため、データ開発ライフサイクルについて具体的に体系化されたプロセスが確立されていませんでした。 そのため、誰がどのようにデータを作るのか、どのようなデータが良いデータなのか、良いデータはどのように作るのかについて比較的関心が少なかったのです。 このようなプロセスについて必要性を感じ、アップステージではデータチームを中心に設計しているところです。

Real-Worldでデータを制作する過程

Real-Worldでデータを制作する過程

データ制作プロセスのA to Zに関する研究を進め、どうすれば良いデータを作れるかを考え、そのためのパイプライン研究を進めています。 良いデータを作るためにDMOPs(Data Management Operation and Recipes)という名前で様々な研究を継続し、論文も出版しています。 (その内容は続く2編で扱う予定です)

このような能力は、人工知能モデリング能力、サービング能力とは全く異なる能力を要求します。 つまり、このような仕事ができる人を集めてチームビルディングをすることが、企業の立場で非常に大きな競争力になると思います。

Training Dataを作るためのパイプライン構造 (出典:https://arxiv.org/pdf/2303.10158.pdf)


他にもデータを開発し、Collection、Labeling、Preparation、Reduction、Augmentationの段階などで様々なData-Centric AIのサブ分野が貢献しています。


データの量と質

では、データを制作する際、量と質のどちらを重視すべきなのでしょうか?私がReal-worldでデータを扱う中で感じたことは、データの質をもっと重視しなければならないということです。

既存の学界でのData-centric AIの研究を見ると、新しいData Augmentationの方法論を提案したり、合成データを作ってデータのサイズを増強してモデルの性能を向上させるなど、データの量的な部分にFocusを置いていることが多いです。 しかし、実際の現場でサービスをやってみて感じたのは、このような部分の検討も重要ですが、データの質、つまり「ラベルの一貫性」が重要だということです。

そのためには、ラベルの一貫性のために、実際のアノテーターの方々にデータ別の特性に応じてどのように注釈をするのかという一般的なルールを設計してもらうことで、アノテーター個人の主観的な判断がデータにバイアスとして作用しないようにガイドラインを提示する必要があります。 次に、このようなラベルの一貫性をどのように評価するかというdata measurementの部分、また、この評価を通じてガイドラインをどのように改善するかという悩みが実務で顕著であることが確認できました。

このような観点から、私が考える望ましいData-flywheelは、モデルの性能が良くない場合、追加的にデータの量を増やすなどの一方的な改善方式ではなく、モデルの結果によってデータ生成過程のガイドラインやプロセスなども徐々に改善されるデータ-モデル双方向の好循環構造が重要だと思います。つまり、モデルの性能が悪いとき、単にデータを増やすだけの量的な拡張ではなく、質的な拡張をしなければならないことを示唆しています。 結局、サービスをしながらエラーが発生するデータをより多く収集し、そのようなデータの曖昧なラベルを一貫して修正するプロセスが、モデルに本当にインパクトのある性能向上を持ってきます。

双方向 Data-flywheel: データの量を増やすなどの一方向的な改善方式ではなく、モデルの結果によってデータ生成過程のガイドラインやプロセスなども段階的に改善されるデータ-モデル双方向の好循環構造

双方向 Data-flywheel: データの量を増やすなどの一方向的な改善方式ではなく、モデルの結果によってデータ生成過程のガイドラインやプロセスなども徐々に改善されるデータ-モデル双方向の好循環構造

したがって、高品質のデータを作るためにアノテーションツール(Data Tool)を設計することも非常に重要です。ツールで作業者が楽に作業し、ラベルの一貫性がよく維持されているかどうかを把握する装置が実装されなければなりません。 アップステージでもこのようなデータツールを「Labeling Space」という名前で開発を完了し、現在社内のデータパイプラインに適用して高品質のデータを製作するのに一役買っています。このツールがデータ制作の時間とコストを大幅に削減することができ、さらに良いデータを 生産できるようにするキープレーヤーとして機能するからです。

アップステージドキュメントAI

良いデータとは?

ここまで、良いデータを作るために必要な要素について見てきました。

では、良いデータとは一体何でしょうか? 学界では、モデルの性能を客観的に明確に測定できるベンチマークデータ、Publicly availableした高品質の学習データなどがGood Dataと考えられます。 しかし、real-worldでは、これらの条件以外にも、良いデータの尺度が多様に定義されることがあります。

<Real-World에서 쓰이는 좋은 데이터의 척도>

  • meta dataがどれだけ informativeか

  • データの量は十分で、そのコストは適切か?

  • 作業者に正当な報酬を与えるが、不必要な費用が支払われないデータかどうか。

  • Versioning体系がうまくできているか

  • データ保存フォルダ構造が直感的ですっきりしているかどうか

  • 不要なデータが含まれていないか?

  • データ要件指示書に記載された要件を満たしているか?

  • データの偏り、バイアス、汚染、倫理的な問題はないか?

  • データのラベリングは妥当であり、一貫性があるか?

  • 所有権と著作権、知的財産権、機密性、個人情報は適切に考慮されているか?

上記のような様々な要素を良いデータの尺度として見ることができます。これはあまりにも当たり前の話かもしれませんが、良いデータを完成させる不可欠な要素です。 学界ではgood dataとして考慮する事項ではありませんが、real-worldではこれらの要素も考慮しなければなりません。つまり、Academiaで言うGood Dataと企業で考えるGood Dataには違いが存在します

最近academiaで扱われているデータ研究を見ると、モデルのためのデータというよりは、データのためのデータを作っているような気がします。学界でのData-centricな研究を見ると、モデルとの呼応性を見るよりも、データの内在的な特性だけを考慮してフィルタリングを進める研究が多いようです。 つまり、どのようなデータをフィルタリングするとした時、その精製の基準を詳しく見ると、モデルの出力結果を考慮するのではなく、データの内在的な特性に集中してフィルタリングを進めているのです。 しかし、なぜ良いデータを作ろうとするのかという質問を投げかけてみると、良いデータは実は良いモデルを作るためです。 つまり、良いデータと悪いデータを分ける基準は、モデルの性能の観点で考えると非常に有効だと思います。

先ほど、AIシステムはCodeとDataに分かれると申し上げましたが、短期間で性能を爆発的に向上できるのはDataであることは明らかですが、Codeを軽視してはいけないと思います。 したがって、CodeがマイルストーンとなるData-centricな研究が必要であり、つまりModel based Data Centric AIが行われるべきです

真のGood Dataは、モデラーと複数のiterationを回し、モデルの結果をもとに継続的なクレンジングを行い、モデルの性能向上に貢献するデータだと思います。 モデルを通じてエラーを発見し、人間を通じてクレンジングを行うhuman in the loop cycleが重要です。 継続的なサイクルを通じてerror freeであるだけでなく、モデルの結果と合致する有機的なデータが重要です。つまり、Data-centric AIに対するRevisitingが必要だと言えます。真のData Centric AIを実現するためには、データを重要視するだけでなく、前述の要素と調和できるように工夫する必要があります。

結局、良いデータのために最も重要な4つのことを整理すると、次のようにまとめることができます。

1) DMOpsのような体系的なプロセス

2) ラベルの一貫性を考慮し、アノテーターの主観が入らないように適切に設定されたガイドラインと

3) データを簡単かつ効率的に製作できるツール

4) Modelの結果を方向性として継続的なクレンジング過程を経たデータ。

このようなクレンジング過程を通じてデータの品質とガイドライン、そしてモデルの性能も一緒に改善される双方向の好循環構造に基づいて作られたデータが良いデータと定義できると思います。 そして、その価値は市場でモデルを通じて評価されるでしょう。結局、AI企業であってもデータ専門、モデル専門を超え、モデルとデータの両方を得意とする企業が今後生き残ることになると思います


まとめ(ではアップステージは?)

モデルとデータの両方を得意とする企業がアップステージです。私が今まで話したReal-worldでData-centric AI技法をNo-Code、Low-Codeの形でAll in oneパッケージとしてリリースしたのがアップステージが開発した「UpstageAI Pack」です。Upstage AI Packは、Real-worldにおけるData centric AIの概念をうまく溶け込ませたAIプラットフォームの代表的な事例とお考えください。 Data-flywheelの好循環構造を、あなたのマウスクリック一回で全て詰め込みました。AIをよく知らない方でも、マウスクリックだけでAIシステムを簡単かつ効率的に作成できるノーコード・ローコードのAIソリューションです。

このようなAI Packに実装されているreal-worldを考慮した様々な要素が反映されれば、Good Dataを超えたGreat Dataを作ることができると思います。 アップステージのAI Packが多くの企業のGreat Dataを作るお手伝いができればと思います。次回2回目は、実際のデータを構築するDMOps(Data Management Operation and Recipes)についてのお話が続きます。

 
 
 
  • 2020年10月に設立したアップステージは、画像から目的の情報を抽出して利用できるOCR技術をはじめ、顧客情報と製品・サービスの特徴を考慮した推薦技術、意味ベースの検索を可能にする自然言語処理検索技術など、最新のAI技術を様々な業種にカスタマイズして簡単に適用できるノーコード・ロックコードソリューション「Upstage AI Pack」を発売し、顧客企業のAI革新を支援している。Upstage AI Packを利用すれば、データ加工、AIモデリング、指標管理を簡単に活用できるだけでなく、継続的なアップデートをサポートし、常時最新化されたAI技術を便利に使用することができる。また、AIビジネス経験を溶け込ませた実習中心の教育と堅実なAI基礎教育を通じて、AIビジネスに即座に投入できる差別化された専門人材を育成する教育コンテンツ事業にも積極的に取り組んでいる。

    アップステージはGoogle、Apple、Amazon、NVIDIA、Meta、Naverなどのグローバルビッグテック出身のメンバーを中心に、NeurPSをはじめ、ICLR、CVPR、ECCV、WWW、CHI、WSDMなど世界的権威のあるAI学会に多数の優秀論文を発表し、オンラインAI競進大会Kaggleで国内企業の中で唯一2桁の金メダルを獲得するなど、独自のAI技術リーダーシップを確立している。アップステージのキム・ソンフン代表は、香港科学技術大学教授として在職しながら、ソフトウェア工学と機械学習を融合したバグ予測、ソースコード自動生成などの研究で最高の論文賞であるACM Sigsoft Distinguished Paper Awardを4回受賞し、International Conference on Software Maintenanceで10年間最も影響力のある論文賞を受賞した世界的なAIの教祖と言われ、合計700万ビュー以上を記録した「みんなのためのディープラーニング」講師としても広く知られている。また、アップステージの共同創業者には、Naver Visual AI / OCRをリードし、世界的な成果を出したイ・ヒョルソクCTOと世界最高の翻訳機パパゴのモデルチームをリードしたパク・ウンジョンCSOが参加している。

    アップステージのホームページへ

 
先の
先の

チャットGPTの父」、サム・アルトマンがGPT-4とAGIについて語る。

次に
次に

賢いAskUp(アスクアップ)活用法 Vol.2 - 教育/学習編