AI検索の専門家が語る「ChatGPT」の現在と未来

2023/01/19 | 3分
 
  • ペ・ジェギョン(アップステージAIプロダクトリーダー、元カカオ検索エンジンリーダー)

  • AI・IT業界の課題に興味がある方

    ChatGPTの動作原理と機能に興味がある場合は、

    AIが将来に与える影響に興味がある

  • 人間のように自由に言語を話す会話型人工知能チャットボットである「ChatGPT」の流行は消えません。AI検索の専門家はこれをどのように見ていますか?「ChatGPT」の現在と未来について、UpstageのAIプロダクトリーダーであり、ニューラルネットベースの翻訳エンジンのA to Z開発の両方を担当した元カカオ検索エンジンリーダーであるJaekyung Bae氏の見解を共有しました。

  • ✔️ 言語モデルとは

    ✔️ 言語モデルと人間が生成した文の違い

    ✔️ チャットGPTにおける言語推論

    ✔️ チャットGPTの強み

    ✔️ まだ人間特有の高度な推論

    ✔️ ChatGPTは検索市場を変える

12月に発表された超巨大人工知能(AI)ベースのチャットボット「ChatGPT」の流行は消えません。多くの人々は、まるで人と話しているかのように自然に言語を話し、誤った前提を特定し、優れたライティングスキルを披露するChatGPTの出現に驚いていました。検索サービスを提供するGoogleでさえ、脅威を感じ、内部で「コードレッド」を発行しました。

AI検索の専門家はChatGPTをどのように見ていますか? UpstageのAIプロダクトリーダーであり、元カカオ検索エンジンリーダーとして、ニューラルネットベースの翻訳エンジン開発のAからZまでのすべての側面を担当していたJaekyung Baeは記事を書いています。

言語モデル
(Language Model) とは?

ChatGPTは、OpenAIによって訓練された大規模な言語モデルです。自然言語を理解するには非常に高いレベルの推論が必要であるため、現在の機械学習モデルは限られていると考えられてきました。したがって、ChatGPTによって現在実証されているパフォーマンスのレベルは、少なくとも近い将来(数年以内)に達成するのは難しいと考えられていました。ただし、ChatGPTはすでに想像以上に速く開発されています。同時に、これらの成果の意味と可能性の評価が膨らんでいるのも事実です。ChatGPTを含む巨大なAIモデルについてより明確な判断と予測を行うためには、まず「言語モデル」とは何かを理解する必要があります。

言語モデルは、テキスト(または音声)の形式のコンテキスト情報(部分的な情報である可能性があります)に基づいて次の単語または文字を予測するモデルです。言語モデルは、膨大な量のテキスト情報をトレーニング データとして使用し、 特定の単語や文字を消去した後に空白を埋める内容を予測する最も一般的に使用される方法です。

例:私は______ボブです。➡️ 空白に続くものは「食べる」と予測できます

上記の例では、空白には何が入っていますか?韓国語を理解している人なら誰でも簡単に予測することができ、それが言語モデルが行うことです。 モデルは、1 つ以上の目標を指定し、それらの目的が達成される方向にパラメーターを変更することによってトレーニングされます。 そして、これらのパラメータの数はモデルのサイズです。多くの文書は通常複数の文で構成されており、これらの文はランダムにリンクされているのではなく相関しているため、一連の文であるかどうかをモデルが一致させるための目的として使用することもできます。

「空白を推測する」という言語モデルの目標は単純に見えるかもしれませんが、 精度を向上させるために周囲の単語や文をより多く見るようにモデルがトレーニングされているため、単純ですが非常に強力 です。 この目的のもう一つの利点は、 世界中のすべてのテキスト情報を学習に使用できることです。ある意味、これが超巨大モデルが生まれた理由です。 人間が言語を学ぶ方法も言語モデルに似ています。 これを行うつもりがなくても、いつの間にかすでに学んでいます。これは非常に自然で効果的な学習方法であるため、人間の脳がこのパターンに従わない理由はありません。

言語モデルと人間が
生成する文章の違い。

では、言語モデルが生成する文と人間が生成する文の違いは何ですか? 人間によって作成された文の最大の特徴は、与えられたテキスト情報に加えて、より豊かでより複雑な「文脈」があるということです。

文脈は、テキスト以外の情報(視覚/聴覚)または古い記憶や偏見などから推測したメタ情報です。特に文章を作るときは、通常、ある種の意図や目的などの重要な文脈があります。ただし、通常、単純なテキストにはこの情報が含まれていないか、部分的にしか存在しません。そのため、機械が生み出す文章と人間が作り出す文章では、感じが違うことが多いのです。

代わりに、言語モデルは世界中の膨大な量の情報をすべて学習しますが、これは1人の個人が扱う知識の範囲をはるかに超える可能性があります。 人間の脳の容量は物理的に制限されていますが、機械はほぼ無限に容量を増やすことができます。これらの違いにより、 言語モデルは、高度な推論や新しいコンテンツの生成ではなく、既存のコンテンツを組み合わせて文を形成するのに適しており、特に知識を扱う場合にうまく機能します

チャットGPTにおける言語推論

ChatGPT の仕組み (出典: OpenAI ブログ)

ChatGPT の仕組み (出典: OpenAI ブログ)

では、ChatGPTのような言語モデルの推論のレベルはどれくらいですか?実際、推論のレベルと程度は非常に多くの異なる方法で定義できるため、決定的な答えを出すことは不可能ですが、推論がどれだけ高いかをある程度判断することは可能です。たとえば、木を見て「あれは木だ」と言うのと、「それは何億年もの進化の結果である遺伝子の発現の1つです...」と言うのは別のことです。

特定の言語モデルの推論レベルは、 トレーニングされたデータと目的を調べることである程度予測できます。ChatGPTは、大量のテキスト情報に基づいて、スペースマッチングの目的を通じて、コンテキストでどの単語がうまくいくかを予測するのに非常に優れています。当初の目標は空白を打つことでしたが、彼らは自分で隠された目標を見つけることさえありました。これは、トレーニング データに十分なパターンが含まれている場合に当てはまります。たとえば、トレーニングデータに元の/翻訳されたペアが複数あり、それらの周りに「これは言語Aから言語Bへの翻訳です」という意味のフレーズがたくさんある場合、目的は「空白を推測する」だけでなく「翻訳する」にも拡張されます。GPT-3が最初にリリースされたとき、私はこの拡張機能を非常によく学んだので、ほんの少しのプロンプトでもっともらしい文を作成します。

ChatGPTは、推測ブランクの目的に加えて 、「微調整」と呼ばれる追加の学習を通じて、会話形式で知識を推測するパフォーマンスを最大化します。微調整段階では、「より人間による視聴に適した」という追加の目的を学習し、 収集された膨大なテキスト情報に加えて、人間が追加のトレーニングデータアノテーションを使用しました。正確な規模は不明ですが、この注釈に取り組むためにかなりの金額が投資され、大規模に構築されたと推定されています。 これが既存のGPTと比較してChatGPTがもたらした飛躍の大きな理由であり、OpenAIの「動き」は、この方法がうまくいくという信念に基づいて大胆な投資を行ったことといえます。

しかし、「人が見たときにより適切」というobjectiveをうまく達成するために取れるアノテーションの方法には限界があります。様々な場合について人が見たときにより適切で、自然に読める結果を作るためには無限に多くのデータが必要ですが、これは不可能なので、ChatGPTは会話形式の知識に対する質疑応答に焦点を当て、この状況で人がより満足できる結果を作る方向に学習データを構築してfine-tuningを行いました。

チャットGPTの使用例

チャットGPTの使用例

 

チャットGPTの強み

ChatGPTのこれらの強みは、主に2つの方法で要約できます。

1.ChatGPTは
人間の短期記憶を模倣します。

ChatGPTは、ユーザーと様々な質疑応答を交わしても、 ずいぶん前の会話から文脈をある程度理解し、それを反映した結果を出すので、良い記憶力を持っていると言えますが、同時に、人間の短期記憶を模倣する段階です。これは、ChatGPTの理解が依然として論理的な理解ではなく、低レベルのパターンの認識によって判断されるためです。たとえば、ChatGPTは各回答の最後に同じフレーズを繰り返し、いくら省略するように頼んでもわかりません。それにもかかわらず、驚くべきことに、強みは、以前の会話のコンテキストをよく理解し、ユーザーのニーズに対応するのが得意であることが多いことです。

2.ChatGPTは
できる仕事の種類が豊富です。

ChatGPTの第二の強みは、一つのことだけを得意とするのではなく、既存のモデルに比べて言語の理解が必要な様々なことを得意とすることです。 ChatGPTは知識を整理して教えてくれたり、翻訳や要約、さらにはコードまで作成してくれて、それを会話しながら修正するのを助けてくれます。

これらの特性のために、GPT-3またはChatGPTを人工知能(AGI)の初期モデルと見なす人もいます。AGIにおけるG(一般)の見方にもよるかもしれませんが、それでもAGIは、単にさまざまなことができるというよりは、常に人間の高度な抽象化能力に到達することを意味してきたので、AGIという用語は今日のChatGPTには適していないと思います。

ChatGPTは「既存の知識をうまく組み合わせる能力」というパターン化されたタスクとして見ることができるため、さまざまなことができます。もちろん、「知識」という用語はもっと拡張されており、1つのことに決定的に優れていることが適切かどうかは曖昧ですが、それでも人間の能力と比較することは困難です。

高度化された推論、
まだ人間の固有の領域

ChatGPTが登場したように、言語モデルは途方もなく進化しましたが、それでも、高度な推論は依然として人間に固有のものです。

機械学習モデルの場合、推論の力は、主に「横方向」の方向に膨大になる可能性があります。 何百もの言語を翻訳でき、さまざまなプログラミング言語でコードを生成することもできます。 それに比べて、人間の推論は「種」の方向に深く展開することができます。 翻訳の際には、状況や条件を考慮してより自然な翻訳ができ、コードを作成する際には、元のコードを結合するのではなく、以前は存在しなかった新しいロジックを作成できます。人間がジョークを理解し、反応する様子を見ると、理解が早くなると思います。人間は子どもの頃はジョークをあまりよく理解できませんが、大人になるにつれて言葉の意図が徐々にわかってきます。「冗談と真実」でさえ理解するには、かなりの言語スキルが必要です。

トレーニングデータを構築するために無限のリソースを投資できれば、それは別の話になります。これが現実になれば、機械はあらゆる面で人間を凌駕することができるでしょう。 しかし、無限のリソースを投入することは不可能であるため、最も効率的な学習方法を見つける旅は続き、AGIの特異点がどの時点で来るかはわかりません。

結論として、ChatGPTが現在のレベルでうまく機能しているのは、特に人間や自然言語と通信しながら、既存の知識を組み合わせて、より正確で関連性のある結果を生成する機能です。これの重要な意味の1つは、多くの専門家が予測するように、 検索のゲームチェンジャーになる可能性があることです。

ChatGPTが
変える検索市場の 판도

現在、知らない情報を見つけたいときは検索エンジンに依存していますが、将来的にはChatGPTなどのモデルを利用する可能性が非常に高いです。

これは、人工ニューラルネットワークベースの翻訳が最初に登場したときと同様に流れると予想されます。過去に、人工ニューラルネットワークベースの翻訳がルールベースの統計ベースの機械翻訳から最初に登場したとき、多くの専門家は非常にショックを受けました。実際、従来の方法で翻訳エンジンを開発したことがある人なら誰でも、今日のGPT-3やChatGPTよりも強く感じていたでしょう。データがあれば、こんな不思議なことが起きるのかと驚きました。

しかし、機械翻訳は驚きではなく自然なツールとして捉えられ、海外旅行や外国語を学ぶ必要があるときなど、日常生活で自由に活用しています。機械翻訳サービスに期待されるのは、完璧なパフォーマンスではなく、時折発生する間違いを理解し、必要に応じて適切な量の支援を受ける能力です。

その後、1つのモデルで数十以上の言語を翻訳できるモデル(これも複数の目的を持つ一種のマルチタスク学習です)。並列コーパスに加え、膨大なモノリンガルデータを用いた事前学習後の微調整により、パフォーマンスはますます高度化しています。ChatGPTとTranslatorはどちらも世代モデルであり、技術的に大きな違いはありません。ただし、ChatGPTははるかに大きく、より多くのデータを使用します。(もちろん、ChatGPTは翻訳もできるモデルです。

したがって、ChatGPTは翻訳モデルの例と同様に流れることが期待されます。 これは、はるかに少ないエネルギーでより満足のいく結果が得られるためです。完璧である必要はありません。翻訳で行ったように、多くの状況で支援できれば、それで十分です。より良いパフォーマンス結果が必要な場合、またはリスクがある場合は、実際の専門家を見つけるか、検索エンジンを使用できます。

画像生成人工知能モデル「DALL-E」で創るAIと人間の会話

 

ChatGPTの登場により、検索エンジンの開発の方向性は以下のようになると予想されます。まず、 UX は ChatGPT のようなモデルを含むように変更され、特定のクエリに対してモデルの結果をまとめて表示するか、モデルの結果のみを表示します。 パーソナライゼーション技術が進歩するにつれて、モデルの結果は単独で表示されることが多くなります。

適切な検索語を選ぶ作業は、自然言語を気持ちよく長く入力できる形に変わっていくようです。 それはあなたの古い検索エンジンを時代遅れにすることはありません。クエリの意図と種類は非常に多様であるため、特に適時性と正確性が要求される分野では、検索エンジンが引き続き積極的な役割を果たします。

あるいは、現在の検索エンジンとは別に、モデルだけで話しているように情報を取得できる新しいサービスが導入されることもあります。 このようなサービスは、複数のドメインで1つ作成できるようです。ヘルスケア、法律などで一般の方でもお使いいただけますが、プロが利用できる余地もたくさんあります。最も専門家でさえすべてを知ることはできないので、ほぼ無限のメモリを備えたマシンに依存しない理由はありません。

現在はWikipediaなどの一般知識に優れたモデルですが、 特定のドメイン分野のトレーニングデータを構築して微調整すれば、医療や法律などのドメインに素早く展開できます 。 ただし、ChatGPTの学習データは一般の人がアノテーションはできますが、専門領域ではアノテーションができないため、少し時間がかかる場合があります。最終的には、モデルの速度または推論コスト、およびトレーニングのコストの問題がありますが、これは時間の問題です。

韓国で検索エンジンを運用する大手IT企業が今後どう対応するかはまだ分からないが、言語モデルを使えばパフォーマンスが上手く、自然言語や会話型UXがたまらないようで、怠惰な気持ちになるだろう。特に、Naverはすでに良い成果を上げていますが、 GPTがまだ微調整されていない領域や韓国語に特化した学習領域をいち早く探索しようとすることが期待されます。これは、大規模なIT企業に限った問題ではないようです。Open AIやGoogleは、すでに微調整できる形で事前学習モデルを開くようなので、多くのスタートアップやIT企業が注目しています。このAIが今後生み出す新たな価値にワクワクしています。

 
 
 
  • 2020年10月に設立したアップステージは、画像から目的の情報を抽出して利用できるOCR技術をはじめ、顧客情報と製品・サービスの特徴を考慮した推薦技術、意味ベースの検索を可能にする自然言語処理検索技術など、最新のAI技術を様々な業種にカスタマイズして簡単に適用できるノーコード・ロックコードソリューション「Upstage AI Pack」を発売し、顧客企業のAI革新を支援している。Upstage AI Packを利用すれば、データ加工、AIモデリング、指標管理を簡単に活用できるだけでなく、継続的なアップデートをサポートし、常時最新化されたAI技術を便利に使用することができる。また、AIビジネス経験を溶け込ませた実習中心の教育と堅実なAI基礎教育を通じて、AIビジネスに即座に投入できる差別化された専門人材を育成する教育コンテンツ事業にも積極的に取り組んでいる。

    アップステージはGoogle、Apple、Amazon、NVIDIA、Meta、Naverなどのグローバルビッグテック出身のメンバーを中心に、NeurPSをはじめ、ICLR、CVPR、ECCV、WWW、CHI、WSDMなど世界的権威のあるAI学会に多数の優秀論文を発表し、オンラインAI競進大会Kaggleで国内企業の中で唯一2桁の金メダルを獲得するなど、独自のAI技術リーダーシップを確立している。アップステージのキム・ソンフン代表は、香港科学技術大学教授として在職しながら、ソフトウェア工学と機械学習を融合したバグ予測、ソースコード自動生成などの研究で最高の論文賞であるACM Sigsoft Distinguished Paper Awardを4回受賞し、International Conference on Software Maintenanceで10年間最も影響力のある論文賞を受賞した世界的なAIの教祖と言われ、合計700万ビュー以上を記録した「みんなのためのディープラーニング」講師としても広く知られている。また、アップステージの共同創業者には、Naver Visual AI / OCRをリードし、世界的な成果を出したイ・ヒョルソクCTOと世界最高の翻訳機パパゴのモデルチームをリードしたパク・ウンジョンCSOが参加している。

    アップステージのホームページへ

 
先の
先の

OCRモデル学習を誰でも簡単かつ強力に!- スタービュー Vol.5] アップステージラベリングスペースのチャンヒョン様 & イイン様 & ジュヒョン様

次に
次に

AIの裾野拡大に貢献する教育大国 - [Starview Vol. 4] コンテンツ&教育チーム