アップステージ、ハングルデータのための「1Tクラブ」発足で大韓民国LLM「独立宣言

LLM

2023/8/14
  • アップステージ、1兆トークンを集める「1Tクラブ」発足で高性能韓国語LLM開発のための生態系を構築

  • 世界最高の性能モデル構築能力に基づき、データ提供者にモデル提供と収益を共有するWin-Winモデルを提示

  • データセキュリティ、情報保護にも万全..."データ提供者の権益と国内企業のAI発展の恩恵を受ける"


 

(アップステージ=2023/8/14)世界最高のオープンLLMモデル構築でグローバルAI業界の注目を集めているアップステージが「大韓民国LLM独立宣言」に乗り出す。

アップステージ(代表キム・ソンフン)は、韓国語データ不足問題を解決し、高性能LLM(Large Language Model:巨大言語モデル)開発を通じた韓国LLMの独立のために「1Tクラブ」を発足することを14日明らかにした。1Tクラブ」は「1 Trillion Token Club」を短縮したもので、テキスト、書籍、記事、レポート、論文など様々な形態の1億語以上の韓国語データを貢献するパートナー企業で構成される。

アップステージは今月初め、自社開発したモデルが世界最大の機械学習プラットフォームであるハギングフェイスが運営する「オープンLLMリーダーボード」の評価スコアで72.3点を獲得し、チャットGPTの基盤であるGPT-3.5の性能を超えて1位を獲得し、注目を集めたことがあります。

HUGGINGFACEオープンLLMリーダーボードは、オープンソース生成AIモデルのバロメーターと言われている。全世界500以上のオープンモデルが推論と常識能力、言語理解総合能力及び幻覚現象(ハルシネーション)防止など4つの指標の平均点数で競争し、公信力のある順位が付けられる。現在、アップステージは73点を突破するモデルを配布し、世界1、2位のモデルを独占している。

1Tクラブ」は、韓国語データの不足問題の解決はもちろん、データ提供者とモデル製作企業が共存する生態系の確立を通じた国内LLMの独立に向けてアップステージの新たな挑戦である。アップステージは、1Tクラブを通じて韓国語データを確保・共有することで、韓国文化情緒を盛り込むことができる高品質のLLMを開発し、これを通じて国内生成AIの様々な分野のアプリケーションに活用し、人工知能の発展に貢献できると期待している。

アップステージは現在、20社以上の報道機関や企業、学界などのデータ提供者とパートナーシップのための緊密な協議を進めている。また、様々な業界リーディング企業とのプライベートLLM構築協議はもちろん、韓国LLMの発展に貢献する様々な分野のパートナー企業との協力を推進する計画だ。1Tクラブ」に関心のある機関は、アップステージ公式ホームページまたはリンク(www.upstage.ai/up-1-trillion-token-club)から申請書を提出することができる。

韓国語データは韓国のLLMの発展に不可欠な資源だが、現在かなり不足しており、著作権の問題にも直面している。外国語中心に学習されたビッグテックのLLMは、韓国語能力はもちろん、情緒や地域的な情報に弱く、国内企業が活用するプライベートLLMの発展の障害となっている。

例えば、最近オープンLLM市場の最高モデルと呼ばれるメタの「ラマ2」の場合、2兆個、グーグルの「ラムダ」は2兆8100億個分のトークンデータを学習に使用し、驚くべき性能を示した。しかし、韓国語のデータ学習量の場合、GPT-3基準で約1億個で割合は0.01697%、全言語のうち28位に過ぎない。しかし、英語は45兆個のトークンで学習、データ量に比例するLLMの言語別性能の格差を作る。

アップステージは「1Tクラブ」を通じて韓国のAI能力をさらに向上させ、グローバルAI産業で韓国がリーダーの地位を確立するために最善を尽くす計画だ。特に、クロールによるAI学習により著作権問題などの副作用が発生する問題の解決はもちろん、データ提供者とモデル製作者の両方が恩恵を受けられるように運営する計画だ。

アップステージは「1Tクラブ」に参加するパートナー企業にデータ提供量に比例してAPI使用料を割引し、LLMのAPI事業で創出される収益を共有するなど、二つの方法でメリットを提供する計画だ。

まず、前者であるAPI使用料割引の場合、パートナー企業は、貢献トークン数に比例してアップステージが独自に製作する最高性能のLLMのAPIを割引された価格で使用し、様々なアプリケーションに活用することができる。例えば、1億単語分のトークンを提供したパートナー企業は、1億トークン分のAPIを無償で使用することができる。

また、収益を共有する「Profit Share方式」は、アップステージがLLMのAPI事業で収益を創出する場合、その一部をパートナー企業と共有する方式で運営される。アップステージはこのため、LLM API事業収益の一部を財源として活用し、1Tクラブ収益共有に割り当てる予定で、各パートナー企業は自分が貢献したデータ量に比例して収益を受け取ることができる。

アップステージは提供されたデータのセキュリティと個人情報保護にも万全を期す方針だ。アップステージは、パートナー企業が提供するデータをモデルのハングルプリトレーニング(pre-training)学習用途にのみ使用し、一般的な知識と文章の要約、整理などの能力のみを持ち、原文抽出は不可能になるように運用する計画だ。また、他の用途に使用したり、外部に流出させないことはもちろん、独自の脱獄防止(Jailbreak Check)技術を通じて原文流出を根本的に遮断する計画だ。

アップステージのキム・ソンフン代表は、「LLMは今日の生成型人工知能の核心技術で、国内の様々な業界の企業も高性能のプライベートLLMを自由に活用できるように生態系を作ることが重要」とし、「私たちは「1Tクラブ」を通じてデータ提供者の権益を守り、これに基づいて韓国文化情緒を盛り込むことができるLLMを開発し、国内のすべての企業がAI発展の恩恵を受けられるように最善を尽くす」と述べた。

 
 
 

写真説明:世界最高のオープンLLMモデル構築でグローバルAI業界の注目を集めているアップステージが「大韓民国LLM独立宣言」に乗り出す。

 
 
  • アップステージ|キム・グンギョクPRディレクター| keunkyo@upstage.ai
    アップステージ|バ・ソンボムPRマネージャー| sungbae@upstage.ai

    プレスリリースのダウンロード

  • 2020年10月に設立したアップステージは、画像から目的の情報を抽出して利用できるOCR技術をはじめ、顧客情報と製品・サービスの特徴を考慮した推薦技術、意味ベースの検索を可能にする自然言語処理検索技術など、最新のAI技術を様々な業種にカスタマイズして簡単に適用できるノーコード・ロックコードソリューション「Upstage AI Pack」を発売し、顧客企業のAI革新を支援している。Upstage AI Packを利用すれば、データ加工、AIモデリング、指標管理を簡単に活用できるだけでなく、継続的なアップデートをサポートし、常時最新化されたAI技術を便利に使用することができる。また、AIビジネス経験を溶け込ませた実習中心の教育と堅実なAI基礎教育を通じて、AIビジネスに即座に投入できる差別化された専門人材を育成する教育コンテンツ事業にも積極的に取り組んでいる。

    アップステージはGoogle、Apple、Amazon、NVIDIA、Meta、Naverなどのグローバルビッグテック出身のメンバーを中心に、NeurPSをはじめ、ICLR、CVPR、ECCV、WWW、CHI、WSDMなど世界的権威のあるAI学会に多数の優秀論文を発表し、オンラインAI競進大会Kaggleで国内企業の中で唯一2桁の金メダルを獲得するなど、独自のAI技術リーダーシップを確立している。アップステージのキム・ソンフン代表は、香港科学技術大学教授として在職しながら、ソフトウェア工学と機械学習を融合したバグ予測、ソースコード自動生成などの研究で最高の論文賞であるACM Sigsoft Distinguished Paper Awardを4回受賞し、International Conference on Software Maintenanceで10年間最も影響力のある論文賞を受賞した世界的なAIの教祖と言われ、合計700万ビュー以上を記録した「みんなのためのディープラーニング」講師としても広く知られている。また、アップステージの共同創業者には、Naver Visual AI / OCRをリードし、世界的な成果を出したイ・ヒョルソクCTOと世界最高の翻訳機パパゴのモデルチームをリードしたパク・ウンジョンCSOが参加している。

 
先の
先の

アップステージ、韓国型Open LLMリーダーボードを構築するためNIAと提携

次に
次に

アップステージ、金融圏に特化した生成型AI活用ノウハウを公開する