アップステージ、世界最高権威の学会「EMNLP 2023」で論文2編採択

LLM

2023/10/23
  • アップステージ自然言語処理最高権威学会EMNLP 2023で論文2編採択

  • 昨年6月、ICML 2023-DMLR 韓国企業最多7編採択に続き、世界最高レベルの学会で相次ぐ快挙を達成

  • 設立3年で国内外の人工知能分野論文100編発表及びNLPトップ7カンファレンス論文採択の成果


 

(アップステージ=2023/10/23) AIスタートアップのアップステージが自然言語処理分野で世界最高レベルの研究成果を達成した。

アップステージ(代表ソン・ソンフン)は、自然言語処理分野で最も権威ある学会であるEMNLP 2023で論文2編を発表し、グローバルトップAI技術力を再確認したと明らかにした。

EMNLP 2023はEmpirical Methods in Natural Language Processingの略で、AI翻訳やチャットボット、機械読解など言語データベースの自然言語処理アプローチに関する研究を扱う世界最高レベルの学会です。

昨年のEMNLP 2022は合計3,242編の論文が提出され、このうち715編だけが通過し、22%の採択率を記録した。EMNLP 2023は12月6日から12月10日までシンガポールで開催され、GOOGLE、APPLE、AMAZON、BAIDUなど世界有数のAI企業が参加する。

今回採択された2編の論文は、韓国語関連のNLP研究成果で、アップステージのパク・チャンジュンテクリード主導で高麗大学イム・ヒシク教授の研究チームと協業して行われました。

最初の論文「KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing」は、韓国語音声認識後処理機に関する新しいベンチマークデータセットを構築した論文で、音声認識モデルの弱点を評価し、識別するための新しい評価方法論を提案しています。

この論文は、音声およびテキストレベルの二つの側面を考慮し、音声認識モデルの弱点に対する正確な情報を提供できない従来の評価方法の問題点を指摘し、音声およびテキストレベルのエラーを統合的に考慮し、モデルの説明可能性を向上させた研究である。

背景騒音及び発話者の特性を考慮した37個の音声レベルタイプ及び13個のテキストレベルエラータイプを細分化し、提案した評価方法をGoogleクラウド音声認識及びCLOVAなどの商用化された音声認識システムに適用して分析した。

2番目の論文「CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients」は、韓国語の特性を生かした新しいデータ増強技法を提案した論文である。

韓国語は英語と異なり、形態素という小さな単位で構成されており、形態素の組み合わせによって文の意味が変わる。例えば、「ご飯」と「食べる」という形態素を組み合わせると「ご飯を食べる」、「ご飯を食べた」、「ご飯を食べたい」など様々な文章を作ることができるが、特徴を考慮せずに任意にデータを増強すると、文章の意味が変わったり、自然でない文章が生成される盲点がある。

論文は、韓国語の特性に基づいた新しいデータ増強方法論CHEFを通じて、同じ材料でも韓国語の特徴を反映し、自然な文章を生成し、生成型言語モデルが韓国語の形態素の組み合わせを多様に変形してデータを増強する方法論を提案する。

今回のアップステージのEMNLP 2023での成果は、グローバル学会での連続発表だ。アップステージは昨年6月、Data-Centric AI分野で最も権威あるワークショップであるICML 2023-DMLRで論文7編を発表し、国内企業最多の研究成果を達成したことがある。

また、アップステージは創立3年で国内外のAI論文100編発表及びGoogle Scholarランキング基準NLP分野カンファレンスTop7で論文採択を達成する快挙を成し遂げました。

グーグルスカラーランキングは、学術情報専門検索サービスであるグーグルスカラーが論文の引用回数によって評価、学会の影響力を測定する権威ある指標である。NLP分野のトップ7カンファレンスにはACL、EMNLP、NAACL、TACL、COLING、LREC、WMTが挙げられ、二重ジャーナルに区分されるTACLを除くすべてのカンファレンスでアップステージが論文の成果をあげたことになる。

アップステージのキム・ソンフン代表は、「今回のEMNLP 2023をはじめ、様々なグローバル学会で研究成果を出すことができ、とても嬉しい」とし、「アップステージは、持続的なR&D投資を通じた研究成果を基に、誰もが最高性能のAIをより便利に利用できるように最善を尽くす」と述べた。

 
 
 

写真説明:アップステージが自然言語処理分野で最も権威ある学会であるEMNLP 2023で2つの論文を発表し、グローバルトップの技術力を再確認した。写真はEMNLP 2023で採択されたアップステージの「KEBAP」論文。

 
 
  • キム・グンギョク|ブランドコミュニケーション総括理事| keunkyo@upstage.ai
    バ・ソンボム|ブランドコミュニケーション・マネージャー| sungbae@upstage.ai

    プレスリリースのダウンロード

  • アップステージは2020年10月に設立された韓国を代表するAIスタートアップだ。UpstageはHuggingfaceリーダーボードでオープンLLM史上初めてチャットGPTのベンチマークスコアを上回る性能で1位を獲得し、巨大言語モデル(LLM)業界で頭角を現している。このような技術力を基に、データセキュリティを最大化し、ハラスメントを解決した信頼できるプライベートLLMの標準を提示し、最先端の技術を企業が便利に使用できるように支援する。 また、アップステージのChat AI「AskUp」は140万人以上のユーザーを保有し、国内最大のAIサービスとして位置づけられている。もう一つのアップステージの代表ソリューションであるDocument AI Packは、世界最高権威のOCR大会を席巻したAI OCR技術を活用し、効率性と精度を高めて文書自動化を実現する。最小限のデータで事前学習されたモデルを通じて文書処理を最適化することで、手作業方式に比べてコストと時間を劇的に最小化する。最後に、教育プログラム「エデュステージ」を通じてAIビジネス経験を溶け込ませた実習中心の教育と確かなAI基礎教育を通じて、AIビジネスに即座に投入できる差別化された専門人材を育成する教育コンテンツ事業にも積極的に取り組んでいる。

    アップステージはGoogle、Apple、Amazon、NVIDIA、Meta、Naverなどのグローバルビッグテック出身のメンバーを中心に、NeurPSをはじめ、ICLR、CVPR、ECCV、WWW、CHI、WSDM、DMLRなど世界的権威のあるAI学会に多数の優秀論文を発表し、オンラインAI競進大会Kaggle(Kaggle)で国内企業で唯一二桁の金メダルを獲得するなど、独歩的なAI技術リーダーシップを確立している。アップステージのキム・ソンフン代表は、香港科学技術大学教授として在職しながら、ソフトウェア工学と機械学習を融合したバグ予測、ソースコード自動生成などの研究で最高の論文賞であるACM Sigsoft Distinguished Paper Awardを4回受賞し、International Conference on Software Maintenanceで10年間最も影響力のある論文賞を受賞した世界的なAIの教祖と言われ、合計700万ビュー以上を記録した「みんなのためのディープラーニング」講師としても広く知られている。また、アップステージの共同創業者には、Naver Visual AI / OCRをリードし、世界的な成果を出したイ・ヒョルソクCTOと世界最高の翻訳機パパゴのモデルチームをリードしたパク・ウンジョンCSOが参加している。

 
先の
先の

アップステージのAIOCRソリューション「Document AI」、保険業界の文書自動化実現を評価

次に
次に

アップステージ-NIA'Open Ko-LLMリーダーボード'、2週間で100モデル突破