라벨이 GPT-4인 게시물 표시

대규모언어모델(LLM) 활용 방식 및 주요 이슈 분석

LLM 활용 방식 및 주요 이슈 분석 IT & Future Strategy 제5호(2023. 8. 11.) 1. 인공지능 대형화 및 혁신 서비스 탄생 ☐ GPT‐3 이후 촉발된 인공지능의 대형화 경쟁 2012년을 기점으로 10년 동안 인공지능은 급격히 발전하며, 전 세계적으로 인공지능은 국가‧산업 경쟁력의 핵심으로 인식하고 있습니다. 2012년 시각 인공지능 분야 올림픽인 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 딥러닝의 가능성을 전 세계 인공지능 연구계에 전파하였습니다. 연구계에서 주목받던 인공지능(딥러닝) 기술이 이세돌과의 알파고 대국(2016년) 이후 국가‧산업 전반에서 중요성 인지하게 되었습니다. 이후 국가별 정책 지원, 기업들의 인공지능에 대한 투자가 경쟁적으로 진행되며, 인공지능의 성능이 지속적으로 향상되었습니다. 2020년 오픈AI는 GPT 시리즈의 세 번째 언어모델을 공개하였으며, 당해 최고 주목받는 연구성과로 전 세계인의 이목을 받았습니다. 오픈AI는 처음에는 인류를 위한 AI 개발을 목표로 하는 비영리단체로 GPT 언어모델 시리즈 등 창의적인 연구 성과물을 발표하였습니다. GPT‐3는 이전에 공개된 MS의 언어모델보다 사이즈가 10배 이상 큰 1,750억개의 매개변수를 가진 초거대 언어모델로, 글로벌 빅테크 기업은 앞다투어 초대규모 인공지능을 개발하기 시작하며 본격적인 대형화 경쟁을 촉발하였습니다. ☐ LLM은 범용 인공지능(AGI)의 가능성을 시사 GPT‐3 이전은 목표 과업별로 모델을 각각 개발했으나, GPT‐3 이후부터 범용성 높은 거대 모델 개발로 트렌드 전환되었습니다. 기존에는 목표 과업(번역, 요약, 질의응답)에 해당하는 모델을 구축하기 위해 대량의 데이터로 모델을 각각 개발하였습니다. 하지만 GPT‐3 등 LLM은 목표 과업을 위해 모델 미세조정 또는 퓨샷...

대규모 언어 모델(LLM : Large Language Models) 연구 동향

이미지
대규모 언어 모델에 대한 조사 A Survey of Large Language Models https://arxiv.org/abs/2303.18223 요약 1950년대에 튜링 테스트(Turing Test)가 제안된 이래로 인간은 기계가 언어 지능을 마스터하는 방법을 탐구해 왔습니다. 언어는 본질적으로 문법 규칙에 의해 지배되는 복잡하고 정교한 인간 표현 체계입니다. 이는 유능한 인공지능을 개발하는 데 언어를 이해하고 파악할 수 있는 유능한 인공 지능(AI) 알고리즘을 개발하는 것은 중요한 과제입니다. 언어 모델링은 지난 20년 동안 언어 이해와 생성을 위해 널리 연구되어 왔으며, 통계적 언어 모델(statistical language models)에서 신경망 언어 모델(neural language models)로 발전해 왔습니다. 최근에는 대규모 말뭉치(large-scale corpora)를 대상으로 Transformer 모델을 사전 학습시켜 다양한 자연어 처리(NLP) 작업을 해결하는 데 강력한 성능을 보이는 사전 학습 언어 모델(PLM: pre-trained language models)이 제안되고 있습니다. 연구진은 모델 스케일링이 모델 용량 향상으로 이어질 수 있다는 사실을 발견한 후, 파라미터 스케일을 더 큰 크기로 늘려 스케일링 효과를 추가로 조사했습니다. 흥미롭게도 매개변수 규모가 일정 수준을 초과하면 이렇게 확대된 언어 모델은 성능이 크게 향상될 뿐만 아니라 소규모 언어 모델(예: BERT)에는 없는 몇 가지 특별한 능력(예: 비문맥 학습 incontext learning)도 발휘합니다. 다양한 매개변수 규모에서 언어 모델을 구별하기 위해 연구 커뮤니티에서는 상당한 규모(예: 수백억 또는 수천억 개의 매개변수를 포함하는)의 PLM에 대해 대규모 언어 모델(LLM)이라는 용어를 만들어냈습니다. 최근 학계와 산업계에서 LLM에 대한 연구가 크게 진전되고 있으며, 괄목할 만한 진전으로 LLM을 기반으로 개발된 강력한 AI 챗봇인 ChatGPT가 ...