본문 바로가기

카테고리 없음

From RAG to AI Agent, 이론 적립(2)

From RAG to AI Agent, 이론 적립(2)


들어가기 전

이 글은 기본적으로 Google's Agent Whitepaper 를 기본으로 하고 있습니다


1. AI Agent 란?

 

에 대한 명확한 정의가 없는 것 같다.

그럼에도 정의를 내리자면, 대규모 언어 모델을 사용하여 사전에 주어진 목표를 달성하기 위한 계획 및 행동(Acting)을 통해 주어진 목표를 달성하는 AI 시스템이다.

Ron Miller, "What exactly is an AI agent?", TechCrunch.
출처 : MS


AI와 AI Agent를 비유한 좋은 표현이 있어서 가져왔다

 

- 기존 모델이 좋은 에스프레소 머신이라면, 에이전트 기반 AI는 바리스타다

- 바리스타는 커피를 만들 뿐만 아니라 손님을 맞이하고, 주문을 받고, 커피를 제공하고, 돈을 받고 컵도 씻는다


아래는 뉴욕주민님이 만든 투자 에이전트 "theTerminalX" 

 

https://theterminalx.com/

A Purpose-built for Finance Professionals Retrieve 🡒 Analyze 🡒 Answer For finance professionals, the ‘Answer’ alone is not what you want. Rather, you want the exhaustive list of right information that connects the dots. That helps you structure y

theterminalx.com

 


2. 핵심 구성 요소

에이전트의 작동 원리를 알기 전에, 핵심 구성요소를 알아보자

 

먼저, 이런 요소들의 집합"인지 아키텍쳐(cognitive architecture)"라고 부르고 있음

- 즉, AI 에이전트의 기본 프레임워크

 

참고로 AI Agent의 작동 방식을 설명할 때, 많은 다이어그램이 있지만 큰 맥락은 똑같음

괜히 헷갈리지 말자

출처 : 세계경제포럼

 


3. 오케스트레이션 레이어

  • 오케스트레이션이란 여러 개의 시스템, 서비스, 프로세스, 또는 작업(Task)을 자동으로 조율하고 관리하는 과정을 의미함
  • AI 에이전트에서 오케스트레이션정보 수집 → 내부 추론 → 추론을 바탕으로 다음 행동 또는 결정을 수행하는 과정을 반복하는 것을 뜻함
    이는 AI 에이전트의 핵심적인 동작 방식, 에이전트가 자율적으로 목표를 달성할 수 있도록 하는 중요한 층, 단(Layer)라고 할 수 있음

3.1 추론(Reasoning) 프레임워크

  • 참고로 프롬프트 기법, 추론 전략, 추론 패러다임 모두 동일한 표현임
  • 구글 에이전트 백서에서는 ReAct, CoT, ToT 3가지 기법을 소개하고 있음
  • AI 모델을 실제로 실행하는 구체적인 방식이라고 이해하면 쉬울듯 

 

그중 ReAct(Reasoning +  Acting) 단계를 간략하게 보여주고 있음

1. 질문(Qeustion)

  • 사용자 질문이 입력되며, 이 질문은 프롬프트와 함께 모델에 제공

2. 사고 과정(Thought)

  • 모델이 다음에 수행해야 할 작업에 대해 논리적으로 사고(Reasoning)

3. 행동(Action)

  • 모델이 다음에 취할 행동을 결정
  • 이 단계에서 Tool(도구)를 선택할 수 있음
  • 도구의 예시로는 Search(웹 검색 툴), Flights(항공편 정보 검색 툴), Code(코드 실행도구) 

4. 행동 입력(Action input)

  • 모델이 선택한 도구에 제공할 입력값 결정

5. 관찰(Observation)

  • 행동과 행동 입력이 실행된 결과 관찰
  • 필요에 따라 반복 

6. 최종 답변(Final Answer)

- 모델이 사용자 질문에 대한 최종 답변 제공

 


3.2 ToT (Tree-of-Thought), 생각의 나무

- 여러 개의 사고 경로(Thought Paths)를 생성하여 최적의 경로를 선택하는 방식

- 즉, 여러 가지 가능성 고려한 후, 최적의 답을 도출

출처 : promptingguide.ai

 


위 백서에 나온 예시를 활용해서 ToT 단계를 살펴보자

1. 질문(Quesiton) :  "내일 서울에서 뉴욕까지 가는 가장 저렴한 항공권 찾아줘"

 

2. 가능한 사고 경로(Tree of Thoughts)

  • Branch 1 (직항 검색) : "직항 항공권이 더 빠르지만 비쌀 가능성이 높다"
  • Branch 2 (경유 편 검색) : "경유 항공편이 더 저렴할 가능성이 있다"
  • Branch 3 (저비용 항공사 검색) : "LCC 항공편이 가장 저렴할 수 있지만 추가 요금이 있을 수 있다"

3. 각 경로 실행 및 툴 사용 

 

  • Branch 1 실행:
    • Flights API를 호출하여 직항 항공권 검색
    • 직항 항공권 최저가: 950달러 (대한항공)
  • Branch 2 실행:
    • Flights API를 호출하여 경유 항공권 검색
    • 경유 항공권 최저가: 780달러 (ANA, 도쿄 경유)
  • Branch 3 실행:
    • Airport Database API를 호출하여 LCC 항공사 확인
    • Flights API를 호출하여 LCC 항공권 검색
    • LCC 최저가: 700달러 (추가 요금 50달러)

4. 최적 경로 선택

  • LCC 항공편이 가장 저렴하지만 추가 요금이 존재한다
  • 경유 항공편이 700달러로  추가 요금 없이 가장 저렴하므로 선택

 

5. 최종 답변

  • "내일 서울에서 뉴욕으로 가는 최저가 항공권은 700달러이며, A 항공을 이용해 경유하는 항공편임"

3.3 다음은, CoT (Chain-of-Thought) 적용 예시

  • 논리를 단계별로 쪼개서 추론하는 방식

 

출처 : Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

 

1. 질문 (Question)

  • 사용자 입력: "내일 서울에서 뉴욕까지 가는 가장 저렴한 항공권을 찾아줘."

2. 논리적 사고 과정 (Chain of Thought Reasoning)

  • Step 1: "항공권 가격을 비교하려면 Flights API를 호출해야 한다."
  • Step 2: "API에 출발지(서울), 도착지(뉴욕), 날짜(내일) 값을 제공해야 한다."
  • Step 3: "검색된 항공권 리스트를 분석하여 최저가를 선택한다."
  • Step 4: "검색된 최저가 항공권의 항공사를 확인하고 추가 요금이 있는지 검토한다."

3.  API 호출 및 응답 처리

  • Flights API를 호출하여 항공권 가격 검색
  • Currency Exchange API를 호출하여 환율 변환

4. 최종 답변 (Final Answer)

  • "내일 서울에서 뉴욕까지 가는 최저가 항공권은 780달러이며, A 항공을 이용해 경유하는 항공편임"

3.4 결론

결론적으로, AI 에이전트는 주어진 목표를 달성하기 위해 해결 과정을 단계적으로 세분화해야 함

이를 위해, 각 단계를 어떻게 나눌 것인지 추론하는 전략(프레임워크)이 필요함.


4. Tool

  • 모델 자체만으로 수행할 수 없는 다양한 작업 수행을 위한 도구
  • 예를 들어 데이트 코스를 짜주는 에이전트에서는 오늘 날씨 데이터를 불러오기 위한 크롤링 툴이나 날씨 API

3가지 도구 유형

  1. 확장(Extension)
  2. 함수 (Function)
  3. 데이터 저장소(Data Store)

 

4.1 확장 (Extesnion) 

- 에이전트와 API 사이 인터페이스 역할

 

기존 방식의 문제점

  • AI가 사용자 입력 분석하고 직접 API 호출하려면 추가적인 커스텀 코드가 필요
  • API에 필요한 파라미터가 빠졌을 경우 요청 실패
  • 이런 예외 처리를 직접 구현하는 방식은 확장성 부족하고 유지보수 어려움 

출처 : Google's Agent Whitepaper

확장 기능을 활용한 해결 방법

  • API 사용법을 에이전트에게 예제를 통해 학습시킴
  • API 호출에 필요한 매개변수(arguments)를 정의하여 요청이 실패하지 않도록 보장

출처 : Google's Agent Whitepaper 하


4.2 함수 (Function) 

  • 함수(Functions)는 API 호출을 클라이언트 측에서 실행하도록 설계되어 있어, 확장(Extensions)과는 다르게 동작

 

AI 에이전트에서의 함수(Functions) 개념

에이전트에서 소프트웨어 개발자 대신 AI 모델이 함수 호출을 담당

  •  AI 모델이 사용 가능한 함수 목록을 인식
  • 모델이 적절한 함수와 필요한 인자를 결정하여 함수 호출
  • 실행 환경에 따라 적절한 함수를 선택하여 원하는 작업을 수행
  • 즉, AI 모델이 단순한 명령 실행을 넘어, 적절한 함수와 입력값을 동적으로 선택하여 실행할 수 있도록 하는 방식

 


4.3 결론: 함수와 확장의 역할 차이

함수(Functions)AI 모델이 적절한 함수를 선택하지만 실행은 클라이언트에서 수행
확장(Extensions)AI 에이전트가 API를 직접 호출하여 외부 시스템과 연결

 

왜 함수를 사용함?

  • 미들웨어 시스템, 프론트엔드 프레임워크 등에서 API 호출이 필요할 경우
  • 보안 및 인증 제한이 있는 경우
    • ex) 내부 네트워크에서만 접근 가능한 API
  • API 호출 타이미이나 실행 순서 제한이 있는 경우
    • 실시간 API 호출 불가능한 상황
    • ex) 인간 검토를 거쳐야 하는 경우
  • API 응답 데이터를 추가로 변환해야 하는 경우
  • AI 에이전트 개발할 때, API 배포 없이 개발 가능

5. 데이터 저장소(Data Store)

  • 는 이전 포스팅을 참고하면 됨
 

From RAG to AI Agent, 이론 적립(1)

From RAG to AI Agent, 이론 적립(1) 들어가기 전이런 뉴(?) 기술들을 공부할 땐, 역시 구글 검색이 더 좋은 것 같다.Perplexity 같은 엔진을 통해 공부하는 것도 좋지만,  글마다 다른 표현들, 조금씩 다

junnyhi.tistory.com

 

 


참고

 

 

 

What are compound AI systems and AI agents? - Azure Databricks

Mosaic AI Agent Framework helps developers solve the unique challenges of developing AI applications. Learn about AI agents and compound AI systems.

learn.microsoft.com

 

 

What exactly is an AI agent? | TechCrunch

Regardless of how they're defined, the agents are for helping complete tasks in an automated way with as little human interaction as possible.

techcrunch.com

 

 

AI agents can empower human potential while mitigating risks

AI agents will transform industries and tackle societal challenges, and collaboration will be key to leveraging their opportunities and mitigating risks.

www.weforum.org

 

 

What Are AI Agents? Your Step-by-Step Guide to Build Your Own.

The next big thing? Gartner believes AI agents are the future. OpenAI, Nvidia and Microsoft are betting on it — as are companies such as…

medium.com

 

 

Tree of Thoughts (ToT) – Nextra

A Comprehensive Overview of Prompt Engineering

www.promptingguide.ai

 

 

What Are AI Agents? A Complete Guide

An artificial intelligence agent is an intelligent system that can understand and respond to customer inquiries without human intervention. Learn more.

www.salesforce.com

 

 

AI 에이전트란 무엇인가요? - 인공 지능의 에이전트 설명 - AWS

인공 지능 에이전트는 환경과 상호 작용하고, 데이터를 수집하고, 데이터를 사용하여 사전 결정된 목표를 달성하기 위해 필요한 작업을 스스로 결정해서 수행할 수 있는 소프트웨어 프로그램입

aws.amazon.com

 

Introduction to AI Agents

Architecture, Tools, and Implementation

medium.com