이번 글에서는 딥러닝이 실제로 어떤 방식으로 작동하는지,
그리고 왜 AI 전용 하드웨어인 NPU가 필요하게 되었는지까지를
하나의 흐름으로 이해하고 싶은 분들을 위한 정리글입니다.

https://jdcyber.tistory.com/93

 

NPU를 위한 AI 기초 (1-1): 인공지능<Ai>, 머신러닝<ML>, 딥러닝<DL>의 관계 완전 정복

NPU 정복을 위한 로드맵 이후 두번째 글입니다.https://jdcyber.tistory.com/92 NPU에 흥미를 느낀 30대 비전공자의 공부 로드맵“NPU(Neural Processing Unit)를 공부하고 이해하고자 비전공자의 NPU 무작정 파헤

jdcyber.tistory.com

https://jdcyber.tistory.com/97

 

뉴럴 네트워크란 무엇인가? (NPU 개념 공부)

뉴럴 네트워크란 무엇인가?뉴럴 네트워크(Neural Network)는 인간의 뇌 구조에서 아이디어를 얻은 인공지능 모델입니다.쉽게 말해,인간의 뇌가 수많은 뉴런(신경 세포)들이 서로 연결되어 정보를 처

jdcyber.tistory.com

이제는 뉴럴 네트워크가 실제로 어떤 방식으로 입력 데이터를 받아 예측을 하고,

학습하며 스스로 개선되는지를 자세히 알아보고,

마지막으로 왜 이 모든 과정이 엄청난 연산량을 유발하는지,

그리고 연산을 어떻게 처리해야 하는지(NPU)까지 짚어보겠습니다.


순전파(Forward Propagation): 예측의 시작

순전파란?

입력값이 뉴럴 네트워크를 ‘앞으로’ 통과하며 출력값을 생성하는 과정입니다.
예를 들어, 이미지 데이터를 입력하면
→ 신경망이 여러 층을 거치며
→ “이건 고양이다”와 같은 예측을 만들어냅니다.

 

구체적인 계산 흐름

뉴런에서 이루어지는 계산은 다음과 같습니다:

출력값 = (입력값 × 가중치) + 편향 → 활성화 함수 통과

예시:

  • 입력값: [0.6, 0.2, 0.9]
  • 가중치: [0.8, 0.1, 0.3]
  • 편향: 0.2

이 값은 활성화 함수를 거쳐 다음 층으로 전달됩니다.

  • ReLU: 음수면 0, 양수면 그대로
  • Sigmoid: 값을 0~1 사이로 압축 (확률로 해석 가능)

👉 활성화 함수가 궁금하다면?

https://jdcyber.tistory.com/98

 

NPU를 위한 AI 기초 딥러닝의 핵심, 활성화 함수 완전 정복 (ReLU, Sigmoid, Tanh 차이와 선택 기준)

딥러닝을 공부하다 보면 반드시 마주치는 개념 중 하나가 바로 "활성화 함수(Activation Function)"입니다.입력값에 가중치를 곱하고, 편향을 더한 후, 그냥 바로 다음 층으로 전달하면 되는 것 아닌가

jdcyber.tistory.com


2. 데이터를 층을 따라 전달하며특징 학습한다

딥러닝 신경망은 다음처럼 구성됩니다:

입력층 → 은닉층1 → 은닉층2 → ... → 출력층
  • 첫 층: 선, 모서리 등 단순 특징 인식
  • 중간 층: 윤곽, 형태 등 중간 패턴 추출
  • 마지막 : ‘고양이냐 강아지냐같은 복잡한 판단

역전파(Backpropagation): 틀린 바로잡는 방식

손실 함수(Loss Function)

먼저 정답과 예측값의 차이를 수치로 계산해야 하겠죠?
이 차이를 계산하는 게 바로 손실 함수입니다.

  • 예시: 정답이 1, 예측이 0.7 → 손실은 0.3
  • 대표 손실 함수:

👉 손실 함수에 대해 알고 싶다면?

https://jdcyber.tistory.com/99

 

딥러닝 손실 함수 (MSE와 Cross-Entropy) 차이

딥러닝 모델은 데이터를 입력받아 어떤 결과를 예측합니다.그런데 이 예측이 정답과 얼마나 차이 나는지는 어떻게 판단할까요?바로 손실 함수(Loss Function)가 그 역할을 합니다.손실 함수는 모델

jdcyber.tistory.com


 

기울기(Gradient) 계산

오차를 줄이기 위해 가중치를 얼마나 바꿔야 할지 계산합니다.
이때 쓰이는 개념이 기울기(Gradient)입니다.
딥러닝 프레임워크는 자동 미분(Autograd)으로 계산을 자동 처리합니다.

  • 기울기는 쉽게 말해 오차를 줄이기 위해 가중치를 얼마나 바꿔야 하는지 알려주는 방향과 크기입니다.
  • 이 과정을 '미분'을 통해 수행하는데, 자동 미분(Autograd) 같은 기술로 프레임워크가 자동 계산합니다.

경사 하강법(Gradient Descent): 조금씩 내려가기

가중치를 한 번에 바꾸는 게 아니라,
조금씩 조금씩 오차가 줄어드는 방향으로 조정합니다.
이게 바로 경사 하강법입니다.

  • 학습률(Learning Rate): 얼마나 바꿀지 결정하는 조정값
  • ‘경사’를 따라 아래로 내려간다 = 오차가 점점 줄어드는 방향
 

4. 순전파 + 역전파 = 딥러닝의 핵심 루프

  1. 데이터를 넣는다순전파
  2. 결과가 틀리다손실 계산
  3. 어떻게 고칠까? → 역전파 + 기울기 계산
  4. 가중치 조정학습
  5. 다시 순전파... 반복!

이 과정을 수백 번, 수천 번 반복하면서 모델은 점점 더 정확해지는 것입니다.


5. 왜 이 모든 연산이 NPU와 연결되는가?

연산량이 엄청나다

  • 수천~수만 개 뉴런 × 레이어 × 반복 연산
  • 활성화 함수, 기울기, 가중치 업데이트 수백만 번
    → 수억 번의 계산이 순식간에 일어납니다.

CPU만으로는 부족하다

장치 특징
CPU 범용 연산, 순차 처리 중심
GPU 병렬 연산 가능, 딥러닝 속도 향상
NPU AI 전용 설계, 딥러닝 연산에 특화됨

NPU 딥러닝 연산에 필요한 구조만 남기고 최적화되어 있어서
→ 
전력 효율도 좋고 속도도 훨씬 빠릅니다.


 

6. 핵심 요약 정리표

항목 의미
순전파 입력값으로 예측값을 생성하는 과정
역전파 오차를 계산해 가중치를 조정하는 과정
손실 함수 예측값과 실제값의 차이를 수치화
기울기/경사 하강법 오차를 줄이기 위한 조정 방향과 크기 계산
연산량 증가 수억 번의 연산이 반복적으로 발생
NPU 필요성 이런 계산을 빠르게 처리하기 위해 등장한 AI 전용

마무리하며

지금까지 딥러닝의 기본 작동 원리부터
‘왜 NPU가 필요한지’까지 한 흐름으로 정리해봤습니다.

글이 딥러닝 학습 흐름을 이해하는 도움이 되었다면,
이후에는 실제로 NPU 어떻게 생겼고 어떤 구조로 돌아가는지 배워보도록 합시다.


궁금하신 사항은 댓글에 남겨주세요

댓글에 남겨주신 내용

추후 정리해서 올려드리겠습니다

구독하시면 업로드 시 알려드릴게요!

-

조금이라도 도움이 되셨다면

공감&댓글 부탁드리겠습니다

감사합니다!

 

“NPU(Neural Processing Unit)를 공부하고 이해하고자 비전공자의 NPU 무작정 파헤치기 3개월 로드맵에 따라 기초부터 FuriosaAI 실습까지 체계적으로 공부하고, 블로그에 정리하며 시행착를 기록해보겠습니다!”

 

인공지능이 Ai가 난리인 이 시점에 모델 개발보다 이에 산출된 데이터를 어떻게 잘 활용할 수 있는지가 중요하다고 생각했고, 빅데이터 분석 및 온톨로지 방법에 대하여 흥미가 생겼습니다.

또한 이러한 데이터 정제 과정도 결국 인공지능이 사람보다 잘 할 수 있다고 생각이 들었고, 이를 처리하는 NPU가 너무 흥미롭게 다가왔습니다.

아래 로드맵은 인공지능을 이용하여 만들었으며 NPU시장에서 매력적인 퓨리오사Ai라는 매력적인 회사를 알게되어 예시나 실습은 퓨리오사Ai의 NPU 제품으로 최대한 해달라는 프롬프트를 넣어서 작성했습니다.

아직 아무것도 알아보지 않았지만, NPU의 기술력을 공공연하게 적어놓지 않았을 것으로 예상되고 인공지능은 어떻게든 대답을 해내기 때문에 만들어서라도 저에게 교육을 해줄 것으로 보여집니다.

이 또한 잘못된 지식이라도 재미있게 공부해보고 추후 전문가에게 컨펌을 받아 바로잡아 복습해보는 즐거움도 있을 것 같습니다.

그럼 지금부터 해당 로드맵을 따라가면서 웹사이트 및 시중에 나와있는 자료로 무작정 공부를 시작해보겠습니다.


1. 로드맵 개요

  • 학습 기간: 총 12주 (3개월)
  • 목표
    1. NPU의 개념 및 필요성 이해
    2. CPU, GPU와 비교하여 NPU가 제공하는 장점 및 아키텍처적 차이 학습
    3. 간단한 딥러닝 모델을 예시로 NPU 가속 경험하기
    4. FuriosaAI NPU를 활용한 간단한 실습 진행
    5. 블로그를 통해 학습 과정 및 예제 공유

아래는 12주 동안 어떤 식으로 공부를 진행하면 좋을지, 각 주차별로 나눈 로드맵입니다.


2. 단계별 로드맵

Week 1~2: 기초 다지기 (NPU의 배경 지식)

  1. AI/딥러닝 기초 개념 학습
    • 뉴럴 네트워크가 무엇이며 왜 빠른 연산이 필요한지 이해
    • 머신러닝과 딥러닝의 차이, 신경망(Neural Network) 기본 동작 원리
    • CPU, GPU의 역할 비교
  2. 하드웨어 가속의 필요성
    • 빅데이터 시대에서 늘어나는 연산량 이해
    • GPU가 딥러닝 가속에 도움을 주는 방식 (SIMD, 병렬 연산)
    • NPU가 등장하게 된 배경(전력 효율, 높은 병렬 처리 효율 등)

Week 3~4: NPU 기본 구조 이해

  1. NPU란 무엇인가
    • 일반적인 NPU 아키텍처 소개
    • 메모리 구조(온칩 메모리, 캐시, DMA 등)와 연산 방식
    • NPU가 네트워크 연산(Conv, Pooling, Fully Connected)을 처리하는 큰 흐름
  2. CPU, GPU, NPU 비교
    • 하드웨어적 특징(코어 구조, 메모리 대역폭, 병렬 연산 처리 방식)
    • 장단점 비교(에너지 효율, 연산속도, 개발 난이도 등)
  3. 예시: FuriosaAI NPU 간단 소개
    • FuriosaAI가 제공하는 NPU(Warboy, Burr 등)의 주요 특징
    • 대략적인 성능 지표(OPS, 전력 소모 등)

Week 5~6: 딥러닝 모델 & NPU 활용 흐름 알기

  1. 딥러닝 모델의 NPU 탑재 과정
    • 모델 학습(주로 GPU/CPU) → 모델 압축/최적화 → NPU에 올려서 추론
    • 모델 최적화 기법(양자화, 프루닝, Fuse 연산 등) 개념 간단 이해
  2. 온디바이스 AI와 에지 컴퓨팅 개념
    • 클라우드 추론과 엣지 추론의 차이
    • 전력, Latency, 보안 측면에서 NPU의 이점
  3. FuriosaAI SDK 또는 관련 툴 살펴보기
    • FuriosaAI가 공개한 SDK / 개발자 문서가 있다면, 설치 방법, 예제 코드
    • 파이썬 기반으로 작성된 예제가 있으면 따라 해보기

Week 7~8: FuriosaAI NPU 실습 준비

  1. 개발 환경 세팅
    • FuriosaAI NPU 사용을 위한 개발 환경(드라이버, SDK 설치 등)
    • TensorFlow, PyTorch 등 주요 프레임워크에서 NPU 지원 여부 확인
    • FuriosaAI가 지원하는 ONNX 모델 변환 프로세스 등
  2. 간단 예제 모델 변환
    • MNIST, CIFAR-10, 혹은 간단한 Image Classification 모델(ResNet-18 등)을 ONNX로 변환
    • FuriosaAI에서 제공하는 변환 툴(예: furiosa-compiler 등)이 있다면 사용해보기
    • 변환 시 주의 사항(양자화, 연산 호환성 등)
  3. 테스트 & 벤치마크
    • 로컬 환경에서 추론 속도, 정확도 측정 방법
    • GPU vs NPU 처리 속도 비교(가능하다면)

Week 9~10: FuriosaAI NPU 심화 실습

  1. 실습 모델 변경
    • 좀 더 복잡한 네트워크(예: MobileNet, YOLO 등)
    • 실제 예제 데이터셋(작은 규모)으로 추론 실험
  2. 최적화 시도
    • 양자화(Quantization)나 기타 최적화 기법을 적용해보기
    • FuriosaAI NPU에서 지원하는 최적화 옵션 살펴보기
  3. 성능 분석
    • Latency, Throughput, Power Consumption(가능하다면) 등 다양한 지표 측정
    • 측정 결과를 블로그에 표나 그래프로 정리해볼 것

Week 11~12: 정리 및 확장

  1. 학습 내용 정리 & 블로그 연재 마무리
    • 지금까지 배운 내용 정리(아키텍처, 개발 환경, 최적화, 실습 결과)
    • 에러나 시행착오 사례, 해결 방법 아카이빙
  2. 응용 분야 & 추가 학습 방향
    • NPU가 적용될 수 있는 다양한 산업(자율주행, 로보틱스, IoT 등)
    • AI 액셀러레이터 시장 동향(CPU, GPU, FPGA, ASIC 등)
    • FuriosaAI NPU의 미래 로드맵(가능하다면 공식 자료 참조)
  3. 향후 스터디 or 프로젝트 아이디어
    • 에지 디바이스에서 실시간 추론(카메라 영상 인퍼런스) 프로젝트
    • 모델 경량화 기술 연구(QAT, Pruning 등)
    • 다른 NPU(Acorn, Habana, EdgeTPU 등)와 성능 비교해보기

3. 블로그 작성 팁

  1. 정의 및 배경 지식 강조
    • 처음 듣는 용어가 많으므로, 용어 설명과 함께 블로그 글을 쓰면 독자 이해도가 높아집니다.
    • 글 서두에 핵심 개념(예: 양자화, 가속기, ONNX 등)을 간단히 요약해두면 좋습니다.
  2. 이미지/도식 활용
    • NPU 구조나 데이터 흐름을 시각적으로 표현하면 이해가 쉬워집니다.
    • 그림이나 다이어그램을 간단히 첨부해 설명해 보세요.
  3. 실습 위주 접근
    • FuriosaAI NPU로 모델 추론하는 과정(스크린샷, 코드 snippet 등)을 자세히 올리면 독자가 따라하기 쉽습니다.
  4. 시행착오와 해결책 기록
    • 설치 과정이나 모델 변환 과정에서 발생한 에러는 어떻게 해결했는지 꼼꼼히 기록하세요.
    • 초보자들이 같은 에러를 만났을 때 큰 도움이 됩니다.

4. 마무리

위 로드맵은 전공 지식이 전혀 없는 초보자에게도 NPU 개념부터 FuriosaAI 실습까지 차근차근 학습해나갈 수 있도록 구성한 예시입니다. 실제로 공부하다 보면 본인의 이해도나 시간 여건에 따라 각 단계에 더 오랜 시간을 할애하거나, 과감히 생략할 부분이 생길 수도 있습니다. 중요한 것은 **“왜 NPU가 필요한지, 그리고 실제로 어떻게 사용할 수 있는지”**에 대한 큰 그림을 그리는 것입니다.

3개월 정도 꾸준히 진행하면서 블로그에 정리한다면, “처음 AI 하드웨어 가속 개념을 접했을 때의 막막함”을 느낄 다른 사람들에게도 큰 도움이 될 것입니다. 부담 가지지 말고, 한 번에 모든 걸 마스터하려 하기보다 “기본 개념 → 작은 예제 실습 → 조금 더 심화된 실습”으로 확장해 가며 기록해보세요.


자 그럼 지금부터 비전공자 30대의 NPU 여행 시작하겠습니다.

 

다음글

https://jdcyber.tistory.com/93

 

NPU를 위한 AI 기초 (1-1): 인공지능<Ai>, 머신러닝<ML>, 딥러닝<DL>의 관계 완전 정복

NPU 정복을 위한 로드맵 이후 두번째 글입니다.https://jdcyber.tistory.com/92 NPU에 흥미를 느낀 30대 비전공자의 공부 로드맵“NPU(Neural Processing Unit)를 공부하고 이해하고자 비전공자의 NPU 무작정 파헤

jdcyber.tistory.com


궁금하신 사항은 댓글에 남겨주세요

댓글에 남겨주신 내용

추후 정리해서 올려드리겠습니다

구독하시면 업로드 시 알려드릴게요!

-

조금이라도 도움이 되셨다면

공감&댓글 부탁드리겠습니다

감사합니다!

 

+ Recent posts