신경망: 알아야 할 모든 것
게시 됨: 2024-06-26이 기사에서는 신경망의 세계를 탐구하고 신경망의 내부 작동 방식, 유형, 응용 프로그램 및 직면한 과제를 탐구합니다.
목차
- 신경망이란 무엇입니까?
- 신경망의 구조
- 신경망 작동 방식
- 신경망이 답변을 생성하는 방법
- 신경망의 유형
- 응용
- 도전과제
- 신경망의 미래
- 결론
신경망이란 무엇입니까?
신경망은 인간의 두뇌를 시뮬레이션하는 더 넓은 기계 학습(ML) 분야의 딥 러닝 모델 유형입니다. 입력, 숨김, 출력 레이어로 배열된 상호 연결된 노드 또는 뉴런을 통해 데이터를 처리합니다. 각 노드는 간단한 계산을 수행하여 모델이 패턴을 인식하고 예측하는 능력에 기여합니다.
딥 러닝 신경망은 이미지 및 음성 인식과 같은 복잡한 작업을 처리하는 데 특히 효과적이며 많은 AI 애플리케이션의 중요한 구성 요소를 형성합니다. 최근 신경망 아키텍처와 훈련 기술의 발전으로 AI 시스템의 기능이 크게 향상되었습니다.
신경망의 구조
이름에서 알 수 있듯이 신경망 모델은 뇌의 구성 요소인 뉴런에서 영감을 얻습니다. 성인 인간은 약 850억 개의 뉴런을 갖고 있으며, 각 뉴런은 약 1,000개의 다른 뉴런과 연결되어 있습니다. 하나의 뇌 세포는 신경 전달 물질이라는 화학 물질을 보내 다른 세포와 대화합니다. 수용 세포가 이러한 화학 물질을 충분히 섭취하면 흥분하여 자신의 화학 물질을 다른 세포로 보냅니다.
인공 신경망(ANN)이라고도 불리는 기본 단위는노드(node)로, 이는 셀이 아닌 수학 함수입니다. 뉴런과 마찬가지로, 충분한 입력을 받으면 다른 노드와 통신합니다.
유사점이 끝나는 곳이 바로 여기입니다. 신경망은 입력, 은닉, 출력이라는 계층이 깔끔하게 정의되어 있어 뇌보다 훨씬 단순하게 구성되어 있습니다. 이러한 레이어의 모음을모델이라고 합니다.그들은 원하는 결과와 가장 유사한 출력을 인위적으로 생성하려고 반복적으로 시도함으로써 학습하거나훈련합니다. (자세한 내용은 잠시 후에 설명하겠습니다.)
입력 및 출력 레이어는 설명이 필요하지 않습니다. 신경망이 수행하는 대부분의 작업은 숨겨진 레이어에서 발생합니다. 노드가 이전 레이어의 입력에 의해 활성화되면 계산을 수행하고 출력을 다음 레이어의 노드에 전달할지 여부를 결정합니다. 이러한 레이어의 이름은 해당 작업이 최종 사용자에게 보이지 않기 때문에 그렇게 명명되었습니다. 그러나 엔지니어가 소위 숨겨진 레이어에서 무슨 일이 일어나고 있는지 볼 수 있는 기술이 있습니다.
신경망에 여러 개의 숨겨진 레이어가 포함되어 있는 경우 이를 딥러닝 네트워크라고 합니다. 현대의 심층 신경망에는 일반적으로 고유한 기능을 수행하는 특수 하위 계층을 포함하여 많은 계층이 있습니다. 예를 들어, 일부 하위 계층은 분석 중인 즉각적인 입력을 넘어 상황별 정보를 고려하는 네트워크의 능력을 향상시킵니다.
신경망 작동 방식
아기들이 어떻게 배우는지 생각해 보세요. 그들은 무언가를 시도하고, 실패하고, 다른 방식으로 다시 시도합니다. 루프는 동작이 완벽해질 때까지 계속해서 계속됩니다. 신경망이 학습하는 방식도 이와 비슷합니다.
훈련 초기에 신경망은 무작위로 추측합니다. 입력 레이어의 노드는 첫 번째 숨겨진 레이어의 노드 중 활성화할 노드를 무작위로 결정한 다음 해당 노드는 무작위로 다음 레이어의 노드를 활성화하는 식으로 이 무작위 프로세스가 출력 레이어에 도달할 때까지 계속됩니다. (GPT-4와 같은 대규모 언어 모델에는 약 100개의 레이어가 있으며 각 레이어에는 수만 또는 수십만 개의 노드가 있습니다.)
모든 임의성을 고려하여 모델은 출력(아마도 끔찍할 것임)을 비교하고 그것이 얼마나 잘못되었는지 파악합니다. 그런 다음 각 노드와 다른 노드의 연결을 조정하여 주어진 입력에 따라 활성화되는 경향을 어느 정도 변경합니다. 출력이 원하는 답변에 가까워질 때까지 이 작업을 반복적으로 수행합니다.
그렇다면 신경망은 자신이 무엇을 해야 하는지 어떻게 알 수 있을까요? 머신러닝은 지도 학습과 비지도 학습을 포함한 다양한 접근 방식으로 나눌 수 있습니다. 지도 학습에서 모델은 설명 텍스트와 쌍을 이루는 이미지와 같은 명시적인 레이블이나 답변이 포함된 데이터에 대해 훈련됩니다. 그러나 비지도 학습에는 모델에 레이블이 지정되지 않은 데이터를 제공하여 패턴과 관계를 독립적으로 식별할 수 있는 방법이 포함됩니다.
이 훈련에 대한 일반적인 보충은 피드백에 따라 모델이 개선되는 강화 학습입니다. 이는 인간 평가자가 제공하는 경우가 많습니다(컴퓨터의 제안에 대해 좋아요 또는 싫어요를 클릭한 적이 있다면 강화 학습에 기여한 것입니다). 하지만 모델이 독립적으로 반복적으로 학습할 수 있는 방법도 있습니다.
신경망의 출력을 예측으로 생각하는 것은 정확하고 유익합니다. 신용도를 평가하든 노래를 생성하든 AI 모델은 가장 옳은 것이 무엇인지 추측하여 작동합니다. ChatGPT와 같은 생성적 AI는 예측을 한 단계 더 발전시킵니다. 순차적으로 작동하여 방금 만든 출력 뒤에 무엇이 나올지 추측합니다. (나중에 이것이 왜 문제가 될 수 있는지 알아보겠습니다.)
신경망이 답변을 생성하는 방법
네트워크가 훈련되면 올바른 응답을 예측하기 위해 보는 정보를 어떻게 처리합니까? ChatGPT 인터페이스에 "요정에 대한 이야기를 들려주세요"와 같은 프롬프트를 입력하면 ChatGPT는 응답 방법을 어떻게 결정합니까?
첫 번째 단계는 신경망의 입력 레이어가 프롬프트를토큰이라고 알려진 작은 정보 덩어리로 나누는 것입니다. 이미지 인식 네트워크의 경우 토큰은 픽셀일 수 있습니다. ChatGPT와 같이 자연어 처리(NLP)를 사용하는 네트워크의 경우 토큰은 일반적으로 단어, 단어의 일부 또는 매우 짧은 문구입니다.
네트워크가 입력에 토큰을 등록하면 해당 정보는 이전에 훈련된 숨겨진 레이어를 통해 전달됩니다. 한 레이어에서 다음 레이어로 전달되는 노드는 입력의 더 큰 섹션을 분석합니다. 이런 방식으로 NLP 네트워크는 결국 단어나 문자뿐만 아니라 전체 문장이나 단락을 해석할 수 있습니다.
이제 네트워크는 훈련된 모든 내용을 기반으로 다음에 무엇이 나올지에 대한 일련의 단어별 예측으로 응답을 만들기 시작할 수 있습니다.
“요정에 관한 이야기를 들려주세요.”라는 메시지를 생각해 보세요. 응답을 생성하기 위해 신경망은 프롬프트를 분석하여 가장 가능성이 높은 첫 번째 단어를 예측합니다. 예를 들어, "The"가 최선의 선택일 확률은 80%, "A"일 확률은 10%, "Once"일 확률은 10%라고 판단할 수 있습니다. 그런 다음 무작위로 숫자를 선택합니다. 숫자가 1에서 8 사이이면 "The"를 선택합니다. 9이면 “A”를 선택합니다. 10이면 '한 번'을 선택합니다. 난수는 "The"에 해당하는 4라고 가정합니다. 그러면 네트워크는 “요정에 관한 이야기를 들려주세요. The'를 입력하고 'The' 다음의 단어를 예측하는 과정을 반복합니다. 이 주기는 완전한 스토리가 생성될 때까지 업데이트된 프롬프트를 기반으로 각각의 새로운 단어 예측으로 계속됩니다.
네트워크에 따라 이러한 예측이 다르게 이루어집니다. 예를 들어, 이미지 인식 모델은 개 이미지에 어떤 라벨을 부여할지 예측하고 올바른 라벨이 'chocolate Lab'일 확률이 70%, 'Englishspaniel'일 확률이 20%, "골든 리트리버"를 위해. 분류의 경우 일반적으로 네트워크는 확률적 추측보다는 가장 가능성이 높은 선택을 사용합니다.
신경망의 유형
다음은 다양한 유형의 신경망과 작동 방식에 대한 개요입니다.
- FNN(피드포워드 신경망):이 모델에서 정보는 입력 계층에서 숨겨진 계층을 거쳐 마지막으로 출력 계층으로 한 방향으로 흐릅니다. 이 모델 유형은 신용카드 사기 감지와 같은 간단한 예측 작업에 가장 적합합니다.
- 순환 신경망(RNN):FNN과 달리 RNN은 예측을 생성할 때 이전 입력을 고려합니다. 프롬프트에 대한 응답으로 생성된 문장의 끝은 문장이 시작된 방식에 따라 달라지기 때문에 언어 처리 작업에 매우 적합합니다.
- LSTM(장단기 기억 네트워크):LSTM은 정보를 선택적으로 잊어버리므로 보다 효율적으로 작업할 수 있습니다. 이는 많은 양의 텍스트를 처리하는 데 매우 중요합니다. 예를 들어 Google Translate의 2016년 신경 기계 번역 업그레이드는 LSTM에 의존했습니다.
- CNN(컨벌루션 신경망):CNN은 이미지를 처리할 때 가장 잘 작동합니다. 그들은컨벌루션 레이어를사용하여 전체 이미지를 스캔하고 선이나 모양과 같은 특징을 찾습니다. 이를 통해 CNN은 객체가 이미지의 상단 또는 하단에 있는지 결정하는 것과 같은 공간적 위치를 고려하고 위치에 관계없이 모양이나 객체 유형을 식별할 수 있습니다.
- 생성적 적대 네트워크(GAN):GAN은 설명이나 기존 이미지를 기반으로 새로운 이미지를 생성하는 데 종종 사용됩니다. 그들은 두 개의 신경망, 즉판별기 네트워크를 속여 가짜 입력이 진짜라고 믿게 만드는생성기네트워크 간의 경쟁으로 구성됩니다.
- Transformers 및 주의 네트워크:Transformers는 현재 AI 기능의 폭발적인 증가를 담당하고 있습니다. 이러한 모델에는 입력을 필터링하여 가장 중요한 요소에 초점을 맞추고 해당 요소가 텍스트 페이지 전반에 걸쳐 서로 어떻게 연관되는지를 필터링할 수 있는 주목 스포트라이트가 통합되어 있습니다. 또한 Transformer는 엄청난 양의 데이터를 학습할 수 있으므로 ChatGPT 및 Gemini와 같은 모델을 LLM(대규모 언어 모델)이라고 합니다.
신경망의 응용
나열하기에는 너무 많기 때문에 자연어에 중점을 두고 오늘날 신경망이 사용되는 방식을 선택해 보겠습니다.
글쓰기 지원:Transformers는 컴퓨터가 사람들의 글쓰기 능력을 향상시키는 방식을 변화시켰습니다. Grammarly와 같은 AI 작성 도구는 문장 및 단락 수준 재작성을 제공하여 어조와 명확성을 향상시킵니다. 이 모델 유형은 기본 문법 제안의 속도와 정확성도 향상했습니다. Grammarly가 AI를 어떻게 사용하는지 자세히 알아보세요.
콘텐츠 생성:ChatGPT 또는 DALL-E를 사용해 본 적이 있다면 생성 AI를 직접 경험한 것입니다. 트랜스포머는 취침 시간 이야기부터 초현실적인 건축 렌더링에 이르기까지 인간과 공감하는 미디어를 만드는 컴퓨터의 능력에 혁명을 일으켰습니다.
음성 인식:컴퓨터는 인간의 음성을 인식하는 능력이 나날이 향상되고 있습니다. 더 많은 맥락을 고려할 수 있는 새로운 기술을 통해 모델은 소리만으로도 여러 가지 해석이 가능하더라도 화자가 말하려는 내용을 점점 더 정확하게 인식할 수 있게 되었습니다.
의료 진단 및 연구:신경망은 연구원과 의료 서비스 제공자가 질병을 이해하고 해결하는 데 도움이 되는 패턴 감지 및 분류에 탁월합니다. 예를 들어, 코로나19 백신의 급속한 개발에 부분적으로 감사할 AI가 있습니다.
신경망의 과제와 한계
다음은 신경망에서 제기되는 문제 중 전부는 아니지만 일부에 대해 간략하게 살펴보겠습니다.
편향:신경망은 들은 내용을 통해서만 학습할 수 있습니다. 성차별적이거나 인종차별적인 콘텐츠에 노출되면 결과물도 성차별적이거나 인종차별적일 가능성이 높습니다. 이는 성별이 없는 언어를 성별이 있는 언어로 번역할 때 발생할 수 있으며, 여기서는 명시적인 성별 식별 없이 고정관념이 지속됩니다.
과적합:부적절하게 훈련된 모델은 제공된 데이터를 너무 많이 읽어 새로운 입력에 어려움을 겪을 수 있습니다. 예를 들어, 주로 특정 민족의 사람들을 대상으로 훈련된 얼굴 인식 소프트웨어는 다른 인종의 얼굴에는 제대로 작동하지 않을 수 있습니다. 또는 스팸 필터가 이전에 본 패턴에 너무 집중하기 때문에 새로운 다양한 정크 메일을 놓칠 수도 있습니다.
환각:오늘날 생성 AI의 대부분은 항상 최상위 선택을 선택하는 대신, 무엇을 생성할지 선택하기 위해 어느 정도 확률을 사용합니다. 이러한 접근 방식은 더 창의적이고 더 자연스럽게 들리는 텍스트를 생성하는 데 도움이 되지만, 단순히 거짓된 진술을 하게 만들 수도 있습니다. (이것이 LLM이 때때로 기본 수학을 틀리는 이유이기도 합니다.) 불행하게도 이러한 환각은 더 잘 알지 않거나 다른 출처를 통해 사실을 확인하지 않는 한 감지하기 어렵습니다.
해석성:신경망이 어떻게 예측하는지 정확히 아는 것이 불가능한 경우가 많습니다. 이는 모델을 개선하려는 누군가의 관점에서는 실망스러울 수 있지만, 사람들의 삶에 큰 영향을 미치는 결정을 내리는 데 AI의 의존도가 점점 높아지고 있기 때문에 결과적일 수도 있습니다. 오늘날 사용되는 일부 모델은 제작자가 프로세스의 모든 단계를 검사하고 이해할 수 있기를 원하기 때문에 신경망을 기반으로 하지 않습니다.
지적 재산권:많은 사람들은 LLM이 허가 없이 글쓰기 및 기타 예술 작품을 통합함으로써 저작권을 침해한다고 믿습니다. 저작권이 있는 작품을 직접 재생산하지 않는 경향이 있지만 이러한 모델은 특정 아티스트로부터 파생되었을 가능성이 있는 이미지나 문구를 생성하거나 요청 시 아티스트의 독특한 스타일로 작품을 생성하는 것으로 알려져 있습니다.
전력 소비:변압기 모델을 훈련하고 실행하는 데는 엄청난 에너지가 사용됩니다. 실제로 몇 년 안에 AI는 스웨덴이나 아르헨티나만큼 많은 전력을 소비할 수 있습니다. 이는 AI 개발에서 에너지원과 효율성을 고려하는 것이 점점 더 중요해지고 있음을 강조합니다.
신경망의 미래
AI의 미래를 예측하는 것은 매우 어렵습니다. 1970년에 최고의 AI 연구자 중 한 명은 “3~8년 안에 우리는 평균적인 인간의 지능을 갖춘 기계를 갖게 될 것”이라고 예측했습니다. (우리는 아직 AGI(Artificial General Intelligence)에 그리 가깝지 않습니다. 적어도 대부분의 사람들은 그렇게 생각하지 않습니다.)
그러나 주의해야 할 몇 가지 추세를 지적할 수 있습니다. 보다 효율적인 모델은 전력 소비를 줄이고 스마트폰과 같은 장치에서 직접 보다 강력한 신경망을 실행합니다. 새로운 훈련 기술을 사용하면 더 적은 훈련 데이터로 더 유용한 예측이 가능해집니다. 해석 가능성의 획기적인 발전은 신뢰도를 높이고 신경망 출력을 개선하기 위한 새로운 경로를 열 수 있습니다. 마지막으로, 양자 컴퓨팅과 신경망을 결합하면 우리가 상상할 수 있는 혁신을 가져올 수 있습니다.
결론
인간 두뇌의 구조와 기능에서 영감을 얻은 신경망은 현대 인공 지능의 기본입니다. 패턴 인식 및 예측 작업에 탁월하여 이미지 및 음성 인식부터 자연어 처리에 이르기까지 오늘날의 많은 AI 애플리케이션을 뒷받침합니다. 아키텍처 및 훈련 기술의 발전으로 신경망은 계속해서 AI 기능을 크게 향상시킵니다.
잠재력에도 불구하고 신경망은 편향, 과적합, 높은 에너지 소비와 같은 문제에 직면해 있습니다. AI가 계속 발전함에 따라 이러한 문제를 해결하는 것이 중요합니다. 앞으로는 모델 효율성, 해석 가능성 및 양자 컴퓨팅과의 통합 분야의 혁신을 통해 신경망의 가능성이 더욱 확장되어 잠재적으로 훨씬 더 혁신적인 애플리케이션이 탄생할 것으로 기대됩니다.