테슬라 FSD 칩 구성 및 NPU 작동 과정 (자율주행 / 인공신경망 / 컨볼루션 / 풀링 / MACs / 활성화 / 비디오 코덱 / 메모리 / LPDDR4 / SRAM) 봅시다

테슬라 FSD 칩 구성 및 NPU 작동 과정 (자율주행 / 인공신경망 / 컨볼루션 / 풀링 / MACs / 활성화 / 비디오 코덱 / 메모리 / LPDDR4 / SRAM) 봅시다

카테고리 없음 2020. 3. 2. 23:52

>

1.FSD칩(Full Self-Driving Chip)개발 과정 -FSD칩은 테슬라가 직접 설계하고 2019년 초부터 자사 자동차에 도입하기 시작한 자율 주행용 칩 -FSD칩의 설계와 우이도웅 2016년 이 회사가 자율 주행에 적합한 해법이 없다고 주장했다. 2017년 8월까지 18개월간 개발되어 그 해 12월에 완성 -여러 추가 수정 후 2018년 7월 자격 심사의 직후부터 본격적인 생산 개시 -2018년 12월에 새로운 하드웨어와 소프트웨어 스택으로 직원용 자동차를 대상으로 개조 -2019년 3월 모델 S와 X에 FSD칩과 컴퓨터를 탑재하고 대량 출하. 4월부터는 모델 3에도 탑재 2. 전체 칩 개요 -FSD칩은 테슬라가 자체 개발한 맞춤형 자율 주행 칩으로 높은 수준으로 어떻게 운영 체제를 실행할 수 있는 시스템 온 칩(SoC)-테슬라의 기존 자동차를 위한 드롭인 업그레이드 설계된 이 칩은 100W의 최대 전력 소비량을 유지하는 것을 포함한 이전 솔루션의 전력과 발열 요건의 대부분을 계승 -특수 목적으로 설계되었기 때문에 신경 프로세서로 하나발죠크잉 기능을 이하에 닥친 상당 부분이 제거된 채 -260제곱 mm사각형 실리콘대(die), 60억개의 트랜지스터, 2억 5천만개의 게이트, 14자신의 미토핑펫 공정. 37.5x37.5mm BGA패키지

>

<출처:WikiChip:FSD Chip– Tesla> 3.CPU-일반 목적의 처리에 사용되는 총 한 2개의 64비트 ARM코어 -쿼드 코어 Cortex-A72로 세개의 클러스터에 본인 눕히고 구성된 것 -2.2GHz클록 4.GPU- 가벼운 처리를 위해서 설계된 light GPU-모노 정밀도와 이중 정밀 부동 소수 점의 운영을 모두 지원 최대 600 GFLOPS. 일 GHz클록 5. 메인 메모리 일 28비트 LPDDR4의 메모리를 지원하고 비교적 저렴한 통상 메모리 하부 조직 -68GB/s의 대역 폭, 4266MHz클록 6. 안전 시스템(Safety System)-자동차 액튜에이터의 마지막 중재를 수행하는 듀얼 코어 lockstep CPU을 통합한 안전 시스템 이 CPU는 FSD컴퓨터 두 FSD칩으로 발발된 두개의 예정이 일치하고 있는지나 액튜에이터를 구동하는 것이 안전한지를 자결 7. 보안 시스템(Security System)-테슬라가 암호로 서명한 코드만 실행시키도록 하는 시스템 8. 카메라 인터페이스(Camera serial interface)-다양한 비디오 입력 장치로부터 초당 최대 25억 픽셀을 처리할 수 있는 카메라 직렬 인터페이스(CSI) 9. 비디오 엔코더(Video Encoder)-백업 카메라 디스플레이, 대시 캠, 크라우독릿프로깅그 같은 다양한 애플리케이션에 사용되는 H.265(HEVC)비디오 엥코ー다통합-비디오코덱 관련 국내 기업에서는 칩스앤미디어(관련 기사 참조)

10. 키위, 신호 처리기(Image signal processor)과 차량에 장착된 8개의 카메라 센서를 처리하기 위한 24비트의 내부 파이프가 내장된 프로세서 -초당 최대 10억 화소를 처리할 수 있다, 톤 매핑(tone mapping)기능을 갖추면서 칩이 그림자 같은 밝고 어두운 면 등을 디테 1 하게 확인할 수 있도록 함 또한 깔끔한 키위,를 얻기 위한 노이즈 감쇄 기능의 탑재 11.NPU(Neural processing unit)(1)작동 과정

>

<출처:WikiChip:FSD Chip– Tesla> -추측으로는 콤보 루루)신경망(CNN)과정에서 특징 추출 신경망 내의 콤보 루루)계층이 MACs활성화 함수 적용이 Activations, 푸 링 계층이 Pooling, 그 다음의 분류 신경 망으로 건너가고 결과를 종합할 Write Buffer로 1어(및 소견한 것 -벡터 내적(dot product)계산 때문, 데이터는 MACs->Activations->Pooling->Write Buffer의 순으로 이동해 결과치는 다시 SRAM에 적힌 것

>

<출처 : 핸즈온 머신러닝> ※컨볼루션 신경망 관련 자세한 설명 참고

최초의 끝에, 256바이트의 활성화 데이터와 첫 28바이트의 가중치 데이터를 SRAM에서 읽어 오고 MACs array(MACs array, Multiply-Accumulate array)에서 결합. 96x96 MACs array에서 쿨록당(첫/첫 000초)9,2첫 6개의 multiply-add작업을 수행 2)후 Activations에서 Rectified Linear Unit(ReLU)Sigmoid Linear Unit(SiLU), and TanH와 같은 활성화 함수를 적용 3)그 후 Pooling에서 푸 링 단계를 거치 4)마지막으로 Write Buffer에서 결과치를 종합. 사이클마다 이러한 첫 28바이트의 결과 데이터가 SRAM에 다시 기록되며, 모든 작업은 모두 신경 망 작업이 완료될 때까지 반복되면서 동시에 지속적으로 수행됨 (2)NPU효율과 성능-FSD칩에는 맞춤형 신경망 처리 장치인 NPU가 두개 탑재된 것 -각 NPU는 신경망 학습 과정 중에 임시적인 결과를 32MB SRAM에 저장하도록 설계되고 메인 메모리의 데이터의 이동을 줄임 ※FSD칩의 SRAM의 사용에 관한 설명 참조

-FSD칩에 테슬라는 8bit x 8bit상수 곱셈과 32bit정수의 덧셈을 사용.두 데이터 타입의 선택은 소비 전력을 줄이기 위한 노력.한 예로, 32bit정수 덧셈은 32bit부동 소수 점 덧셈보다 약 1/9정도의 전력 소모 -도 했다, 각 NPU는 2GHz클록에 36.86 TOPS(Trillion Operations Per Second), 성능.FSD의 칩에 NPU가 2개 들어가므로 최대 73.7 TOPS까지 성능을 구현하고 GPU대비 월등한 성능 발휘

>

<출처: WikiChip: FSDChip – Tesla>

댓글

ABOUT ME

검색 검색

티스토리툴바