ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 테슬라 FSD 칩 구성 및 NPU 작동 과정 (자율주행 / 인공신경망 / 컨볼루션 / 풀링 / MACs / 활성화 / 비디오 코덱 / 메모리 / LPDDR4 / SRAM) 봅시다
    카테고리 없음 2020. 3. 2. 23:52

    >


    ​ ​ 1.FSD칩(Full Self-Driving Chip)개발 과정 ​-FSD칩은 테슬라가 직접 설계하고 2019년 초부터 자사 자동차에 도입하기 시작한 자율 주행용 칩 ​-FSD칩의 설계와 우이도웅 2016년 이 회사가 자율 주행에 적합한 해법이 없다고 주장했다. 2017년 8월까지 18개월간 개발되어 그 해 12월에 완성 ​-여러 추가 수정 후 2018년 7월 자격 심사의 직후부터 본격적인 생산 개시 ​-2018년 12월에 새로운 하드웨어와 소프트웨어 스택으로 직원용 자동차를 대상으로 개조 ​-2019년 3월 모델 S와 X에 FSD칩과 컴퓨터를 탑재하고 대량 출하. 4월부터는 모델 3에도 탑재 ​ ​ ​ ​ 2. 전체 칩 개요 ​-FSD칩은 테슬라가 자체 개발한 맞춤형 자율 주행 칩으로 높은 수준으로 어떻게 운영 체제를 실행할 수 있는 시스템 온 칩(SoC)​-테슬라의 기존 자동차를 위한 드롭인 업그레이드 설계된 이 칩은 100W의 최대 전력 소비량을 유지하는 것을 포함한 이전 솔루션의 전력과 발열 요건의 대부분을 계승 ​-특수 목적으로 설계되었기 때문에 신경 프로세서로 하나발죠크잉 기능을 이하에 닥친 상당 부분이 제거된 채 ​-260제곱 mm사각형 실리콘대(die), 60억개의 트랜지스터, 2억 5천만개의 게이트, 14자신의 미토핑펫 공정. 37.5x37.5mm BGA패키지 ​


    >


    <출처:WikiChip:FSD Chip– Tesla>​ ​ ​ ​ 3.CPU​-일반 목적의 처리에 사용되는 총 한 2개의 64비트 ARM코어 ​-쿼드 코어 Cortex-A72로 세개의 클러스터에 본인 눕히고 구성된 것 ​-2.2GHz클록 ​ ​ ​ ​ 4.GPU​- 가벼운 처리를 위해서 설계된 light GPU​-모노 정밀도와 이중 정밀 부동 소수 점의 운영을 모두 지원 ​ 최대 600 GFLOPS. 일 GHz클록 ​ ​ ​ ​ 5. 메인 메모리 ​ 일 28비트 LPDDR4의 메모리를 지원하고 비교적 저렴한 통상 메모리 하부 조직 ​-68GB/s의 대역 폭, 4266MHz클록 ​ ​ ​ ​ 6. 안전 시스템(Safety System)​-자동차 액튜에이터의 마지막 중재를 수행하는 듀얼 코어 lockstep CPU을 통합한 안전 시스템 ​ 이 CPU는 FSD컴퓨터 두 FSD칩으로 발발된 두개의 예정이 일치하고 있는지나 액튜에이터를 구동하는 것이 안전한지를 자결 ​ ​ ​ ​ 7. 보안 시스템(Security System)​-테슬라가 암호로 서명한 코드만 실행시키도록 하는 시스템 ​ ​ ​ ​ 8. 카메라 인터페이스(Camera serial interface)​-다양한 비디오 입력 장치로부터 초당 최대 25억 픽셀을 처리할 수 있는 카메라 직렬 인터페이스(CSI)​ ​ ​ ​ 9. 비디오 엔코더(Video Encoder)​-백업 카메라 디스플레이, 대시 캠, 크라우독릿프로깅그 같은 다양한 애플리케이션에 사용되는 H.265(HEVC)비디오 엥코ー다통합-비디오코덱 관련 국내 기업에서는 칩스앤미디어(관련 기사 참조)


    ​ ​ ​ ​ 10. 키위, 신호 처리기(Image signal processor)​과 차량에 장착된 8개의 카메라 센서를 처리하기 위한 24비트의 내부 파이프가 내장된 프로세서 ​-초당 최대 10억 화소를 처리할 수 있다, 톤 매핑(tone mapping)기능을 갖추면서 칩이 그림자 같은 밝고 어두운 면 등을 디테 1 하게 확인할 수 있도록 함 ​ 또한 깔끔한 키위,를 얻기 위한 노이즈 감쇄 기능의 탑재 ​ ​ ​ ​ 11.NPU(Neural processing unit)​(1)작동 과정 ​


    >


    <출처:WikiChip:FSD Chip– Tesla>​ ​-추측으로는 콤보 루루)신경망(CNN)과정에서 특징 추출 신경망 내의 콤보 루루)계층이 MACs활성화 함수 적용이 Activations, 푸 링 계층이 Pooling, 그 다음의 분류 신경 망으로 건너가고 결과를 종합할 Write Buffer로 1어(및 소견한 것 ​-벡터 내적(dot product)계산 때문, 데이터는 MACs->Activations->Pooling->Write Buffer의 순으로 이동해 결과치는 다시 SRAM에 적힌 것


    >


    <출처 : 핸즈온 머신러닝> ※컨볼루션 신경망 관련 자세한 설명 참고


    ​ ​ 최초의 끝에, 256바이트의 활성화 데이터와 첫 28바이트의 가중치 데이터를 SRAM에서 읽어 오고 MACs array(MACs array, Multiply-Accumulate array)에서 결합. 96x96 MACs array에서 쿨록당(첫/첫 000초)9,2첫 6개의 multiply-add작업을 수행 ​ 2)후 Activations에서 Rectified Linear Unit(ReLU)Sigmoid Linear Unit(SiLU), and TanH와 같은 활성화 함수를 적용 ​ 3)그 후 Pooling에서 푸 링 단계를 거치​ 4)마지막으로 Write Buffer에서 결과치를 종합. 사이클마다 이러한 첫 28바이트의 결과 데이터가 SRAM에 다시 기록되며, 모든 작업은 모두 신경 망 작업이 완료될 때까지 반복되면서 동시에 지속적으로 수행됨 ​ ​ ​(2)NPU효율과 성능-FSD칩에는 맞춤형 신경망 처리 장치인 NPU가 두개 탑재된 것 ​-각 NPU는 신경망 학습 과정 중에 임시적인 결과를 32MB SRAM에 저장하도록 설계되고 메인 메모리의 데이터의 이동을 줄임 ​※FSD칩의 SRAM의 사용에 관한 설명 참조


    ​ ​-FSD칩에 테슬라는 8bit x 8bit상수 곱셈과 32bit정수의 덧셈을 사용.두 데이터 타입의 선택은 소비 전력을 줄이기 위한 노력.한 예로, 32bit정수 덧셈은 32bit부동 소수 점 덧셈보다 약 1/9정도의 전력 소모 ​-도 했다, 각 NPU는 2GHz클록에 36.86 TOPS(Trillion Operations Per Second), 성능.FSD의 칩에 NPU가 2개 들어가므로 최대 73.7 TOPS까지 성능을 구현하고 GPU대비 월등한 성능 발휘


    >


    <출처: WikiChip: FSDChip – Tesla>


    댓글

Designed by Tistory.