Swagath Venkataramani

Title

Principal Research Scientist, AIU Architecture and Compilers

Publications

Accelerating DNN Training Through Selective Localized Learning
- - Sarada Krithivasan
  - Sanchari Sen
  - et al.
- 2022
- Frontiers in Neuroscience
A 7-nm Four-Core Mixed-Precision AI Chip with 26.2-TFLOPS Hybrid-FP8 Training, 104.9-TOPS INT4 Inference, and Workload-Aware Throttling
- - Sae Kyu Lee
  - Ankur Agrawal
  - et al.
- 2021
- IEEE JSSC
4-bit quantization of LSTM-based speech recognition models
- - Andrea Fasoli
  - Chia-Yu Chen
  - et al.
- 2021
- INTERSPEECH 2021
Efficacy of Pruning in Ultra-Low Precision DNNs
- - Sanchari Sen
  - Swagath Venkataramani
  - et al.
- 2021
- ISLPED 2021
RaPiD: AI Accelerator for Ultra-Low Precision Training and Inference
- - Swagath Venkataramani
  - Vijayalakshmi Srinivasan
  - et al.
- 2021
- ISCA 2021
Efficient Management of Scratch-Pad Memories in Deep Learning Accelerators
- - Subhankar Pal
  - Swagath Venkataramani
  - et al.
- 2021
- ISPASS 2021
A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling
- - Ankur Agrawal
  - Saekyu Lee
  - et al.
- 2021
- ISSCC 2021
Value Similarity Extensions for Approximate Computing in General-Purpose Processors
- - Younghoon Kim
  - Swagath Venkataramani
  - et al.
- 2021
- DATE 2021
ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training
- - Chia-Yu Chen
  - Jiamin Ni
  - et al.
- 2020
- NeurIPS 2020
Ultra-Low Precision 4-bit Training of Deep Neural Networks
- - Xiao Sun
  - Naigang Wang
  - et al.
- 2020
- NeurIPS 2020

Top collaborators

Alberto Mannari

Software Developer

Matthew Ziegler

Principal Research Scientist

Xiaodong Cui

Principal Research Scientist

Prasanth Chatarasi

Staff Research Scientist, AIU Accelerator Compilers and Architecture

Swagath Venkataramani

Title

Publications

Accelerating DNN Training Through Selective Localized Learning

A 7-nm Four-Core Mixed-Precision AI Chip with 26.2-TFLOPS Hybrid-FP8 Training, 104.9-TOPS INT4 Inference, and Workload-Aware Throttling

4-bit quantization of LSTM-based speech recognition models

Efficacy of Pruning in Ultra-Low Precision DNNs

RaPiD: AI Accelerator for Ultra-Low Precision Training and Inference

Efficient Management of Scratch-Pad Memories in Deep Learning Accelerators

A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling

Value Similarity Extensions for Approximate Computing in General-Purpose Processors

ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training

Ultra-Low Precision 4-bit Training of Deep Neural Networks

Patents

Single Function To Perform Combined Matrix Multiplication And Bias Add Operations

Method To Map Convolutional Layers Of Deep Neural Network On A Plurality Of Processing Elements With Simd Execution Units, Private Memories, And Connected As A 2d Systolic Processor Array

Hybrid Data-model Parallelism For Efficient Deep Learning

Multichannel Memory To Augment Local Memory

Low Precision Deep Neural Network Enabled By Compensation Instructions