Pahami.id – Tim Riset Yandex berkolaborasi dengan peneliti dari Institut Sains dan Teknologi Austria, NeuralMagic, dan KAUST dalam pengembangan dua metode kompresi inovatif untuk model bahasa besar (LLM): Additive Quantization of Language Models (AQLM) dan PV-Tuning.
Jika digabungkan, metode ini memungkinkan pengurangan ukuran model hingga 8 kali lipat dengan tetap mempertahankan kualitas respons hingga 95%.
Metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa besar. Artikel penelitian yang merinci pendekatan ini dipresentasikan pada Konferensi Internasional tentang Pembelajaran Mesin (ICML) yang sedang berlangsung di Wina, Austria.
Fitur utama AQLM dan PV-Tuning
Sistem AQLM menggunakan pendekatan kuantisasi inkremental atau pendekatan untuk memetakan himpunan besar ke himpunan kecil untuk melakukan kompresi LLM. Pendekatan ini sebenarnya digunakan secara tradisional untuk mendapatkan informasi.
Metode yang dihasilkan mampu mempertahankan bahkan meningkatkan akurasi model dalam kondisi kompresi ekstrim, sehingga memungkinkan penggunaan LLM pada perangkat sehari-hari seperti komputer rumah dan ponsel pintar. Bahkan penggunaan memori bisa dikurangi secara signifikan.
PV-Tuning mengatasi kesalahan yang mungkin timbul selama proses kompresi model. Jika digabungkan, AQLM dan PV-Tuning memberikan hasil yang optimal sehingga model dapat memberikan respon berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.
Evaluasi dan pengenalan metode
Evaluasi atau evaluasi efektivitas metode ini dilakukan secara ketat dengan menggunakan model open source populer seperti Llama 2, Llama 3, Mistral, dan lain-lain.
Para peneliti mengompresi LLM ini dan mengevaluasi kualitas jawaban yang dihasilkan terhadap tolok ukur bahasa Inggris – WikiText2 dan C4 – dan hasilnya menunjukkan bahwa metode tersebut mampu mempertahankan kualitas jawaban yang mengesankan sebesar 95% karena model dikompresi sebanyak 8 kali.
Siapa yang dapat memperoleh manfaat dari AQLM dan PV-Tuning?
Metode baru ini menawarkan penghematan sumber daya yang besar bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa berpemilik dan LLM sumber terbuka.
Misalnya, model Llama 2 dengan 13 miliar parameter, setelah kompresi, kini hanya dapat berjalan pada 1 GPU, bukan 4 GPU. Oleh karena itu, biaya perangkat keras dapat dikurangi hingga 8 kali lipat.
Ini berarti startup, peneliti individu, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer mereka sehari-hari.
Jelajahi aplikasi LLM baru
AQLM dan PV-Tuning memungkinkan penerapan model tersebut pada perangkat dengan sumber daya penyimpanan terbatas, memungkinkan penggunaan dan aplikasi baru seperti ponsel cerdas, speaker kelas atas, dan berbagai perangkat sehari-hari lainnya.
Dengan LLM canggih yang terintegrasi di dalamnya, pengguna dapat menggunakan pembuatan teks dan gambar, bantuan suara, rekomendasi yang dipersonalisasi, dan bahkan terjemahan bahasa secara real-time – semuanya tanpa memerlukan koneksi internet aktif.
Selain itu, model yang dikompresi menggunakan metode ini dapat beroperasi hingga 4 kali lebih cepat karena memerlukan lebih sedikit komputasi.
Implementasi dan akses
Pengembang dan peneliti di seluruh dunia sudah dapat menggunakan AQLM dan PV-Tuning, yang tersedia di GitHub. Materi pelatihan yang penulis berikan memberikan panduan dalam pembelajaran LLM yang dipadatkan secara efektif untuk berbagai aplikasi.
Selain itu, pengembang dapat mengunduh model sumber terbuka populer yang telah dikompresi menggunakan metode ini.