Cara Mengunduh dan Menginstal Llama 2 Secara Lokal

Pembaca seperti Anda membantu mendukung MUO. Saat Anda melakukan pembelian menggunakan tautan di situs kami, kami dapat memperoleh komisi afiliasi. Baca selengkapnya.

Meta merilis Llama 2 pada musim panas 2023. Versi baru Llama telah disempurnakan dengan token 40% lebih banyak dibandingkan model Llama asli, menggandakan panjang konteksnya dan secara signifikan mengungguli model sumber terbuka lain yang tersedia. Cara tercepat dan termudah untuk mengakses Llama 2 adalah melalui API melalui platform online. Namun, jika Anda menginginkan pengalaman terbaik, yang terbaik adalah menginstal dan memuat Llama 2 langsung di komputer Anda.

Dengan mengingat hal tersebut, kami telah membuat panduan langkah demi langkah tentang cara menggunakan Text-Generation-WebUI untuk memuat Llama 2 LLM terkuantisasi secara lokal di komputer Anda.

Mengapa Menginstal Llama 2 Secara Lokal

Ada banyak alasan mengapa orang memilih menjalankan Llama 2 secara langsung. Beberapa melakukannya karena alasan privasi, beberapa untuk penyesuaian, dan lainnya untuk kemampuan offline. Jika Anda sedang meneliti, menyempurnakan, atau mengintegrasikan Llama 2 untuk proyek Anda, maka mengakses Llama 2 melalui API mungkin bukan untuk Anda. Tujuan menjalankan LLM secara lokal di PC Anda adalah untuk mengurangi ketergantungan pada alat AI pihak ketiga dan menggunakan AI kapan saja, di mana saja, tanpa khawatir akan bocornya data sensitif ke perusahaan dan organisasi lain.

windows 10 saat ini tidak ada opsi daya yang tersedia

Oleh karena itu, mari kita mulai dengan panduan langkah demi langkah untuk menginstal Llama 2 secara lokal.

Langkah 1: Instal Alat Pembuatan Visual Studio 2019

Untuk menyederhanakan, kami akan menggunakan penginstal sekali klik untuk Text-Generation-WebUI (program yang digunakan untuk memuat Llama 2 dengan GUI). Namun, agar penginstal ini berfungsi, Anda perlu mengunduh Visual Studio 2019 Build Tool dan menginstal sumber daya yang diperlukan.

Unduh: Visual Studio 2019 (Bebas)

Silakan unduh perangkat lunak edisi komunitas.
Sekarang install Visual Studio 2019, lalu buka softwarenya. Setelah dibuka, centang kotaknya Pengembangan desktop dengan C++ dan tekan instal.

Sekarang Anda telah menginstal pengembangan Desktop dengan C++, saatnya mengunduh penginstal sekali klik Text-Generation-WebUI.

Langkah 2: Instal Pembuatan Teks-WebUI

Penginstal sekali klik Text-Generation-WebUI adalah skrip yang secara otomatis membuat folder yang diperlukan dan mengatur lingkungan Conda dan semua persyaratan yang diperlukan untuk menjalankan model AI.

Untuk menginstal skrip, unduh penginstal sekali klik dengan mengklik Kode > Unduh ZIP.

Unduh: Penginstal WebUI Pembuatan Teks (Bebas)

Setelah diunduh, ekstrak file ZIP ke lokasi pilihan Anda, lalu buka folder hasil ekstrak.
Di dalam folder, gulir ke bawah dan cari program awal yang sesuai untuk sistem operasi Anda. Jalankan program dengan mengklik dua kali skrip yang sesuai.
- Jika Anda menggunakan Windows, pilih mulai_windows berkas kumpulan
- untuk MacOS, pilih mulai_macos skrip cangkang
- untuk Linux, mulai_linux skrip cangkang.
Anti-virus Anda mungkin mengeluarkan peringatan; ini baik-baik saja. Perintahnya hanyalah sebuah antivirus positif palsu untuk menjalankan file batch atau skrip. Klik Lari saja .
Terminal akan terbuka dan memulai pengaturan. Awalnya, pengaturan akan dijeda dan menanyakan GPU apa yang Anda gunakan. Pilih jenis GPU yang sesuai yang terpasang di komputer Anda dan tekan enter. Bagi mereka yang tidak memiliki kartu grafis khusus, pilih Tidak ada (Saya ingin menjalankan model dalam mode CPU) . Perlu diingat bahwa menjalankan model dengan mode CPU jauh lebih lambat jika dibandingkan dengan menjalankan model dengan GPU khusus.
Setelah penyiapan selesai, kini Anda dapat meluncurkan Text-Generation-WebUI secara lokal. Anda dapat melakukannya dengan membuka browser web pilihan Anda dan memasukkan alamat IP yang diberikan pada URL.
WebUI sekarang siap digunakan.

Namun, program ini hanya merupakan pemuat model. Mari unduh Llama 2 untuk meluncurkan model loader.

Langkah 3: Unduh Model Llama 2

Ada beberapa hal yang perlu dipertimbangkan ketika memutuskan iterasi Llama 2 mana yang Anda perlukan. Ini termasuk parameter, kuantisasi, optimasi perangkat keras, ukuran, dan penggunaan. Semua informasi ini akan ditemukan dalam nama model.

cara menghapus halaman bisnis facebook

Parameter: Jumlah parameter yang digunakan untuk melatih model. Parameter yang lebih besar menghasilkan model yang lebih mumpuni, namun mengorbankan performa.
Penggunaan: Bisa standar atau chat. Model chat dioptimalkan untuk digunakan sebagai chatbot seperti ChatGPT, sedangkan model standar adalah model default.
Optimasi Perangkat Keras: Mengacu pada perangkat keras apa yang paling baik menjalankan model. GPTQ berarti model dioptimalkan untuk dijalankan pada GPU khusus, sedangkan GGML dioptimalkan untuk dijalankan pada CPU.
Kuantisasi: Menunjukkan ketepatan bobot dan aktivasi dalam suatu model. Untuk inferensi, presisi q4 adalah optimal.
Ukuran: Mengacu pada ukuran model tertentu.

Perhatikan bahwa beberapa model mungkin disusun secara berbeda dan bahkan mungkin tidak menampilkan jenis informasi yang sama. Namun, konvensi penamaan jenis ini cukup umum di Memeluk Wajah Pustaka model, jadi masih layak untuk dipahami.

Dalam contoh ini, model dapat diidentifikasi sebagai model Llama 2 berukuran sedang yang dilatih pada 13 miliar parameter yang dioptimalkan untuk inferensi obrolan menggunakan CPU khusus.

Bagi mereka yang menjalankan GPU khusus, pilih a GPTQ model, sedangkan untuk yang menggunakan CPU pilih GGML . Jika Anda ingin mengobrol dengan model seperti yang Anda lakukan dengan ChatGPT, pilih mengobrol , namun jika Anda ingin bereksperimen dengan model dengan kemampuan penuhnya, gunakan standar model. Mengenai parameter, ketahuilah bahwa menggunakan model yang lebih besar akan memberikan hasil yang lebih baik dengan mengorbankan performa. Saya pribadi menyarankan Anda memulai dengan model 7B. Sedangkan untuk kuantisasi, gunakan q4, karena hanya untuk inferensi.

Unduh: GGML (Bebas)

Unduh: GPTQ (Bebas)

perangkat adb tidak ditemukan windows 10

Sekarang setelah Anda mengetahui iterasi Llama 2 yang Anda perlukan, lanjutkan dan unduh model yang Anda inginkan.

Dalam kasus saya, karena saya menjalankan ini pada ultrabook, saya akan menggunakan model GGML yang disesuaikan untuk obrolan, panggilan-2-7b-obrolan-ggmlv3.q4_K_S.bin.

Setelah pengunduhan selesai, masukkan modelnya pembuatan teks-webui-main > model .

Sekarang model Anda telah diunduh dan ditempatkan di folder model, sekarang saatnya mengonfigurasi pemuat model.

Langkah 4: Konfigurasikan Pembuatan Teks-WebUI

Sekarang, mari kita mulai tahap konfigurasi.

Sekali lagi, buka Text-Generation-WebUI dengan menjalankan mulai_(OS Anda) file (lihat langkah sebelumnya di atas).
Pada tab yang terletak di atas GUI, klik Model. Klik tombol segarkan di menu tarik-turun model dan pilih model Anda.
Sekarang klik pada menu tarik-turun Pemuat model dan pilih GPTQ Otomatis bagi mereka yang menggunakan model GTPQ dan transformator bagi mereka yang menggunakan model GGML. Terakhir, klik Memuat untuk memuat model Anda.
Untuk menggunakan model, buka tab Obrolan dan mulai menguji model.

Selamat, Anda berhasil memuat Llama2 di komputer lokal Anda!

Cobalah LLM Lainnya

Sekarang setelah Anda mengetahui cara menjalankan Llama 2 langsung di komputer menggunakan Text-Generation-WebUI, Anda juga seharusnya bisa menjalankan LLM lain selain Llama. Ingatlah konvensi penamaan model dan hanya versi model yang terkuantisasi (biasanya presisi q4) yang dapat dimuat pada PC biasa. Banyak LLM terkuantisasi tersedia di HuggingFace. Jika Anda ingin menjelajahi model lain, cari TheBloke di perpustakaan model HuggingFace, dan Anda akan menemukan banyak model yang tersedia.