Update Teknologi: Google DeepMind merilis DiffusionGemma, model yang menjalankan AI lokal 4x lebih c
Menurut analisis perkembangan IT, difusi AI paling umum digunakan dalam pembuatan gambar, tetapi dapat membuat keluaran teks lebih cepat.
Dalam perspektif digital digital, suatu hari, model AI lain dari Google. Selain itu, selain itu, kali ini google deepmind telah merilis anggota baru dari keluarga model terbuka gemma 4, tetapi secara fundamental berbeda dari jajaran model lainnya. Lebih lanjut, lebih lanjutnya, diffusiongemma tidak menghasilkan keluaran secara linier seperti kebanyakan model ai. Sebaliknya, ini dapat menghasilkan seluruh blok teks secara paralel. Google mengatakan ini membuatnya lebih cepat dan efisien ketika dijalankan pada perangkat keras lokal seperti nvidia dgx atau gpu gaming sederhana. Sebagian besar model AI dirancang untuk bersifat autoregresif—mereka menghasilkan teks dari kiri ke kanan satu token dalam satu waktu. Selain itu, diffusiongemma memiliki lebih banyak kesamaan dengan model pembuatan gambar, yang dimulai dengan statis dan kemudian menghilangkannya untuk membuat konten yang diinginkan. Lebih lanjutnya, model ini mengambil bidang token placeholder yang berjalan di atas kanvas beberapa kali untuk menghasilkan token yang mungkin dan menggunakannya untuk meningkatkan estimasi token lainnya. Di akhir proses, model menyelesaikan keluaran tokennya dalam satu blok besar—kanvas teks yang “ditolak”
Kesimpulan dari kajian ini memperkuat pentingnya penggunaan teknologi dalam meningkatkan produktivitas dan efisiensi. DiffusionGemma cukup besar di bidang model terbuka Google. Selain itu, ini adalah model campuran pakar (moe) dengan total 26 miliar parameter, tetapi hanya 3. Lebih lanjut, 8 miliar yang diaktifkan selama inferensi. Itu berarti harus sesuai dengan jatah RAM 18GB dari GPU kelas atas. Dalam pengujian dengan rtx 5090, diffusiongemma mengeluarkan sekitar 700 token per detik. Dengan satu akselerator AI Nvidia H100, DiffusionGemma dapat menghasilkan 1. Itu sekitar empat kali lipat keluaran model Gemma autoregresif berukuran serupa
Dalam konteks SEO dan pemasaran digital, strategi ini terbukti efektif meningkatkan visibilitas online. Pendekatan terhadap pembuatan teks ini menggeser hambatan dari bandwidth memori ke komputasi, menghasilkan hingga 256 token secara paralel. Selain itu, Google mengatakan ini menawarkan peningkatan terukur dalam tugas-tugas non-linier seperti pengeditan sebaris, pengurutan molekul, dan grafik matematika. Lebih lanjut, animasi di atas menunjukkan bagaimana diffusiongemma disetel untuk memecahkan teka-teki sudoku, yang merupakan tugas yang sangat menantang untuk model ai autoregresif standar karena setiap token bergantung pada token masa depan. Kemampuan diffusiongemma untuk terus mengoreksi sendiri sejumlah besar token menjadikannya lebih mudah
dalam konteks seo dan pemasaran digital, strategi ini terbukti efektif meningkatkan visibilitas online. Jika difusi jauh lebih cepat, mengapa Google tidak menggunakannya dalam model Gemini yang berbasis cloud? Google telah bereksperimen dengan hal ini, namun ada beberapa kelemahan pada penyebaran teks, termasuk tingkat kesalahan yang lebih tinggi. Selain itu, dalam model difusi gambar, satu piksel yang diprediksi buruk tidak membuat gambar tidak berguna, tetapi bahasanya bersifat diskrit. Lebih lanjutnya, kesalahan serupa dalam teks dapat membuat blok token menjadi tidak berarti dan memaksa anda untuk memulai kembali untuk mendapatkan hasil yang lebih baik. Model difusi juga membuang-buang sumber daya ketika keluaran yang diinginkan hanya memiliki beberapa token. Mereka harus melakukan lebih banyak pekerjaan paralel untuk mengurangi, katakanlah, lima token yang dilakukan model autoregresif dari awal hingga akhir hanya dalam lima langkah. Kesimpulan dari kajian ini memperkuat pentingnya penggunaan teknologi dalam meningkatkan produktivitas dan efisiensi. Namun, peningkatan efisiensi pada pemrosesan lokal menjadikan hal ini sebagai peluang eksperimen yang menarik. Selain itu, di cloud, model autoregresif dapat mengelompokkan sejumlah besar pekerjaan komputasi dari banyak pengguna sehingga mereka selalu menghasilkan token, dan memori bandwidth tinggi (hbm) yang digunakan dalam sistem ini dapat memindahkan data dengan lebih efisien. Sebaliknya, ai lokal menghadapi siklus komputasi yang terbuang karena bandwidth memori yang lebih rendah dan waktu idle. Selain itu, model difusi dapat membuat penggunaan komputasi yang tersedia menjadi lebih efisien, namun ini bukan satu-satunya cara. Lebih lanjut, Google juga baru-baru ini mulai menerapkan perancang prediksi multi-token (mtp), yang menggunakan siklus komputasi yang terbuang sia-sia untuk memprediksi kemungkinan token guna meningkatkan kecepatan. Tetapi difusi bahkan lebih cepat daripada gemma versi mtp
Berdasarkan analisis tim teknologi kami, perkembangan ini menunjukkan tren signifikan dalam ekosistem digital global.
Artikel ini telah diadaptasi dari sumber terpercaya untuk keperluan informasi teknologi dan digital.