Claude Sonnet 5 diluncurkan: pelajaran untuk tim yang membangun agen AI

Anthropic merilis Claude Sonnet 5 untuk menjalankan agen AI lebih murah. Kasus nyata di Rakuten, Zapier, dan Zed menunjukkan cara agen menyelesaikan tugas multi-langkah di produksi.

Anthropic merilis Claude Sonnet 5 pada 1 Juli 2026 sebagai model utama baru untuk menjalankan agen AI di produksi [1][2]. Model ini mengeksekusi rencana multi-langkah, mengoperasikan terminal, dan menjelajah web tanpa intervensi manusia, dengan harga input 3 dolar per juta token dan output 15 dolar per juta token [1].

Agen AI adalah sistem yang menyusun rencana, memanggil alat, dan menyelesaikan tugas beberapa langkah secara mandiri. Sebuah agen membuka terminal, menjalankan kode, memeriksa hasil, lalu melanjutkan ke langkah berikutnya [1].

Benchmark dan harga: Sonnet 5 vs pendahulu

Pada SWE-bench Pro, tolok ukur engineering otomatis, Sonnet 5 mencatat 63,2 persen, naik dari 58,1 persen di Sonnet 4.6 [1]. Pada Terminal-Bench 2.1 yang mengukur kemampuan operasi terminal, Sonnet 5 mencatat 80,4 persen, naik dari 67,0 persen [1]. Harga dasar Sonnet 5 sama dengan Sonnet 4.6, yaitu 3 dolar per juta token input dan 15 dolar per juta token output [1].

Sonnet 5: SWE-bench Pro 63,2%, Terminal-Bench 2.1 80,4%, input 3,00 dolar per juta token, output 15,00 dolar per juta token [1].
Sonnet 4.6: SWE-bench Pro 58,1%, Terminal-Bench 2.1 67,0%, input 3,00 dolar, output 15,00 dolar per juta token [1].
Opus 4.8: SWE-bench Pro 69,2%, Terminal-Bench 2.1 82,7%, input 5,00 dolar, output 25,00 dolar per juta token [1].

Tarif perkenalan hingga 31 Agustus 2026 menurunkan harga Sonnet 5 menjadi 2 dolar input dan 10 dolar output per juta token [1]. Untuk tim yang menjalankan agen sepanjang hari, penurunan biaya output sepertiga ini berdampak langsung pada tagihan bulanan.

Empat kasus nyata agen di produksi

Vendor melaporkan deployment Sonnet 5 pada alur kerja nyata di empat tim engineering [1].

Rakuten: pull request produksi

Tim teknik Rakuten menugaskan Sonnet 5 memproses belasan pull request paling sulit di produksi. Untuk setiap PR, model menjalankan tes dan memverifikasi hasil sebelum menyerahkan kode ke engineer untuk persetujuan akhir [1].

Zapier: tugas administratif multi-tahap

Zapier mengintegrasikan Sonnet 5 ke produk inti untuk tugas multi-tahap. Dalam satu deployment terdokumentasi, model memperbarui tingkat akun Salesforce lalu menyusun dan mengirim pengumuman peluncuran ke kontak enterprise. Arsitektur generasi sebelumnya sering macet di tengah jalan, sementara Sonnet 5 menyelesaikan seluruh rangkaian tanpa remediasi manusia [1].

Zed: debugging otonom

Tim Zed mengarahkan model menyelidiki bug aktif. Tanpa instruksi langkah demi langkah, Sonnet 5 membuat skrip tes yang mereproduksi bug, menerapkan perbaikan, lalu menyimpan perbaikan untuk memverifikasi bug muncul kembali tanpa patch. Seluruh diagnosis dan perbaikan terjadi dalam satu sesi pemrosesan [1].

Factory: tugas kode berkelanjutan

Factory menjalankan arsitektur ini pada tugas coding panjang di basis kode kompleks. Tim melaporkan model mempertahankan konsistensi logika antar repositori dan menyelesaikan tugas yang sebelumnya habis waktu atau gagal [1].

Keamanan dan batasan

Peluncuran Sonnet 5 mengakhiri jeda operasional 18 hari yang dipicu direktif ekspor pemerintah AS pada 12 Juni 2026 [1]. Direktif itu menyusul laporan peneliti Amazon yang menemukan cara melewati kontrol keamanan Fable 5 hingga model mengidentifikasi kerentanan perangkat lunak dan menghasilkan kode eksploitasi [1].

Anthropic melatih classifier otomatis yang menargetkan mekanisme bypass tersebut. Data validasi internal menunjukkan classifier mencegah teknik eksploitasi yang dilaporkan pada lebih dari 99 persen percobaan [1]. Saat permintaan developer memicu batas ini, platform mengarahkan beban ke arsitektur Opus 4.8 yang lebih lama [1].

Uji Mozilla pada Firefox 147 menunjukkan nol exploit berfungsi di seluruh jendela evaluasi [1]. Classifier yang diperluas ini menandai permintaan benign lebih sering selama development rutin, sebuah trade-off yang perlu diantisipasi tim saat membangun alur debug [1].

Kerangka industri untuk menilai breach

Anthropic, Amazon, Microsoft, dan Google membentuk kemitraan untuk menilai pelanggaran keamanan model dengan metrik bersama. Kerangka ini mencatat empat kriteria [1]:

Capability gain: seberapa jauh eksploitasi meningkatkan kemampuan di luar utilitas standar.
Breadth of capability gain: jumlah operasi ofensif berbeda yang dibuka eksploitasi yang sama.
Ease of weaponisation: upaya engineering dan penyusunan instruksi khusus yang dibutuhkan.
Discoverability: aksesibilitas teknik eksploitasi di kalangan riset publik.

Apa ini berarti bagi tim Indonesia

Bagi tim engineering di Indonesia yang membangun agen, tiga hal layak diperhatikan. Harga output yang turun membuat eksperimen agen sepanjang hari lebih terjangkau [1]. Kemampuan terminal dan web yang naik membuka otomasi tugas operasi yang sebelumnya butuh pipa custom [1]. Classifier yang lebih ketat berarti tim perlu merancang alur debug agar permintaan benign tidak memicu rute aman ke model lama [1].

Pertanyaan umum

Apa itu Claude Sonnet 5?

Model bahasa baru Anthropic yang dirilis 1 Juli 2026 untuk menjalankan agen AI. Model ini mengeksekusi rencana multi-langkah, mengoperasikan terminal, dan menjelajah web tanpa intervensi manusia [1].

Berapa harga Claude Sonnet 5?

Harga dasar 3 dolar per juta token input dan 15 dolar per juta token output. Tarif perkenalan hingga 31 Agustus 2026 menurunkannya menjadi 2 dolar input dan 10 dolar output per juta token [1].

Bagaimana Sonnet 5 dibandingkan Opus 4.8 untuk agen?

Opus 4.8 mencatat SWE-bench Pro 69,2 persen dan Terminal-Bench 2.1 82,7 persen, di atas Sonnet 5 pada 63,2 persen dan 80,4 persen, dengan harga 5 dolar input dan 25 dolar output per juta token. Banyak tim menggabungkan keduanya, Sonnet 5 untuk tugas rutin dan Opus 4.8 untuk tugas tersulit [1].

Apakah Claude Sonnet 5 aman untuk produksi?

Anthropic mengirimkan classifier real-time bawaan yang mencegah teknik eksploitasi yang dilaporkan pada lebih dari 99 persen percobaan. Uji Mozilla pada Firefox 147 menunjukkan nol exploit berfungsi. Tim tetap perlu merancang alur debug agar permintaan benign tidak memicu rute aman ke Opus 4.8 [1].

Sumber

1. AI News, Anthropic deploys Claude Sonnet 5, Fable and Mythos restored. https://www.artificialintelligence-news.com/news/anthropic-deploys-claude-sonnet-5-fable-and-mythos-restored/
2. TechCrunch, Anthropic launches Claude Sonnet 5 as a cheaper way to run agents. https://techcrunch.com/2026/06/30/anthropic-launches-claude-sonnet-5-as-a-cheaper-way-to-run-agents/