Claude Opus 4.7: Catatan Jujur Setelah 1.500+ Sesi di Studio
Setelah dua minggu pakai intensif, ini catatan jujur Opus 4.7: lompatan benchmark coding yang nyata, tokenizer baru yang membuat tagihan naik, dan kapan migrasi dari 4.6 sepadan.
Minggu kedua kami pakai Claude Opus 4.7 secara intensif di studio. Sudah lewat 1.500 sesi, mulai dari memugar codebase Laravel berusia tiga tahun, sampai membantu menulis puluhan halaman pemasaran untuk produk klien. Tulisan ini saya buat sebagai developer yang turun langsung memakainya — bukan ringkasan siaran pers, bukan demo yang dipilih-pilih.
Kesimpulan singkatnya: ini peningkatan yang berarti, tapi tidak gratis. Bagian "tidak gratis"-nya itu yang paling sering terlewat di ulasan generik.
Kapan dan apa yang dirilis
Anthropic merilis Opus 4.7 pada 16 April 2026. Posisi resminya: model paling kuat yang tersedia umum, dengan harga API persis sama dengan Opus 4.6 — $5 / $25 per juta token untuk input dan output. Bisa langsung dipakai lewat Claude API, Amazon Bedrock, Vertex AI, dan Microsoft Foundry.
Yang menarik bukan harga tertulisnya, melainkan gabungan dari tiga hal:
- Lompatan angka benchmark coding yang nyata, bukan klaim 0,3% di angka sembarangan.
- Tokenizer baru yang membuat biaya per pekerjaan bisa naik, meski harga per token tidak berubah.
- Perubahan gaya bicara yang langsung terasa di pakai sehari-hari — lebih lugas, jauh lebih sedikit basa-basi.
Benchmark: yang penting buat developer
Saya ringkas saja. Ini angka resmi yang relevan untuk kerjaan kami:
- SWE-bench Verified: 80,8% → 87,6% (naik sekitar 7 poin dari 4.6)
- SWE-bench Pro: 53,4% → 64,3% (naik sekitar 10 poin)
- Penalaran multi-langkah agentic: ~14% lebih akurat, kesalahan tool berkurang sekitar sepertiga
- Jendela konteks: tetap 1 juta token, output maksimum 128k
- Input gambar: ukuran maksimum naik ke 2.576 px / 3,75 MP
- Tingkat berpikir baru: xhigh, posisinya di antara
highdanmax
SWE-bench itu benchmark yang menyuruh model menyelesaikan isu nyata dari repo open-source. Versi Pro-nya memakai pekerjaan yang lebih besar dan dirancang supaya susah dikelabui oleh model yang sekadar menghafal data latihan. Lompatan 10 poin di SWE-bench Pro yang paling relevan untuk kami — itu mendekati apa yang tiap hari kami suruh model kerjakan: memahami isi repo besar, melakukan perubahan multi-file, menjaga tes tetap hijau.
Vellum dan beberapa tim independen lain yang menerbitkan angka pembanding sampai tulisan ini dibuat melaporkan hasil yang konsisten dengan klaim Anthropic. Buat saya itu sinyal sehat — biasanya kalau benchmark resmi terlalu mengilap, ada pihak independen yang datanya beda jauh. Kali ini tidak.
Yang langsung terasa di pekerjaan
1. Refactor multi-file jadi sekali jalan, bukan ping-pong
Kami punya proyek e-commerce internal (sekitar 84.000 baris Laravel + Inertia + Vue 3) yang harus dimigrasi dari Spatie Permission v5 ke v6 dengan beberapa perubahan yang bertabrakan di middleware. Di Opus 4.6, pekerjaan seperti ini biasanya makan 3–5 putaran perbaikan — model salah sekali dua kali, kami balikin error-nya, ulang lagi.
Di 4.7, alurnya jauh lebih lurus. Untuk migrasi sejenis, rata-rata sekarang 1–2 putaran sudah ketemu. Bukan berarti modelnya tidak pernah salah — tapi kalau salah, salahnya lebih kecil cakupannya dan lebih jujur ("saya tidak yakin file X masih dipakai, tolong cek dulu") ketimbang mengarang perbaikan yang kedengaran meyakinkan tapi sebenarnya tebak-tebakan.
Ini cocok dengan klaim Anthropic soal "kesalahan tool berkurang sepertiga". Untuk alur kerja agentic yang panjang, selisihnya menumpuk. Pekerjaan yang dulu butuh 30 menit ping-pong sekarang sering selesai dalam 8–10 menit.
2. Konteks panjang yang akhirnya benar-benar dipakai
Jendela 1 juta token sudah ada sejak 4.6, tapi jujur kami jarang pakai sampai mendekati batasnya. Di 4.7, kemampuan mengambil informasi di tengah konteks panjang terasa jauh lebih konsisten. Saya coba muat seluruh codebase backend tartil.id (~310.000 token termasuk migrasi + tes) lalu minta jawaban detail soal aturan validasi di modul hafalan.
Hasilnya: model menyebut path file yang benar, baris yang relevan, dan menandai dua bug kecil yang kami sendiri belum sadari. Di 4.6, permintaan serupa kadang "lupa" file yang ada di tengah-tengah. Tidak setiap saat, tapi cukup sering bikin saya enggan pakai jendela penuh untuk pekerjaan kritis. Sekarang keraguan itu turun jauh.
3. Vision yang akhirnya praktis, bukan sekadar demo
Resolusi gambar maksimum naik ke 3,75 megapiksel. Buat kami yang sering menelaah tangkapan layar UI dari klien, bedanya nyata: teks kecil di mockup Figma akhirnya kebaca tanpa perlu dipotong-potong manual.
Salah satu pemakaian rutin di studio: tempel tangkapan layar panel Filament yang error, minta model menunjukkan apa yang salah. Di 4.6, kami sering harus memotong dulu supaya teks errornya kebaca. Di 4.7, tangkapan ukuran asli (2.560×1.440) langsung terbaca utuh — bahkan stack trace berhuruf 11 piksel.
4. xhigh: pilihan baru di antara high dan max
Anthropic menambahkan satu tingkat berpikir baru bernama xhigh, di antara high dan max. Buat kami ini sweet spot untuk kerjaan yang butuh pemikiran mendalam tapi tidak rela bayar latensi max.
Contoh konkret: meninjau arsitektur bug di laporan kerusakan salah satu produk kami. high kadang melewatkan race condition yang halus; max benar tapi tunggu 40 detik lebih. xhigh ketemu jawabannya dalam 18–22 detik dengan kualitas penalaran nyaris setara max. Untuk debugging interaktif, ini sangat membantu.
Sisi yang jujur harus disebut
Bagian ini yang sering terlewat di ulasan yang cuma mengulang siaran pers.
Tokenizer baru: tagihan bisa naik 5–35%
Anthropic mengganti tokenizer di Opus 4.7. Hasilnya: teks yang sama bisa menjadi lebih banyak token — antara 1,0x sampai sekitar 1,35x dibanding 4.6. Naik-turunnya tergantung jenis isi. Bahasa Indonesia yang berimbuhan banyak ("memperhitungkan", "ketidakpastian"), kode dengan nama variabel panjang, dan dokumen teknis berformat tabel — kategori yang paling sering naik.
Di beban kerja kami sendiri, rata-rata kenaikan token ~12% untuk pekerjaan coding berbahasa Inggris, dan ~22% untuk percakapan campur Bahasa Indonesia. Jadi meski harga per token sama, total tagihan bulanan kami naik sekitar 15–18% setelah pindah penuh ke 4.7.
Saran praktis: kalau Anda mengevaluasi 4.7 untuk produksi, jangan benchmark cuma dari satu contoh prompt. Hitung total konsumsi token sungguhan selama beberapa hari. Penghematan dari hasil yang lebih akurat (lebih sedikit percobaan ulang) bisa menutupi atau tidak menutupi kenaikan token — tergantung beban kerja Anda.
Gaya bicara berubah: lebih lugas, kadang sampai dingin
Opus 4.7 bicara lebih lugas. Lebih sedikit "Pertanyaan bagus!", lebih sedikit emoji, lebih sedikit kata pengaman yang sebenarnya kosong. Buat saya pribadi, ini fitur — saya tidak butuh model yang menyemangati saya, saya butuh jawaban yang benar.
Tapi tim non-developer di klien yang pakai Claude untuk merancang email atau membantu menulis naskah copywriting melaporkan rasa yang berbeda. Beberapa bilang modelnya "kurang ramah". Kalau Anda membangun produk yang langsung dipakai pengguna akhir di atas API, perubahan gaya bicara ini perlu diuji ulang dengan pengguna asli. Default 4.7 cocok untuk pengguna mahir, belum tentu cocok untuk semua audiens.
Memunculkan subagent lebih hemat
Di alur kerja agentic dengan delegasi tool, 4.7 cenderung lebih jarang memunculkan subagent baru dibanding 4.6. Niatnya bagus — banyak kasus di 4.6 yang memunculkan terlalu banyak subagent dan akhirnya menghabiskan token tanpa kemajuan.
Tapi efek sampingnya: kalau pekerjaan Anda memang butuh paralelisasi (misal cek 12 file independen), Anda mungkin perlu lebih eksplisit di prompt. Kami memperbarui sistem prompt internal untuk pekerjaan yang benar-benar paralel: "kerjakan langkah-langkah berikut dalam subagent paralel." Sebelumnya tidak perlu, sekarang perlu.
Migrasi 4.6 → 4.7: panduan ringkas dari kami
Untuk tim yang sudah menjalankan Opus 4.6 di produksi, urutan migrasi yang kami pakai:
- Hari 1–2: jalankan paralel di staging. Jalankan 4.6 dan 4.7 berdampingan di beban kerja yang sama. Kumpulkan log konsumsi token plus kualitas hasil.
- Hari 3–5: audit gaya bicara. Kalau produk Anda dipakai langsung pengguna akhir, lakukan uji A/B buta ke beberapa pengguna asli. Nada default 4.7 lebih dingin; perlu disesuaikan lewat system prompt.
- Minggu 1: tinjau prompt subagent. Alur kerja yang dulu memunculkan subagent otomatis mungkin perlu instruksi eksplisit di 4.7.
- Minggu 2: hitung ulang biaya. Jangan baca tagihan minggu pertama saja — rasio cache hit dan frekuensi percobaan ulang butuh waktu untuk stabil.
Untuk tim yang membangun agen coding — terutama yang tugasnya panjang, multi-file, butuh perencanaan — migrasi ini sepadan dengan jelas. Akurasi naik, percobaan ulang turun, kualitas perubahan lebih kecil cakupannya.
Untuk tim yang pakai LLM hanya untuk klasifikasi satu putaran atau ekstraksi pendek, lompatan 4.7 belum sepadan dengan biayanya. Sonnet 4.6 atau Haiku 4.5 masih pilihan yang lebih hemat untuk pekerjaan seperti itu.
Putusan: kapan kami pakai 4.7, kapan tidak
Setelah dua minggu pakai intensif, default kami sekarang:
- Agen coding multi-file, refactor, debugging: Opus 4.7 dengan
xhigh. Sweet spot performa-biaya. - Analisis konteks panjang (audit basis kode, dokumen panjang): Opus 4.7 dengan jendela penuh.
- Vision untuk meninjau UI: Opus 4.7. Resolusi tinggi terlalu praktis untuk balik ke 4.6.
- Klasifikasi cepat, autocomplete, perangkuman pendek: tetap Sonnet 4.6 atau Haiku 4.5.
- Konten yang langsung dipakai pengguna akhir dengan nada ramah: uji dulu, mungkin perlu menyesuaikan system prompt — atau tetap di 4.6 sampai umpan balik pengguna positif.
Opus 4.7 bukan revolusi. Ini iterasi yang tepat sasaran. Kalau Anda kerja di software development serius — agen coding, refactor besar, code review otomatis — 4.7 langsung berguna sejak hari pertama. Kalau beban kerja Anda sederhana, sabar dulu — naiknya kompleksitas tagihan tidak sebanding dengan pekerjaan yang sebenarnya tidak butuh model paling canggih.
Yang pasti: minggu kedua di 4.7, saya tidak ingin balik ke 4.6 untuk pekerjaan rumit. Itu standar saya untuk menyebut sebuah peningkatan model itu "nyata".
Catatan: angka konsumsi token dan latensi di tulisan ini berasal dari beban kerja internal KB Consulting selama 14 hari pertama Opus 4.7 tersedia. Hasil Anda mungkin berbeda tergantung jenis pekerjaan dan campuran bahasa. Sumber benchmark: Anthropic, Vellum, dan analisis independen Verdent.
Ditulis oleh Tim KB Consulting
Diskusi topik ini via WhatsApp