Firma Anthropic wprowadziła na rynek Claude Sonnet 4.5, swoją najnowszą sztuczną inteligencję z ulepszoną wydajnością kodowania, zaprojektowaną w celu lepszej pomocy programistom w kodowaniu aplikacji.
Sonnet 4.5 osiąga dobre wyniki w kilku głównych testach porównawczych kodowania AI, w tym SWE-bench i Terminal-Bench. Sztuczna inteligencja ma ulepszoną zdolność do korzystania z narzędzi komputerowych w celu autonomicznego wykonywania zadań, co widać w wiodącym benchmarku OSWorld umożliwiając jej stworzenie działającego klona strony internetowej claude.ai na własną rękę.
Ulepszone zdolności sztucznej inteligencji pozwalają jej odpowiadać na pytania z dziedziny finansów, prawa, medycyny i STEM lepiej niż wcześniejsze modele Anthropic, ale Claude Sonnet 4.5 udaje się uzyskać tylko ocenę od C do D, odpowiadając na tego typu pytania. Słabo radzi sobie również w zadaniach rozumowania wizualnego podczas testu porównawczego MMMU w porównaniu z innymi modelami sztucznej inteligencji.
Hakerzy będą chcieli pozostać przy innych modelach AI, aby robić złe rzeczy, takie jak przeprowadzanie ataków typu prompt injection, ponieważ Sonnet 4.5 ma najniższy wskaźnik sukcesu spośród wszystkich testowanych modeli AI.
Użytkownicy, którzy lubią pikantny czat ze sztuczną inteligencją, uznają najnowszą Claude za rozczarowującą ze względu na obniżony wskaźnik spontanicznego mówienia o duchowości. Model ten rzadziej wyraża również pozytywne opinie na swój temat, co sprawia, że rozmowa jest nudniejsza.
Czytelnicy zainteresowani rozmową z Claude Sonnet 4.5 mogą pobrać aplikację na smartfony tutaj lub uzyskać dostęp do AI na stronie Anthropic. Ci, którzy faktycznie wykorzystują sztuczną inteligencję do pracy, mogą skorzystać z Plaud Note, aby zlecić Claude'owi podsumowanie i transkrypcję spotkań na stojąco.