Microsoft połączył ChatGPT i Claude’a w jeden system, który w benchmarku pobił wszystkie dotychczasowe narzędzia badawcze oparte na jednym modelu. Microsoft wprowadził do Copilota dwa tryby wielomodelowe: Critique i Council, w których konkurencyjne modele AI nawzajem weryfikują swoją pracę, eliminując błędy. System Critique uzyska wynik 57,4 pkt w benchmarku DRACO, przewyższając samodzielne rozwiązania OpenAI, Google, […]

