A Apple está testando internamente um aplicativo no estilo do ChatGPT para treinar a próxima geração da Siri. O projeto, chamado Veritas, serve como um laboratório para que a assistente reconheça o que está na tela, edite imagens sob comando e mantenha memória de conversas. A meta inicial de lançar novidades em 2025 foi adiada: o novo pacote está agora planejado para março de 2026. Enquanto isso, a empresa negocia com OpenAI, Anthropic e Google o uso de modelos combinados ao seu próprio ecossistema.
A estratégia busca reduzir a distância para rivais que já levaram recursos de IA generativa ao celular. O Google integrou o Gemini ao Android. A Samsung embarcou funções de IA em câmeras, tradução e edição. A Siri, por sua vez, ainda depende de comandos mais rígidos e respostas curtas. Com o Veritas, a Apple quer colocar a assistente no centro das ações do iPhone, navegando entre apps e entendendo a tela com mais precisão.
(Imagem: Apple)
O que é o Veritas e qual o objetivo
Veritas é um aplicativo interno usado por times da Apple para treinar comportamento e recursos que a Siri deverá receber. Em vez de ser um produto para o público, ele funciona como um banco de testes. A ideia é simular pedidos reais, conectar tarefas do iPhone e avaliar onde o assistente erra, acerta e precisa de ajustes. Com isso, a empresa coleta sinais para calibrar modelos, desenhar fluxos e medir a experiência de ponta a ponta antes de embarcar as funções no sistema.
O software permitirá que a equipe valide pontos críticos: leitura precisa da tela, entendimento de imagens, edição de fotos sob comando, memória de preferências, e navegação entre apps sem que o usuário precise ditar cada passo. O Veritas também ajuda a mapear limites técnicos, como consumo de bateria, latência em redes móveis e compatibilidade com diferentes gerações de iPhone. O resultado esperado é uma Siri mais fluida, capaz de agir com base no contexto e de executar tarefas que hoje exigem toques manuais.
Cronograma: do plano de 2025 ao novo alvo em março de 2026
O pacote de novidades estava previsto para 2025, mas a Apple ajustou o roteiro e trabalha com março de 2026 como nova janela. O motivo envolve maturidade técnica e consistência. Recursos como leitura de tela e memória precisam funcionar de forma confiável em cenários variados, do app de mensagens ao navegador, sem surpreender o usuário com respostas lentas ou imprecisas. A troca de datas reduz o risco de um lançamento apressado e dá fôlego para fechar integrações pendentes.
Esse intervalo extra também permite organizar parcerias com fornecedores de modelos de linguagem, preparar servidores para picos de tráfego e refinar o que rodará no aparelho e o que dependerá da nuvem. Na prática, significa que a Siri deve evoluir por etapas até 2026, com testes controlados e entregas progressivas, enquanto funções mais ambiciosas chegam quando a infraestrutura estiver pronta.
Como a nova Siri pode agir na tela do usuário
O principal avanço é a capacidade de enxergar a tela e agir a partir dela. Se uma conversa no mensageiro mostra um endereço, a Siri deve sugerir abrir o mapa, traçar a rota e avisar o tempo estimado. Ao reconhecer um PDF no e-mail, pode resumir trechos, converter em nota e guardar um lembrete. Tudo sem que o usuário descreva passo a passo o que está vendo, reduzindo atrito e encurtando o caminho entre intenção e resultado.
Na edição de fotos, a assistente tende a entender instruções em linguagem natural, como “clareie o rosto”, “remova o reflexo” ou “recorte para quadrado”, aplicando ajustes com referências visuais. Em tarefas de produtividade, pode organizar compromissos que aparecem em conversas, extrair datas e contextos e propor eventos com convidados já preenchidos. A memória de preferências ajuda a manter consistência: se você costuma escolher um filtro específico ou um jeito de enviar arquivos, esse padrão passa a ser considerado em solicitações futuras.
Cenários práticos: do comando por voz ao resultado
Imagine a sequência “enviar as fotos do aniversário para a Ana com um texto simpático”. A Siri identifica as imagens mais recentes com pessoas classificadas como “Ana”, aplica pequenos retoques de luz se necessário, cria uma mensagem curta e abre a tela de envio já preparada, pedindo apenas a confirmação. Em segundo plano, o sistema considera seu histórico de linguagem, evita gírias que você não usa e seleciona o canal mais frequente para esse contato, como iMessage ou e-mail.
Outro exemplo é a organização de documentos. Ao abrir um boleto em PDF, um pedido como “pague esse documento na segunda-feira e me lembre às 9h” pode gerar um lembrete com vencimento, adicionar o atalho para o app do banco e deixar rascunhado o comprovante. A assistente cruza as informações do arquivo com dados de calendário e preferências, e ainda alerta sobre conflitos de horário antes de confirmar.
- Mensagens: captar datas e locais citados e oferecer criação de eventos ou rotas.
- Fotos: aplicar edições objetivas e organizar álbuns temáticos com base em instruções curtas.
- Navegação: abrir apps, preencher campos e avançar telas quando houver autorização explícita.
- Notas: resumir textos longos, destacar tópicos e criar listas de ação.
Modelos de linguagem: Apple, OpenAI, Anthropic e Google
A Apple conversa com diferentes fornecedores para combinar modelos de linguagem a tecnologias próprias. Em cenários sensíveis, como pedidos simples e dados pessoais, a preferência tende a ser rodar no aparelho, preservando velocidade e reduzindo exposição. Em tarefas mais pesadas, como raciocínios longos ou geração de imagens mais complexas, o sistema pode recorrer à nuvem e escolher o modelo mais adequado conforme o contexto.
Esse arranjo permite alternar entre motores sem que o usuário perceba a troca. Em uma mesma conversa, um trecho pode usar um modelo leve local para entender o comando, enquanto a etapa de planejamento depende de um serviço externo robusto. O Veritas ajuda a medir essa orquestração e a decidir quais fluxos ficam melhores em cada lugar. A curadoria serve para equilibrar custo, desempenho e precisão, evitando que tudo dependa de conexão ou que recursos fiquem limitados a aparelhos de última geração.
Leitura de tela e ações entre apps: o que muda na prática
Agir com base no que está na tela exige duas frentes técnicas. A primeira é entender a interface, identificando botões, campos de texto, imagens e estados. A segunda é transformar esse entendimento em ações confiáveis, como “tocar em comprar”, “rolar a página” ou “preencher com meu endereço”. O desafio é grande porque cada app organiza elementos de um jeito e atualiza telas com frequência. Um assistente eficaz precisa reconhecer padrões e se adaptar sem confundir componentes parecidos.
Para reduzir atritos, a Apple incentiva desenvolvedores a expor “intenções” de uso, facilitando a integração. Quando um app declara que tem a ação “criar lembrete” ou “compartilhar foto”, a assistente pode acionar a função diretamente, sem depender apenas do reconhecimento da interface. Com isso, tarefas comuns ficam mais estáveis, e a leitura de tela vira um complemento para situações em que não há atalho explícito.
Memória no assistente: alcance, limites e controle do usuário
A promessa de manter memória de conversas significa que a Siri lembrará preferências e detalhes úteis ao longo do tempo. Isso inclui padrões de escrita, contatos frequentes, horários mais usados para lembretes e modos comuns de editar fotos. O objetivo é evitar repetições e encurtar o caminho entre o pedido e a ação. A memória pode guardar que você chama “minha mãe” de “Dona Ana” e que prefere receber resumos no fim da tarde, ajustando o tom e o momento das notificações.
Ao mesmo tempo, o usuário precisa ter opções claras para revisar e apagar registros. Espera-se que a memória seja segmentada por tema e permita desligar tópicos, como “não guardar preferências de edição de foto” ou “limpar interações de calendário”. Controles visíveis evitam surpresas e ajudam a calibrar o quanto a assistente deve se lembrar para ser útil sem exageros. A meta é útil e previsível, não invasiva.
Bateria, processamento e conexão: onde o trabalho acontece
Rodar partes da IA no próprio aparelho tende a deixar comandos rápidos, já que não depende de ida e volta à internet para tarefas simples. Essa abordagem também funciona melhor em locais com sinal instável. A contrapartida é o consumo de energia e a exigência de chips capazes de acelerar modelos de linguagem e visão. Por isso, os recursos mais complexos tendem a ser liberados gradualmente conforme a Apple ajusta desempenho e define o mínimo de hardware recomendado.
Quando a tarefa exigir mais capacidade, a assistente deve recorrer à nuvem. Nesse cenário, a escolha do modelo considera custo, latência e precisão. Um pedido de resumo curto pode usar um motor leve. Uma análise longa de documento com gráficos pode escalar para um serviço mais robusto. O Veritas mede esses caminhos e ajuda a dividir o que compensa rodar localmente e o que deve ficar fora do aparelho, sem que o usuário se preocupe com detalhes técnicos.
Impacto para desenvolvedores: APIs, intenções e testes de qualidade
Para que a assistente navegue nos apps com segurança, os desenvolvedores precisam expor ações claras. Isso inclui declarar intenções de uso, oferecer atalhos bem definidos e rotular elementos da interface. Botões genéricos do tipo “OK” ou “Enviar” se beneficiam de descrições que indiquem o que acontece ao tocá-los. Assim, a Siri pode agir de maneira determinística, evitando equívocos quando vários botões semelhantes aparecem na mesma tela.
Outra frente é preparar respostas contextualizadas. Se um app de finanças recebe o comando “me mostre as despesas de agosto e exporte para planilha”, a melhor experiência é retornar filtros corretos, confirmar o período e oferecer a ação de exportar com um clique. Testes automatizados podem simular comandos por voz e verificar se o fluxo funciona após cada atualização do app. Isso reduz falhas e mantém a integração estável ao longo do tempo.
- Definir intenções claras (criar, listar, pesquisar, compartilhar) e parâmetros obrigatórios.
- Rotular elementos de interface de forma consistente para leitura de tela confiável.
- Criar respostas curtas e objetivas para confirmações de ação.
- Automatizar testes de voz e contexto para detectar regressões.
Comparativo com rivais: onde a Apple quer avançar
No Android, o Gemini já aparece em recursos nativos e se conecta a apps do Google. A Samsung adicionou ferramentas de edição de imagem, tradução e auxílio em notas e chamadas. Essas experiências mostram que o usuário espera resultados práticos e tempo de resposta baixo. A Apple mira justamente esse ponto: tornar a Siri uma ponte entre conteúdos que estão na tela e ações que economizam toques. O diferencial potencial é a integração profunda com o ecossistema do iPhone.
Se entregar leitura de tela confiável e memória útil, a Siri pode encurtar tarefas que hoje exigem várias etapas. Em fotos, por exemplo, rivais já oferecem recortes inteligentes e remoção de objetos com qualidade aceitável. O salto aqui é combinar a edição com mensagens, calendário e arquivos, de modo que uma única frase orquestre todo o fluxo. A disputa deixa de ser só sobre quem responde melhor e passa a ser sobre quem resolve mais com menos esforço.
Brasil: idioma, disponibilidade e o que esperar no lançamento
Para o público no Brasil, dois fatores pesam: suporte pleno ao português e liberação regional dos serviços em nuvem. Recursos locais, como ajustes de foto e ações simples na tela, tendem a chegar primeiro aos aparelhos compatíveis. Funções que dependem de servidores poderão ser ativadas por fases, conforme a Apple amplia a infraestrutura e valida padrões de uso em diferentes redes móveis e perfis de aparelho.
Em assistência por voz, variações de sotaque, gírias e expressões regionais exigem treinamento atento. A memória de preferências ajuda a refinar a experiência com o tempo, mas a base de reconhecimento precisa ser robusta desde o início para evitar frustrações. A recomendação é acompanhar as notas de atualização e verificar, em cada etapa, quais recursos ficam habilitados em português do Brasil e quais ainda dependem de expansão de cobertura.
Privacidade do usuário: transparência e escolhas dentro do sistema
Um assistente que lê a tela e lida com fotos, mensagens e documentos precisa de controles claros. O ideal é que o usuário consiga revisar, apagar e limitar informações a qualquer momento. Isso inclui histórico de comandos, memórias temáticas e permissões de leitura de tela. Chamadas à nuvem devem indicar quando ocorrem, em linguagem simples, e trazer justificativas coerentes com a tarefa solicitada.
No aparelho, configurações acessíveis ajudam a ligar e desligar recursos rapidamente. Em ambientes compartilhados, como em casa ou no trabalho, é útil ter modos que reduzam pré-visualizações e ocultem dados sensíveis. Controles desse tipo aumentam a confiança e encorajam o uso no dia a dia, já que o usuário sente que mantém o comando sobre as informações.
Como se preparar: dicas para usuários e empresas
Usuários podem começar com arrumações simples que fazem diferença quando a assistente ficar mais esperta. Nomear contatos de forma consistente, organizar álbuns de fotos e revisar permissões de apps cria um terreno fértil para comandos por voz. Atalhos que você já usa no iPhone tendem a se integrar à Siri de forma mais natural, então vale retomar os que facilitam tarefas repetitivas, como reduzir imagens para envio ou juntar documentos num único PDF.
Empresas podem mapear fluxos comuns que clientes tentam resolver por voz: rastrear pedidos, remarcar serviços, consultar faturas e abrir chamados. Ao declarar intenções claras e projetar respostas curtas, o aplicativo fica mais preparado para quando a assistente começar a orquestrar ações. Uma camada de testes automatizados com comandos típicos ajuda a manter a qualidade mesmo quando a interface muda.
- Usuários: padronize contatos e limpe duplicatas para melhorar identificações.
- Usuários: ative atalhos úteis (redimensionar fotos, converter arquivos, criar lembretes padrão).
- Empresas: exponha intenções de ações recorrentes (consultar, pagar, agendar).
- Empresas: crie respostas de confirmação curtas e objetivas para fluxos críticos.
Riscos e limites: precisão, custos e cobertura em fases
Modelos de linguagem podem errar. Quando há leitura de tela e ações automáticas, a margem de erro precisa ser mínima. Por isso, é provável que a Siri peça confirmações em tarefas com impacto real, como enviar mensagens, editar fotos originais ou marcar pagamentos. A transparência nos passos diminui surpresas e permite corrigir o rumo antes que algo seja concluído de forma equivocada.
Outro ponto é o custo de operação quando a nuvem entra em cena. Recursos avançados exigem infraestrutura, e a liberação pode acontecer por camadas, variando por região e aparelho. Ao mesmo tempo, manter partes do processamento no dispositivo ajuda a conter gastos e a estabilizar o tempo de resposta. O equilíbrio entre nuvem e local define a escala e o ritmo de expansão das novidades.
Perguntas rápidas: o que dá para esperar da nova Siri
Quais tarefas a assistente deve simplificar primeiro? Aquelas que juntam leitura de tela com ações de apps comuns, como mensagens, fotos, calendário e mapas. O ganho aparece quando a Siri entende o contexto, propõe o próximo passo e pede só a confirmação final. A experiência deve começar por cenários de alto uso e com baixa chance de erro, ampliando aos poucos para tarefas mais delicadas.
O que muda na fala com a Siri? Comandos tendem a ficar mais naturais e menos rígidos. Em vez de frases fixas, o usuário pode falar como preferir e confiar que a assistente vai entender a intenção. A memória ajuda a manter estilo e preferências. Já a confirmação de tarefas evita que ações importantes sejam executadas sem revisão.
- Leitura de tela para sugerir ações diretas.
- Edição de fotos com instruções simples.
- Memória de preferências para reduzir repetições.
- Confirmações nas etapas de risco.
Edição de imagens: o que a Siri pode fazer sob comando
Editar com voz é mais do que aplicar filtros. A Siri deve compreender o pedido e traduzir em ações visuais específicas. Pedidos como “remova a placa ao fundo”, “aumente a nitidez do texto” e “ajuste a temperatura para mais quente” exigem segmentação, detecção de objetos e ajustes finos. O usuário percebe valor quando a assistente executa o essencial de primeira e deixa os controles manuais à mão para refinar o resultado.
Para não comprometer o original, versões editadas podem ser salvas como cópias e agrupadas em um álbum temporário para revisão. Se o resultado agradar, o usuário mantém. Caso contrário, descarta de uma vez. Fluxos assim evitam retrabalho e mantêm o histórico organizado, importante para quem edita lotes de imagens e precisa selecionar rapidamente o que vai compartilhar.
Navegação por voz: do toque ao “faça para mim” com confirmação
Ao expandir o repertório de ações, a Siri deixa de ser apenas um atalho para abrir aplicativos e vira um operador de tarefas. O comando “responda que chego às 19h e adicione a rota” envolve ler a tela, entender o contexto, sugerir o texto e preparar o mapa. O “faça para mim” funciona quando cada passo é previsível. Por isso, confirmar antes de enviar ou de executar pagamentos é parte do desenho responsável do recurso.
Em cenários de múltiplas etapas, a assistente pode exibir uma prévia com os passos que pretende executar. O usuário aprova, edita ou cancela. Esse tipo de transparência sustenta a confiança no dia a dia e evita que a automação se torne uma caixa-preta. Assim, mesmo quando o fluxo envolve mais de um aplicativo, o controle permanece com quem está no comando por voz.
O papel do Veritas nos bastidores: medir, comparar e corrigir rotas
Veritas funciona como um campo de provas permanente. Nele, a Apple consegue comparar motores de linguagem, testar latência em diferentes redes e checar se a leitura de tela se mantém precisa após mudanças de interface. Também é ali que se avalia a taxa de erros por categoria, como edição de imagem, mensagens e calendário, priorizando correções que mais afetam a experiência do usuário.
O laboratório permite inserir variações de sotaque, ruído ambiente e termos regionais com controle. Isso ajuda a criar fluxos mais robustos para idiomas diversos, incluindo o português do Brasil. Ao refinar o comportamento em conjuntos de dados mais próximos do mundo real, a assistente chega ao usuário final com menos arestas e mais previsibilidade.
Linha do tempo: marcos esperados até 2026
Até março de 2026, a prioridade é consolidar a leitura de tela, a memória útil e as ações entre apps. Recursos que dependem da nuvem devem chegar por etapas, conforme a Apple amplia infraestrutura e fecha integrações. Testes com grupos limitados ajudam a medir estabilidade e entender onde o assistente ainda precisa melhorar. O caminho tende a alternar ajustes internos com liberações públicas graduais.
Conforme a base evolui, novas capacidades podem ser adicionadas ao longo do ciclo, como resumos mais contextuais e edições de imagem mais finas. A prioridade permanece em garantir que as ações comuns sejam rápidas e confiáveis. Com esse alicerce, comandos mais ambiciosos se tornam naturais, sem comprometer a experiência de quem depende do telefone para tarefas do dia a dia.
- Testes internos contínuos com o Veritas.
- Entrega gradual de funções locais com foco em estabilidade.
- Expansão por idioma e região conforme a infraestrutura de nuvem evolui.
- Refino de memória e redução de confirmações à medida que a precisão aumenta.
O que observar nos próximos meses
Vale acompanhar três sinais. Primeiro, o ritmo de testes públicos com recursos que leem a tela e sugerem ações. Segundo, a abertura de novas APIs para desenvolvedores declararem intenções e resultados. Terceiro, a comunicação sobre quais tarefas rodam no aparelho e quais dependem de conexão. Esses pontos indicam a maturidade do projeto e ajudam a entender quando a experiência estará pronta para uso amplo.
À medida que parceiros de modelo de linguagem forem confirmados, também será possível estimar quais tipos de tarefa ganham mais qualidade. Modelos com melhor compreensão de texto longo favorecem leitura e síntese de documentos. Motores ajustados para visão computacional tendem a melhorar edições de imagem e entendimento de interface. A combinação prática de ambos é o que transforma a Siri num agente útil dentro do telefone.
Dicas finais para tirar proveito quando a atualização chegar
Quando as novidades forem liberadas, vale começar por tarefas que já fazem parte do seu dia: responder mensagens, organizar reuniões e editar fotos do rolo recente. Teste comandos curtos e diretos, anote o que funcionou melhor e ajuste seu jeito de pedir. Se uma ação exigir confirmação, mantenha o hábito de revisar telas prévias. Esse ciclo de tentativa e correção é rápido e ajuda a assistente a entender seu padrão de uso.
Para quem usa o iPhone no trabalho, crie atalhos com passos bem definidos para tarefas repetidas e nomeie-os de forma clara. Isso facilita a vida da Siri quando precisar acionar essas rotinas. Se você compartilha o aparelho com a família, explore modos que reduzam pré-visualizações e protejam dados sensíveis. A experiência melhora quando o ambiente está preparado para receber comandos por voz sem fricção.
Última atualização em 6 de outubro de 2025