Palona se torna vertical, lançando recursos Vision, Workflow: 4 lições principais para construtores de IA

Palona se torna vertical, lançando recursos Vision, Workflow: 4 lições principais para construtores de IA

Construindo uma empresa empresarial de IA em um "fundação de areia movediça" é o desafio central para os fundadores hoje, de acordo com a liderança da Palona AI.

Hoje, a startup sediada em Palo Alto – liderada por ex-veteranos em engenharia do Google e Meta – está dando um impulso vertical decisivo no espaço de restaurantes e hospitalidade com o lançamento de hoje do Palona Vision e do Palona Workflow.

As novas ofertas transformam o conjunto de agentes multimodais da empresa em um sistema operacional em tempo real para operações de restaurantes – abrangendo câmeras, chamadas, conversas e execução coordenada de tarefas.

A notícia marca um pivô estratégico desde a estreia da empresa no início de 2025, quando esta surgiu pela primeira vez com 10 milhões de dólares em financiamento inicial para construir agentes de vendas emocionalmente inteligentes para amplas empresas diretas ao consumidor.

Agora, ao restringir seu foco a um "nativo multimodal" abordagem para restaurantes, Palona está fornecendo um plano para os construtores de IA sobre como ir além "embalagens finas" para construir sistemas profundos que resolvam problemas mundiais físicos de alto risco.

“Você está construindo uma empresa sobre uma base que é areia – não areia movediça, mas areia movediça”, disse o cofundador e CTO Tim Howes, referindo-se à instabilidade do atual ecossistema LLM. “Portanto, construímos uma camada de orquestração que nos permite trocar modelos de desempenho, fluência e custo.”

VentureBeat conversou pessoalmente com Howes e com a cofundadora e CEO Maria Zhang recentemente em – onde mais? – um restaurante em Nova York sobre os desafios técnicos e as duras lições aprendidas com seu lançamento, crescimento e pivô.

A nova oferta: visão e fluxo de trabalho como um ‘GM digital’

Para o usuário final – o proprietário ou operador do restaurante – o último lançamento do Palona foi projetado para funcionar como um sistema automatizado "melhor gerente de operações" que nunca dorme.

A Palona Vision usa câmeras de segurança na loja para analisar sinais operacionais – como comprimento de filas, rotatividade de mesas, gargalos de preparação e limpeza – sem a necessidade de nenhum novo hardware.

Ele monitora métricas de atendimento, como comprimento de filas, giros de mesas e limpeza, ao mesmo tempo em que identifica problemas internos, como lentidão na preparação ou erros de configuração da estação.

O Palona Workflow complementa isso automatizando processos operacionais de várias etapas. Isso inclui o gerenciamento de pedidos de catering, listas de verificação de abertura e fechamento e atendimento de preparação de alimentos. Ao correlacionar sinais de vídeo do Vision com dados de ponto de venda (POS) e níveis de pessoal, o Workflow garante uma execução consistente em vários locais.

“Palona Vision é como dar a cada local um GM digital”, disse Shaz Khan, fundador da Tono Pizzeria + Cheesesteaks, em comunicado à imprensa fornecido à VentureBeat. “Ele sinaliza problemas antes que eles aumentem e me economiza horas todas as semanas.”

Indo para a vertical: lições de experiência em domínio

A jornada de Palona começou com um elenco repleto de estrelas. O CEO Zhang atuou anteriormente como vice-presidente de engenharia do Google e CTO do Tinder, enquanto o cofundador Howes é o co-inventor do LDAP e ex-CTO da Netscape.

Apesar desse pedigree, o primeiro ano da equipe foi uma lição sobre a necessidade de foco.

Inicialmente, Palona atendeu marcas de moda e eletrônicos, criando "mago" e "cara surfista" personalidades para lidar com vendas. No entanto, a equipe rapidamente percebeu que a indústria de restaurantes apresentava uma oportunidade única, de um trilhão de dólares, que estava "surpreendentemente à prova de recessão" mas "chocado" pela ineficiência operacional.

"Conselho para fundadores de startups: não se torne multissetorial," Zhang avisou.

Ao verticalizar, Palona deixou de ser uma "afinar" camada de bate-papo para construir um "pipeline de informações multissensoriais" que processa visão, voz e texto em conjunto.

Essa clareza de foco abriu o acesso a dados de treinamento proprietários (como manuais de preparação e transcrições de chamadas), evitando a coleta de dados genéricos.

1. Construindo na ‘Areia Mutável’

Para acomodar a realidade das implantações empresariais de IA em 2025 – com modelos novos e aprimorados sendo lançados quase semanalmente – Palona desenvolveu uma camada de orquestração com patente pendente.

Em vez de ser "empacotado" com um único provedor como OpenAI ou Google, a arquitetura de Palona permite que eles troquem modelos rapidamente com base no desempenho e no custo.

Eles usam uma combinação de modelos proprietários e de código aberto, incluindo Gemini para benchmarks de visão computacional e modelos de idiomas específicos para fluência em espanhol ou chinês.

Para os construtores, a mensagem é clara: nunca deixe que o valor central do seu produto seja a dependência de um único fornecedor.

2. Das palavras aos “modelos mundiais”

O lançamento do Palona Vision representa uma mudança da compreensão das palavras para a compreensão da realidade física de uma cozinha.

Enquanto muitos desenvolvedores lutam para unir APIs separadas, o novo modelo de visão de Palona transforma as câmeras existentes nas lojas em assistentes operacionais.

O sistema identifica "causa e efeito" em tempo real – reconhecendo se uma pizza está mal cozida por seu "bege claro" cor ou alertar um gerente se uma vitrine estiver vazia.

"Em palavras, a física não importa," Zhang explicou. "Mas na verdade eu deixo cair o telefone, ele sempre cai… queremos realmente entender o que está acontecendo nesse mundo dos restaurantes".

3. A solução ‘Muffin’: arquitetura de memória personalizada

Um dos obstáculos técnicos mais significativos que Palona enfrentou foi o gerenciamento de memória. No contexto de um restaurante, a memória é a diferença entre uma interação frustrante e uma "mágico" aquele em que o agente se lembra de um restaurante "habitual" ordem.

A equipe utilizou inicialmente uma ferramenta de código aberto não especificada, mas descobriu que ela produzia erros em 30% das vezes. "Acho que os desenvolvedores de consultoria sempre desligam a memória (em produtos de IA para consumidores), porque isso garantirá que tudo bagunçará," Zhang advertiu.

Para resolver isso, Palona construiu o Muffin, um sistema proprietário de gerenciamento de memória nomeado como uma homenagem à web "biscoitos". Ao contrário das abordagens padrão baseadas em vetores que lutam com dados estruturados, o Muffin é arquitetado para lidar com quatro camadas distintas:

  • Dados estruturados: fatos estáveis, como endereços de entrega ou informações sobre alergias.

  • Dimensões de mudança lenta: Preferências de fidelidade e itens favoritos.

  • Memórias transitórias e sazonais: Adaptação a mudanças como preferir bebidas frias em julho a chocolate quente no inverno.

  • Contexto Regional: Padrões como fusos horários ou preferências de idioma.

A lição para os construtores: se a melhor ferramenta disponível não for boa o suficiente para o seu setor específico, você deve estar disposto a construir a sua própria.

4. Confiabilidade através do ‘GRACE’

Numa cozinha, um erro de IA não é apenas um erro de digitação; é uma ordem desperdiçada ou um risco à segurança. Um incidente recente na Stefanina’s Pizzeria, no Missouri, onde uma IA alucinou negócios falsos durante um jantar agitado, destaca a rapidez com que a confiança na marca pode evaporar quando as salvaguardas estão ausentes.

Para evitar tal caos, os engenheiros de Palona seguem sua estrutura interna GRACE:

  • Guardrails: Limites rígidos ao comportamento do agente para evitar promoções não aprovadas.

  • Red Teaming: tentativas proativas de "quebrar" a IA e identificar possíveis gatilhos de alucinação.

  • App Sec: bloqueie APIs e integrações de terceiros com TLS, tokenização e sistemas de prevenção de ataques.

  • Conformidade: Baseie cada resposta em dados de menu verificados e examinados para garantir a precisão.

  • Escalação: encaminhar interações complexas para um gerente humano antes que um hóspede receba informações incorretas.

Essa confiabilidade é verificada por meio de simulação massiva. "Simulamos um milhão de maneiras de pedir pizza," Zhang disse, usando uma IA para atuar como cliente e outra para anotar o pedido, medindo a precisão para eliminar alucinações.

O resultado final

Com o lançamento do Vision and Workflow, Palona aposta que o futuro da IA ​​empresarial não está em assistentes amplos, mas em assistentes especializados "sistemas operacionais" que pode ver, ouvir e pensar dentro de um domínio específico.

Em contraste com os agentes de IA de uso geral, o sistema de Palona foi projetado para executar fluxos de trabalho de restaurantes, e não apenas responder a consultas – é capaz de lembrar os clientes, ouvi-los pedir seus pedidos. "habitual," e monitorar as operações do restaurante para garantir que eles entreguem a comida ao cliente de acordo com seus processos e diretrizes internas, sinalizando sempre que algo dá errado ou é crucial. sobre dar errado.

Para Zhang, o objetivo é permitir que os operadores humanos se concentrem em seu ofício: "Se você acertou aquela comida deliciosa… nós lhe diremos o que fazer."



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *