Flipbook 深度评测:AI 像素流如何颠覆浏览器

点一下屏幕,整个世界就重新画一遍,这听起来像是科幻片里的交互方式。Flipbook 做到了,它不用 HTML、不用 CSS,甚至不写一行代码,直接用 AI 模型实时生成你看到的每一帧画面。前 OpenAI 工程师 Zain Shah 带着这个小团队项目,4 月上线的几天内就拿下了 550 万曝光。它到底是怎么绕过整个 Web 技术栈的?体验起来又是啥感觉?

产品概述

打开 Flipbook,你面对的不是一堆按钮和链接,而是一个对话框。输入”巴黎 7 天行程”,它不会像搜索引擎那样给你一堆条目,而是直接画出一张视觉页面:埃菲尔铁塔、塞纳河、卢浮宫,全都以手绘风格铺在屏幕上。点击铁塔,系统现场生成下一页,给你看塔的结构、历史和门票信息。

官网:https://flipbook.page/

Flipbook 深度评测:AI 像素流如何颠覆浏览器

整个体验像翻一本 AI 实时画出来的图册。它的核心理念很反常识:跳过 HTML、CSS、JavaScript 这些中间层,让 AI 模型直接输出屏幕像素。底层跑的是 Lightricks 开源的 LTX Video 模型,通过 WebSocket 推送 1080p 24fps 的视频流到你的浏览器。后端跑在 Modal 的 Serverless GPU 上,按需启动,用完即停。

这个项目由前 OpenAI 研究员 Zain Shah、Eddie Jiao 和 Drew O’Carr 三人发起,South Park Commons 提供支持。2026 年 4 月底上线后迅速刷屏,有人高呼”HTML 死了”,也有人冷静地指出这只是一个技术演示。两种声音都指向同一个结论:Flipbook 提出的方向,值得认真对待。

核心功能

AI 像素流渲染是 Flipbook 的技术基石。传统网页走的是”代码→渲染→像素”三层管线,Flipbook 直接砍成”意图→模型→像素”一条直线。屏幕上没有一个 DOM 元素,也没有任何 HTML 标签,所有文字和图形都是 AI 用画笔”画”出来的,包括那些看起来像按钮的东西。

无限点击探索才是真正让人上头的部分。你不受任何预定义链接的约束,屏幕上每一块区域都可能成为展开新内容的入口。点击旅行地图上的一片区域,系统会自动理解你的意图,生成对应地点的详细信息。导航栏会自动记录你的探索路径,随时可以回溯。

Flipbook 深度评测:AI 像素流如何颠覆浏览器

多模态输入让交互更灵活。除了文字,你还可以上传一张图片,让 Flipbook 基于你的图片生成后续的视觉探索。加上 Agentic 数据拉取能力,它能在生成图像的同时从网络获取实时信息,确保你看到的内容不是纯靠模型记忆瞎编的。

上手体验

我选了”芯片供应链”这个需要大量图解的话题来试。输入后等了大约 8 秒,第一张图出来了,全球化芯片制造的流程图,台积电、三星、高通的位置都标了出来。点击”台积电”那部分,画面切到台湾厂区的工艺节点分布图。再点”3nm”,一张更细的晶体管架构图解展开,旁边还附了能耗对比数据。

整个过程确实有在翻书的感觉,视觉信息的沉浸感比文字链接强太多。但也有些地方让人哭笑不得:某些按钮其实是画上去的像素,点击后系统不一定能准确理解你的意图。我试了三次才点到想看的细分页面,有时候点下去生成的内容跟我的预期完全对不上。

Flipbook 深度评测:AI 像素流如何颠覆浏览器

速度方面,每次交互大概需要 3 到 8 秒等待,这跟打开一个网页的毫秒级体验还有很大差距。而且 Flipbook 不会记住你的操作轨迹,不小心退回去就找不回来了。不过想想它背后做的事,理解图像、查询网络、实时推理、推回流媒体,这个延迟其实已经相当惊人。

使用技巧

用关键词构建探索路径。输入太笼统的短语(比如”历史”)会生成一堆没什么重点的画面。换成”圆明园复原对比”这种带场景和冲突感的句子,出来的图就有故事有层次。多试几个角度,找到那个能触发模型最佳表现的切口。

善用上传图片功能。如果你有一张跟主题相关的照片,先上传让模型理解视觉基调和风格,再在此基础上展开探索。这比纯文字输入更能保证初次生成的画面风格和你预期一致。

点击的技巧是”点到语义密集区”。模型理解的是画面元素,不是像素坐标。点一个人物、一个地标、一段文字区域,生成的下一帧会更准确。点天空、空白背景这种区域,系统经常不知道你想看什么,出来的内容就比较随机。

竞品对比

Flipbook 的赛道比较特殊,目前很难找到一个完全对等的竞品。它更像是把浏览器重构、AI 生成、知识探索三个方向揉在了一起。

对比维度 Flipbook 传统 Web 开发 Vercel v0(生成式 UI) Perplexity Comet(AI 浏览器)
界面生成方式 AI 直接生成像素 代码渲染为 DOM AI 生成代码→浏览器渲染 叠加在 Web 之上的 AI 层
交互自由度 任意像素可点击 预定义交互元素 代码级可编辑 对话式追问
开发成本 零代码,Prompt 驱动 需前端开发和维护 低代码,Prompt→代码 无需开发
延迟体验 3-8 秒/次交互 毫秒级 秒级 秒级
状态管理 无状态 有状态 有状态 有状态
适用场景 探索式阅读、教育 通用前端开发 快速原型设计 信息检索

一句话区分:生成式 UI 是”AI 帮你写代码”,Flipbook 是”AI 帮你画结果”。前者胜在可控可维护,后者胜在视觉自由度和沉浸感。

用户反馈

Flipbook 上线后效果堪比一颗核弹。X 平台上的相关帖子单日浏览量突破 200 万,整波传播累计 550 万曝光。评论区裂成两派:技术激进派高呼”HTML 的时代结束了”,实用派则吐槽”这东西连基本的文字排版都搞不定”。

来自教育领域的用户反馈说,用 Flipbook 来讲解历史事件和地理知识,学生的学习参与度明显提高,因为不是读文字,而是”走进一张画里探索”。AI 艺术创作者也觉得,这种无代码的视觉生成方式打开了新的创作空间。

另一边,建筑和电商从业者指出,Flipbook 目前的状态根本没法用在实际项目中。按钮是画出来的,用户怎么提交表单?搜索结果怎么保证准确?这些质疑并不算苛刻,Flipbook 自己也承认是个实验性原型,团队只有三个人,背后靠一堆 API 和开源模型拼搭,稳定性和准确性还很脆弱。

多维评分

评分维度 分数 说明
创新性 9.5/10 完全舍弃 HTML/CSS/JS,直接像素流生成,范式级创新
用户体验 6.0/10 界面沉浸感强,但 3-8 秒延迟和点击误判的交互成本太高
功能性 5.0/10 视觉探索单独拿出来体验不错,但无交互执行能力
稳定性 4.0/10 个人项目水准,多人访问时容易卡顿,边缘场景经常翻车
性价比 9.0/10 当前完全免费,零门槛上手,几乎没有使用成本
商业成熟度 3.0/10 实验原型,无商业模式,无 SLA,不适合生产使用

优缺点

优点

  • 范式级创新。Flipbook 走了一条跟所有人都不一样的路:不优化代码,而是跳过了代码。这种”像素流”替代”组件树”的架构,至少证明了另一个方向的可行性。
  • 视觉沉浸感极强。当你在一张 AI 画出来的图里点击探索时,那种沉浸感是文字链接没法比的,尤其是在地理、历史、科学这类视觉密集型主题上。
  • 零门槛上手。不需要注册,不需要账号,打开网站输个想法就开始玩。对于想体验未来交互的人来说,这是目前最低的试错成本。
  • 为探索式消费设计。传统的浏览器是为”完成任务”设计的,Flipbook 是为”发现内容”设计的。两种场景不同,Flipbook 在后者上确实更自然。

缺点

  • 延迟和准确性硬伤。每次交互 3 到 8 秒的等待、文字拼写错误、点击意图误判,这些问题在短期内很难彻底解决。
  • 无状态导致无法执行操作。不能搜索链接、不能交表单、不能收藏,它更像是”能看的画册”而不是”能用的浏览器”。
  • 商业成熟度几乎为零。没有收费模式也没有 SLA,背后依赖第三方 GPU 服务,一旦 Modal 调整策略,Flipbook 的体验会受到直接影响。
  • 可访问性和 SEO 问题。屏幕阅读器读不了像素,搜索引擎也抓不了图像内容,这决定了它在严肃场景下基本不可用。

适用人群

教育工作者和学生。Flipbook 在处理需要视觉解释的主题,地理、历史、科学,时表现出色,适合做课堂演示课件或自学探索工具。

产品经理和设计师。如果你正在做交互原型或视觉概念验证,用 Flipbook 快速生成一个可点击的视觉 demo 给团队看,比写 Figma 或前端代码快得多。

技术爱好者和前瞻研究者。关心下一代人机交互方向的从业者,Flipbook 绝对值得花半小时体验一下,它展示的可能就是五年后的界面形态。

普通内容消费者。如果你只是想来一场放松的视觉漫游,输入一个感兴趣的话题,像翻一本无限厚的画册一样随便看看。

定价方案

Flipbook 目前处于实验性原型阶段,完全免费,无需注册。打开官网 https://flipbook-page.com 就能直接用。没有免费额度限制,也没有付费套餐。

未来可能的收费方向:根据创始人回应,Flipbook 目前靠 Modal 赞助的 GPU 算力运行,每页生成成本大约在 $0.01-0.1 之间。如果项目要继续发展,大概率会引入类似 Credits 的按使用量计费模式,或者对标 Perplexity 的订阅制。

FAQ

Q1:Flipbook 免费吗?会不会后续收费?

A1:当前完全免费,无需注册。 未来大概率会引入付费模式,因为后端 GPU 算力成本不低,长期免费不太现实。


Q2:Flipbook 和传统浏览器有什么区别?

A2:核心区别是界面生成方式不同。 传统浏览器用 HTML/CSS/JS 渲染页面,Flipbook 用 AI 直接生成像素视频流,屏幕上没有任何代码结构。


Q3:Flipbook 需要用 GPU 跑吗?

A3:不需要用户跑。 所有计算在云端 Modal GPU 上完成,用户只需一个普通浏览器和稳定的网络连接。


Q4:支持中文输入吗?

A4:支持。 但中文产出的文字效果还不太行。


Q5:生成的图像可以用于商业项目吗?

A5:官方未明确说明版权归属。 目前是实验原型,建议在个人探索和学习场景下使用,商用前最好联系团队确认版权条款。


Q6:为什么 Flipbook 的交互延迟这么高?

A6:因为每次点击都要走完”视觉理解→意图推断→网络搜索→图像生成→流式推送”整个链路。 这比传统网页的请求-响应周期复杂得多,3-8 秒已属工程优化后的结果。


Q7:可以上传图片让 Flipbook 解析吗?

A7:可以。 Flipbook 支持图片上传作为输入,系统会基于上传的图片内容生成后续的视觉探索页面。


Q8:我的浏览器很卡,是电脑配置不够吗?

A8:大概率不是电脑问题。 Flipbook 是纯 Web 端体验,卡顿通常跟网络带宽或云端负载有关,多人访问时体验会下降。


Q9:Flipbook 团队有多大?

A9:目前是三人小团队。 由 Zain Shah(前 OpenAI)、Eddie Jiao 和 Drew O’Carr 组成,South Park Commons 提供支持,是个实验性项目而非商业化产品。


Q10:有没有和 Flipbook 类似的产品推荐?

A10:不完全对标。 如果想体验相似的视觉探索感,可以试试 Perplexity 的视觉搜索;如果想用 AI 生成可编辑界面,Vercel v0 更实用。


最后说两句

Flipbook 不是一个合格的产品,但它是一个极具诚意的技术声明。它回答了一个很少有人敢认真问的问题:如果我们可以直接生成像素,为什么还需要 HTML?虽然答案是”现阶段还不行”,但这个问题本身的价值,已经让 Flipbook 在互联网发展史上留下了自己的名字。

它的意义不在于替代谁,而在于提醒我们:当模型生成一张图已经能快过你读懂一篇文章时,Web 的形态也许真的到了该重新想象的时候。当然,如果 Flipbook 能把响应延迟再压进一秒以内,那就更好了。

AI工具

GLM-5.1 深度评测:全球第一的开源模型,到底强在哪

2026-5-6 15:05:31

AI工具

GPT-5.5 Instant 测评:最新模型到底怎么样?

2026-5-7 8:09:27

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧