Flipbook 深度评测：AI 像素流如何颠覆浏览器

点一下屏幕，整个世界就重新画一遍，这听起来像是科幻片里的交互方式。Flipbook 做到了，它不用 HTML、不用 CSS，甚至不写一行代码，直接用 AI 模型实时生成你看到的每一帧画面。前 OpenAI 工程师 Zain Shah 带着这个小团队项目，4 月上线的几天内就拿下了 550 万曝光。它到底是怎么绕过整个 Web 技术栈的？体验起来又是啥感觉？

产品概述

打开 Flipbook，你面对的不是一堆按钮和链接，而是一个对话框。输入”巴黎 7 天行程”，它不会像搜索引擎那样给你一堆条目，而是直接画出一张视觉页面：埃菲尔铁塔、塞纳河、卢浮宫，全都以手绘风格铺在屏幕上。点击铁塔，系统现场生成下一页，给你看塔的结构、历史和门票信息。

官网：https://flipbook.page/

Flipbook 深度评测：AI 像素流如何颠覆浏览器

整个体验像翻一本 AI 实时画出来的图册。它的核心理念很反常识：跳过 HTML、CSS、JavaScript 这些中间层，让 AI 模型直接输出屏幕像素。底层跑的是 Lightricks 开源的 LTX Video 模型，通过 WebSocket 推送 1080p 24fps 的视频流到你的浏览器。后端跑在 Modal 的 Serverless GPU 上，按需启动，用完即停。

这个项目由前 OpenAI 研究员 Zain Shah、Eddie Jiao 和 Drew O’Carr 三人发起，South Park Commons 提供支持。2026 年 4 月底上线后迅速刷屏，有人高呼”HTML 死了”，也有人冷静地指出这只是一个技术演示。两种声音都指向同一个结论：Flipbook 提出的方向，值得认真对待。

核心功能

AI 像素流渲染是 Flipbook 的技术基石。传统网页走的是”代码→渲染→像素”三层管线，Flipbook 直接砍成”意图→模型→像素”一条直线。屏幕上没有一个 DOM 元素，也没有任何 HTML 标签，所有文字和图形都是 AI 用画笔”画”出来的，包括那些看起来像按钮的东西。

无限点击探索才是真正让人上头的部分。你不受任何预定义链接的约束，屏幕上每一块区域都可能成为展开新内容的入口。点击旅行地图上的一片区域，系统会自动理解你的意图，生成对应地点的详细信息。导航栏会自动记录你的探索路径，随时可以回溯。

Flipbook 深度评测：AI 像素流如何颠覆浏览器

多模态输入让交互更灵活。除了文字，你还可以上传一张图片，让 Flipbook 基于你的图片生成后续的视觉探索。加上 Agentic 数据拉取能力，它能在生成图像的同时从网络获取实时信息，确保你看到的内容不是纯靠模型记忆瞎编的。

上手体验

我选了”芯片供应链”这个需要大量图解的话题来试。输入后等了大约 8 秒，第一张图出来了，全球化芯片制造的流程图，台积电、三星、高通的位置都标了出来。点击”台积电”那部分，画面切到台湾厂区的工艺节点分布图。再点”3nm”，一张更细的晶体管架构图解展开，旁边还附了能耗对比数据。

整个过程确实有在翻书的感觉，视觉信息的沉浸感比文字链接强太多。但也有些地方让人哭笑不得：某些按钮其实是画上去的像素，点击后系统不一定能准确理解你的意图。我试了三次才点到想看的细分页面，有时候点下去生成的内容跟我的预期完全对不上。

Flipbook 深度评测：AI 像素流如何颠覆浏览器

速度方面，每次交互大概需要 3 到 8 秒等待，这跟打开一个网页的毫秒级体验还有很大差距。而且 Flipbook 不会记住你的操作轨迹，不小心退回去就找不回来了。不过想想它背后做的事，理解图像、查询网络、实时推理、推回流媒体，这个延迟其实已经相当惊人。

使用技巧

用关键词构建探索路径。输入太笼统的短语（比如”历史”）会生成一堆没什么重点的画面。换成”圆明园复原对比”这种带场景和冲突感的句子，出来的图就有故事有层次。多试几个角度，找到那个能触发模型最佳表现的切口。

善用上传图片功能。如果你有一张跟主题相关的照片，先上传让模型理解视觉基调和风格，再在此基础上展开探索。这比纯文字输入更能保证初次生成的画面风格和你预期一致。

点击的技巧是”点到语义密集区”。模型理解的是画面元素，不是像素坐标。点一个人物、一个地标、一段文字区域，生成的下一帧会更准确。点天空、空白背景这种区域，系统经常不知道你想看什么，出来的内容就比较随机。

竞品对比

Flipbook 的赛道比较特殊，目前很难找到一个完全对等的竞品。它更像是把浏览器重构、AI 生成、知识探索三个方向揉在了一起。

对比维度	Flipbook	传统 Web 开发	Vercel v0（生成式 UI）	Perplexity Comet（AI 浏览器）
界面生成方式	AI 直接生成像素	代码渲染为 DOM	AI 生成代码→浏览器渲染	叠加在 Web 之上的 AI 层
交互自由度	任意像素可点击	预定义交互元素	代码级可编辑	对话式追问
开发成本	零代码，Prompt 驱动	需前端开发和维护	低代码，Prompt→代码	无需开发
延迟体验	3-8 秒/次交互	毫秒级	秒级	秒级
状态管理	无状态	有状态	有状态	有状态
适用场景	探索式阅读、教育	通用前端开发	快速原型设计	信息检索

一句话区分：生成式 UI 是”AI 帮你写代码”，Flipbook 是”AI 帮你画结果”。前者胜在可控可维护，后者胜在视觉自由度和沉浸感。

用户反馈

Flipbook 上线后效果堪比一颗核弹。X 平台上的相关帖子单日浏览量突破 200 万，整波传播累计 550 万曝光。评论区裂成两派：技术激进派高呼”HTML 的时代结束了”，实用派则吐槽”这东西连基本的文字排版都搞不定”。

来自教育领域的用户反馈说，用 Flipbook 来讲解历史事件和地理知识，学生的学习参与度明显提高，因为不是读文字，而是”走进一张画里探索”。AI 艺术创作者也觉得，这种无代码的视觉生成方式打开了新的创作空间。

另一边，建筑和电商从业者指出，Flipbook 目前的状态根本没法用在实际项目中。按钮是画出来的，用户怎么提交表单？搜索结果怎么保证准确？这些质疑并不算苛刻，Flipbook 自己也承认是个实验性原型，团队只有三个人，背后靠一堆 API 和开源模型拼搭，稳定性和准确性还很脆弱。

多维评分

评分维度	分数	说明
创新性	9.5/10	完全舍弃 HTML/CSS/JS，直接像素流生成，范式级创新
用户体验	6.0/10	界面沉浸感强，但 3-8 秒延迟和点击误判的交互成本太高
功能性	5.0/10	视觉探索单独拿出来体验不错，但无交互执行能力
稳定性	4.0/10	个人项目水准，多人访问时容易卡顿，边缘场景经常翻车
性价比	9.0/10	当前完全免费，零门槛上手，几乎没有使用成本
商业成熟度	3.0/10	实验原型，无商业模式，无 SLA，不适合生产使用

优缺点

优点

范式级创新。Flipbook 走了一条跟所有人都不一样的路：不优化代码，而是跳过了代码。这种”像素流”替代”组件树”的架构，至少证明了另一个方向的可行性。
视觉沉浸感极强。当你在一张 AI 画出来的图里点击探索时，那种沉浸感是文字链接没法比的，尤其是在地理、历史、科学这类视觉密集型主题上。
零门槛上手。不需要注册，不需要账号，打开网站输个想法就开始玩。对于想体验未来交互的人来说，这是目前最低的试错成本。
为探索式消费设计。传统的浏览器是为”完成任务”设计的，Flipbook 是为”发现内容”设计的。两种场景不同，Flipbook 在后者上确实更自然。

缺点

延迟和准确性硬伤。每次交互 3 到 8 秒的等待、文字拼写错误、点击意图误判，这些问题在短期内很难彻底解决。
无状态导致无法执行操作。不能搜索链接、不能交表单、不能收藏，它更像是”能看的画册”而不是”能用的浏览器”。
商业成熟度几乎为零。没有收费模式也没有 SLA，背后依赖第三方 GPU 服务，一旦 Modal 调整策略，Flipbook 的体验会受到直接影响。
可访问性和 SEO 问题。屏幕阅读器读不了像素，搜索引擎也抓不了图像内容，这决定了它在严肃场景下基本不可用。

适用人群

教育工作者和学生。Flipbook 在处理需要视觉解释的主题，地理、历史、科学，时表现出色，适合做课堂演示课件或自学探索工具。

产品经理和设计师。如果你正在做交互原型或视觉概念验证，用 Flipbook 快速生成一个可点击的视觉 demo 给团队看，比写 Figma 或前端代码快得多。

技术爱好者和前瞻研究者。关心下一代人机交互方向的从业者，Flipbook 绝对值得花半小时体验一下，它展示的可能就是五年后的界面形态。

普通内容消费者。如果你只是想来一场放松的视觉漫游，输入一个感兴趣的话题，像翻一本无限厚的画册一样随便看看。

定价方案

Flipbook 目前处于实验性原型阶段，完全免费，无需注册。打开官网 https://flipbook-page.com 就能直接用。没有免费额度限制，也没有付费套餐。

未来可能的收费方向：根据创始人回应，Flipbook 目前靠 Modal 赞助的 GPU 算力运行，每页生成成本大约在 $0.01-0.1 之间。如果项目要继续发展，大概率会引入类似 Credits 的按使用量计费模式，或者对标 Perplexity 的订阅制。

FAQ

Q1：Flipbook 免费吗？会不会后续收费？

A1：当前完全免费，无需注册。 未来大概率会引入付费模式，因为后端 GPU 算力成本不低，长期免费不太现实。

Q2：Flipbook 和传统浏览器有什么区别？

A2：核心区别是界面生成方式不同。 传统浏览器用 HTML/CSS/JS 渲染页面，Flipbook 用 AI 直接生成像素视频流，屏幕上没有任何代码结构。

Q3：Flipbook 需要用 GPU 跑吗？

A3：不需要用户跑。 所有计算在云端 Modal GPU 上完成，用户只需一个普通浏览器和稳定的网络连接。

Q4：支持中文输入吗？

A4：支持。 但中文产出的文字效果还不太行。

Q5：生成的图像可以用于商业项目吗？

A5：官方未明确说明版权归属。 目前是实验原型，建议在个人探索和学习场景下使用，商用前最好联系团队确认版权条款。

Q6：为什么 Flipbook 的交互延迟这么高？

A6：因为每次点击都要走完”视觉理解→意图推断→网络搜索→图像生成→流式推送”整个链路。 这比传统网页的请求-响应周期复杂得多，3-8 秒已属工程优化后的结果。

Q7：可以上传图片让 Flipbook 解析吗？

A7：可以。 Flipbook 支持图片上传作为输入，系统会基于上传的图片内容生成后续的视觉探索页面。

Q8：我的浏览器很卡，是电脑配置不够吗？

A8：大概率不是电脑问题。 Flipbook 是纯 Web 端体验，卡顿通常跟网络带宽或云端负载有关，多人访问时体验会下降。

Q9：Flipbook 团队有多大？

A9：目前是三人小团队。 由 Zain Shah（前 OpenAI）、Eddie Jiao 和 Drew O’Carr 组成，South Park Commons 提供支持，是个实验性项目而非商业化产品。

Q10：有没有和 Flipbook 类似的产品推荐？

A10：不完全对标。 如果想体验相似的视觉探索感，可以试试 Perplexity 的视觉搜索；如果想用 AI 生成可编辑界面，Vercel v0 更实用。

最后说两句

Flipbook 不是一个合格的产品，但它是一个极具诚意的技术声明。它回答了一个很少有人敢认真问的问题：如果我们可以直接生成像素，为什么还需要 HTML？虽然答案是”现阶段还不行”，但这个问题本身的价值，已经让 Flipbook 在互联网发展史上留下了自己的名字。

它的意义不在于替代谁，而在于提醒我们：当模型生成一张图已经能快过你读懂一篇文章时，Web 的形态也许真的到了该重新想象的时候。当然，如果 Flipbook 能把响应延迟再压进一秒以内，那就更好了。

{{userData.name}}已认证

Flipbook 深度评测：AI 像素流如何颠覆浏览器

产品概述

核心功能

上手体验

使用技巧

竞品对比

用户反馈

多维评分

优缺点

优点

缺点

适用人群

定价方案

FAQ

最后说两句

GLM-5.1 深度评测：全球第一的开源模型，到底强在哪

GPT-5.5 Instant 测评：最新模型到底怎么样？

guizang-ppt-skill：把”让 AI 做幻灯片”这件事重新想了一遍

豆包2.1 Pro 实测：国产大模型杀进”生产级”，编程和Agent这次是真的能打了

free-programming-books：最大的合法免费学习资源索引

刚刚，Hermes上线/learn 模式！从任何地方提炼任何Skill！

OpenClaw、WorkBuddy、Loop 工程：谁在火，谁有用，谁还在 Demo

freeCodeCamp：GitHub 全站第一，却几乎没人读过它的代码

一条 belt 命令：拆开 inference.sh 的 ai-video-generation Skill

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议

{{userData.name}}已认证

产品概述

核心功能

上手体验

使用技巧

竞品对比

用户反馈

多维评分

优缺点

优点

缺点

适用人群

定价方案

FAQ

最后说两句

GLM-5.1 深度评测：全球第一的开源模型，到底强在哪

GPT-5.5 Instant 测评：最新模型到底怎么样？

guizang-ppt-skill：把”让 AI 做幻灯片”这件事重新想了一遍

豆包2.1 Pro 实测：国产大模型杀进”生产级”，编程和Agent这次是真的能打了

free-programming-books：最大的合法免费学习资源索引

刚刚，Hermes上线/learn 模式！从任何地方提炼任何Skill！

OpenClaw、WorkBuddy、Loop 工程：谁在火，谁有用，谁还在 Demo

freeCodeCamp：GitHub 全站第一，却几乎没人读过它的代码

一条 belt 命令：拆开 inference.sh 的 ai-video-generation Skill

相似站点

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议