Manjaro 计划推出一个名为 Manjaro Data Donor (MDD) 的新工具,旨在通过更准确的用户数据和系统统计来优化 Linux 发行版。然而,每当涉及到数据收集的新工具时,总是不可避免地引发用户的隐私顾虑。那么,MDD 到底是什么?它为何推出?又将如何应对用户的隐私担忧?
为什么需要 MDD?
推出 MDD 的动机很明确:Manjaro 希望更好地了解用户数量,并收集硬件和软件环境数据。这些数据能帮助开发者更有针对性地进行系统优化。目前,Manjaro 主要通过向 ping.manjaro.org
发送简单的 ping 数据进行用户统计,但这种方式存在以下问题:
- 数据不准确:由于只能基于 IP 地址统计,因此同一网络下的多台设备会被算作一个用户。
- 隐私风险:尽管 IP 地址只是短暂存储,但收集它们本身就涉及隐私问题。
- 不合适的工具:之前的统计是通过 Matomo 完成,Matomo 是一种网站分析工具,不完全适用于操作系统的遥测统计,因此复杂的设置让数据难以向开发者和社区开放。
为了解决这些问题,Manjaro 开发团队推出了 MDD,希望能以更透明和精准的方式进行数据收集。
MDD 的主要功能和工作原理
MDD 是一个由 Python 编写的脚本,可以通过简单的命令行安装:sudo pacman -S mdd
。该工具利用了 inxi
来收集硬件信息,安装包的源代码在 GitHub 上开源,用户可以查看 MDD 的具体工作机制。MDD 会收集以下系统信息:
- 系统基本信息:包括内核版本、设备类型、安装日期、产品名称、系列、厂商和主板型号。
- 启动数据:是否通过 UEFI 启动,以及系统运行的时长。
- CPU 信息:如 CPU 架构、型号、核心数和线程数。
- 内存信息:总 RAM 和交换空间大小。
- 图形信息:GPU 厂商、型号、显示器分辨率、刷新率等。
- 音频信息:音频服务器(如 PulseAudio 或 PipeWire)及其状态。
- 存储信息:根目录和主目录的分区大小、加密状态及是否安装有双系统。
- 本地化信息:系统地区、语言和时区。
- 软件包和更新状态:包括软件包总数、待更新软件包数、已安装的 Flatpaks 等。
- 桌面环境:GUI 和 CLI 界面、窗口管理器及显示服务器(如 Wayland 或 X11)。
- 设备和系统标识:经哈希处理的设备 ID,以及特定的 Manjaro 版本号。
对于隐私担忧的用户,MDD 提供了一种 “干运行”模式(mdd --dry-run
),用户可以预览即将发送的数据,而无需真正上传。此外,测试阶段的数据会存储在德国纽伦堡的 ClickHouse 数据库中,并且开发团队承诺测试结束后会删除所有测试数据。
未来计划与隐私争议
目前,MDD 尚处于测试阶段,用户需要自行安装,并手动决定是否提交数据。Manjaro 计划在测试成功后将 MDD 推广至所有系统,并通过 systemd 服务自动提交数据。然而,这一设计中的一个潜在问题在于:MDD 默认启用数据收集功能(opt-out),而非用户主动选择(opt-in)。这意味着,用户若不主动取消设置,系统将自动上传数据,这引发了隐私意识较强的用户的不满。
开发者解释称,这一策略可以让收集的数据更加全面,因为 opt-in 机制往往会导致数据样本严重偏差,无法充分了解所有用户的需求和使用环境。但许多 Linux 用户选择 Linux 的原因之一正是对隐私的重视,因此这一 opt-out 策略在社区中引起了不小的争议。
总结:透明与隐私的平衡
MDD 的推出显示了 Manjaro 开发团队希望提升系统的用户体验和适应性,同时也反映出他们在透明和隐私保护上的努力。然而,正如开发团队所承认的,数据收集始终是一个敏感话题。在不牺牲隐私的前提下平衡数据收集需求,是 Manjaro 面临的一大挑战。如果你愿意支持 Manjaro 的改进,开发团队欢迎用户试用 MDD 并反馈意见。有关 MDD 的更多信息可以在 Manjaro 的论坛上找到。
- 数据贡献者:强调用户数据被用于系统改进的一种贡献行为,不强调整体的“捐赠”性质。
- 数据采集器:明确指工具主要是采集数据,而非用户主动捐赠。
- 数据提供工具:更中立的表述,强调这是一个帮助系统收集数据的工具。
如果想保持“捐赠者”的感觉,可以加上修饰词,进一步说明该工具是自动化的数据收集器,如 “数据自动捐赠工具” 或 “数据贡献工具”。这能更清楚地传达出工具的自动采集特性,同时让用户意识到数据的“贡献”性质。