Manjaro 计划推出一个名为 Manjaro Data Donor (MDD) 的新工具,旨在通过更准确的用户数据和系统统计来优化 Linux 发行版。然而,每当涉及到数据收集的新工具时,总是不可避免地引发用户的隐私顾虑。那么,MDD 到底是什么?它为何推出?又将如何应对用户的隐私担忧?

为什么需要 MDD?

推出 MDD 的动机很明确:Manjaro 希望更好地了解用户数量,并收集硬件和软件环境数据。这些数据能帮助开发者更有针对性地进行系统优化。目前,Manjaro 主要通过向 ping.manjaro.org 发送简单的 ping 数据进行用户统计,但这种方式存在以下问题:

  • 数据不准确:由于只能基于 IP 地址统计,因此同一网络下的多台设备会被算作一个用户。
  • 隐私风险:尽管 IP 地址只是短暂存储,但收集它们本身就涉及隐私问题。
  • 不合适的工具:之前的统计是通过 Matomo 完成,Matomo 是一种网站分析工具,不完全适用于操作系统的遥测统计,因此复杂的设置让数据难以向开发者和社区开放。

为了解决这些问题,Manjaro 开发团队推出了 MDD,希望能以更透明和精准的方式进行数据收集。

MDD 的主要功能和工作原理

MDD 是一个由 Python 编写的脚本,可以通过简单的命令行安装:sudo pacman -S mdd。该工具利用了 inxi 来收集硬件信息,安装包的源代码在 GitHub 上开源,用户可以查看 MDD 的具体工作机制。MDD 会收集以下系统信息:

  • 系统基本信息:包括内核版本、设备类型、安装日期、产品名称、系列、厂商和主板型号。
  • 启动数据:是否通过 UEFI 启动,以及系统运行的时长。
  • CPU 信息:如 CPU 架构、型号、核心数和线程数。
  • 内存信息:总 RAM 和交换空间大小。
  • 图形信息:GPU 厂商、型号、显示器分辨率、刷新率等。
  • 音频信息:音频服务器(如 PulseAudio 或 PipeWire)及其状态。
  • 存储信息:根目录和主目录的分区大小、加密状态及是否安装有双系统。
  • 本地化信息:系统地区、语言和时区。
  • 软件包和更新状态:包括软件包总数、待更新软件包数、已安装的 Flatpaks 等。
  • 桌面环境:GUI 和 CLI 界面、窗口管理器及显示服务器(如 Wayland 或 X11)。
  • 设备和系统标识:经哈希处理的设备 ID,以及特定的 Manjaro 版本号。

对于隐私担忧的用户,MDD 提供了一种 “干运行”模式mdd --dry-run),用户可以预览即将发送的数据,而无需真正上传。此外,测试阶段的数据会存储在德国纽伦堡的 ClickHouse 数据库中,并且开发团队承诺测试结束后会删除所有测试数据。

未来计划与隐私争议

目前,MDD 尚处于测试阶段,用户需要自行安装,并手动决定是否提交数据。Manjaro 计划在测试成功后将 MDD 推广至所有系统,并通过 systemd 服务自动提交数据。然而,这一设计中的一个潜在问题在于:MDD 默认启用数据收集功能(opt-out),而非用户主动选择(opt-in)。这意味着,用户若不主动取消设置,系统将自动上传数据,这引发了隐私意识较强的用户的不满。

开发者解释称,这一策略可以让收集的数据更加全面,因为 opt-in 机制往往会导致数据样本严重偏差,无法充分了解所有用户的需求和使用环境。但许多 Linux 用户选择 Linux 的原因之一正是对隐私的重视,因此这一 opt-out 策略在社区中引起了不小的争议。

总结:透明与隐私的平衡

MDD 的推出显示了 Manjaro 开发团队希望提升系统的用户体验和适应性,同时也反映出他们在透明和隐私保护上的努力。然而,正如开发团队所承认的,数据收集始终是一个敏感话题。在不牺牲隐私的前提下平衡数据收集需求,是 Manjaro 面临的一大挑战。如果你愿意支持 Manjaro 的改进,开发团队欢迎用户试用 MDD 并反馈意见。有关 MDD 的更多信息可以在 Manjaro 的论坛上找到。

  • 数据贡献者:强调用户数据被用于系统改进的一种贡献行为,不强调整体的“捐赠”性质。
  • 数据采集器:明确指工具主要是采集数据,而非用户主动捐赠。
  • 数据提供工具:更中立的表述,强调这是一个帮助系统收集数据的工具。

如果想保持“捐赠者”的感觉,可以加上修饰词,进一步说明该工具是自动化的数据收集器,如 “数据自动捐赠工具”“数据贡献工具”。这能更清楚地传达出工具的自动采集特性,同时让用户意识到数据的“贡献”性质。

发表回复