你在意过每天输入的网址是否区分大小写么?

letters.jpg

通常在浏览器地址栏输入的网址我们叫做URL(统一资源定位符:Universal Resource Locators)。先来看一个简单的URL: http://www.example.com/here/is/path/file.html 这个URL可以简单的描述为:使用HTTP协议去www.example.com所在的机器上读取文件file.html这个文件。当然这是简单的去理解,更详细的解析可以看这里。从这个描述中可以看到,一个URL会被分成三部分,形如:[协议]😕/[域名]/[路径]。

  • 协议:最常见的就是HTTP跟HTTPS,除了这个还有FTP文件传输协议等,这里是不区分大小写的
  • 域名:域名(Domain Name)是需要通过域名系统(DNS)成功解析才能够正常访问到对应的IP地址,域名的命名规则之一就是:在域名中不区分大小写
  • 路径:路径部分是否区分大小写,则要看该网址对应的后台是如何实现的

只有路径部分才是会区分大小写。每个网站都有后台的服务器,如果服务器只是单纯的采用路径映射到机器的文件系统中,那不同的操作系统平台是会有不同的区别的:

  • Linux:常见的是采用第三/四代扩展文件系统(ext3/4),在该文件系统下是需要区分大小写的
  • Mac OS X: 使用的HFS / HFS + / APFS(2016年发布的macOS Sierra开始)文件系统是不区分大小写
  • Windows:微软公司开发的NTFS也是不区分大小写的

对于我们最经常接触到应用服务器来说,访问一个路径并不是指向文件系统中的某一个文件,而是作为一个字符串传输给应用服务器进行解析处理。

我这里用了Koa来做一个简单的测试,在URL的路径中输入大小写会出现什么情况。

const Koa = require('koa')
const app = new Koa()
const router = require('koa-router')()
router  
  .get('/', (ctx, next) => { ctx.body = `root path: ${ctx.req.url}`  })
  .get('/lowercase', (ctx, next) => {   ctx.body = `lowercase path: ${ctx.req.url}`  })
  .get('/UPPERCASE', (ctx, next) => { ctx.body = `uppercase path: ${ctx.req.url}` })
app.use(router.routes())
app.listen(3000)

👆上面的六种情况可以我们可以看到,path并没有区分大小写。

当我在地址栏输入:https://www.zhihu.com/EXPLORE 并没有成功跳转,而是出现了一个404页面,这里又是什么原因呢?

我们还是以刚刚Koa的那个为例子来看。在例子中,使用了koa-router这个中间件来解析路由,koa-router里面有个match方法对path解析,而这个match方法主要是调用了path-to-regexp来生成进行解析,最终正则成功匹配对应的路由进行访问相对应的资源。

下面看看没有使用类似koa-router这样的中间件,会是怎样的效果。

app.use((ctx, next) => {
  const path = ctx.req.url
  if (path === '/lowercase') {
    ctx.body = 'success to request lowercase resource'
  } else if (path === '/UPPERCASE') {
    ctx.body = 'SUCCESS TO REQUEST UPPERCASE RESOURCE'
  } else {
    ctx.body = `success to visit: ${path}`
  }
})

可以看到如果自己对path进行处理的话,是可以自己控制是否大小写敏感的。实际的运用中,为了易用性考虑,尽量满足不区分大小写,这应该也是router-koa这类中间件设计成case insensitive的考虑之一呱(猜的...hah)。知乎传说用的是Python的Tornado,而Tornado的路由采用正则直接匹配解析的,所以,访问https://www.zhihu.com/EXPLORE不成功应该是正则解析没有做到大小写不敏感吧(又是猜的...)

那在微博或者其他平台里面经常看得到这样的URL:http://t.cn/Ri98Hke 这是又是怎么一个情况呢?

这种一般叫做短链接,既然都叫短链接了,自然是希望越短越好啦,然而实际的操作中我们会发现,太短满足不了日益增长的业务需求(然而并没增长)吖,那太长了也不符合实际吖,我微博只给你发140个字符,你一个链接都40个字符了。所以,大小写敏感的话会使得尽可能短又尽可能多这么变态的需求。以微博七位短链路径为例,一起来看看(数字:10个,大写字母:26个,小写字母:26个)

  • case insensitive: (10 + 26)^7 = 78,364,164,096
  • case sensitive: (10 + 26 + 26)^7 = 3,521,614,606,208

所以短链还是大小写敏感方便一些。

其实在早两天遇到这个小问题之前我还是一直以为URL是严格区分大小写的。我个人觉得如果api或者网页提供给我们使用的时候,还是应该遵从api的命名规则去使用,尽管是大小写不敏感。

源码地址:CNBlackJ/caseSensitive 首发知乎专栏