整理筆記:BGP

BGP,Border Gateway Protocol,邊界網關協議。是一種去中心化、自治、矢量的外部網關協議(EGP)。幾個月前,因興趣使然,決定瞭解一下。說是去瞭解——只不過是偶爾無事可做的時候用來消磨時間罷了。

就像 OSPF、RIP 等內部網關協議(IGP)一樣,BGP 中也有鄰居的存在,通常稱為 peer。但與 IGP 不同,IGP 通常通過廣播來發現鄰居。BGP 中的鄰居必須手動配置鄰居關係。每個 peer 都有自己的 ASN (Autonomous System Number),BGP 中通過 AS 與 peer 來形成鄰接關係。

BGP 有兩種。擁有不同 ASN 的 peer 形成鄰接關係後,會成為 eBGP(External BGP),而擁有相同 ASN 的 peer 則是 iBGP(Internal BGP)。

eBGP 用於在不同的 AS 中交換路由信息。每個 AS 只知道自己的 IP 前綴(如:45.76.204.0/23,代表 45.76.204.0 – 45.76.205.255,寫這篇文章時,它在互聯網上由 AS20473 廣播)。AS 知道怎麼路由到自己的前綴。 AS 通過與其它 AS 形成鄰接來獲取對方前綴的 nexthop。

BGP 是通過「廣播」來交換信息的。默認情況下,BGP 會廣播自己所知道的路由(包括從別的 peer 學習到的路由,nexthop 會變成自己)給所有的 peer。廣播信息中會有一個 AS_PATH 屬性,記錄著這個前綴經由的 AS。peer 不會接受 AS_PATH 內有自己的 AS 的路由,來防止回環。通過這樣的方法,組成了互聯網。

前面說到 eBGP 會把從別的 peer 學到的路由的 nexthop 改成自己。在 iBGP 中不會。這樣可能會廣播一個 iBGP peer 不可達的 nexthop 給 iBGP peer。這時通過 next-hop-self 可以將 nexthop 改成自己。

默認情況下,eBGP 的 TTL 只有 1。這意味著,若 eBGP peer 不是直接連接,則通信數據包會在抵達到下一跳時被丟棄(iBGP 則沒有限制)。通過 ebgp-multihop 可以增加 TTL。一般情況下這沒有用。因為經由的路由沒有和你或者對方 peer,peer 會將接受到的 prefix 的 nexthop 設為它接到數據包的前一跳(即經由路由)。而經由路由沒有與你 peer,他們不知道怎麼抵達你的前綴。

所以它並不是這麼用的。在多條鏈路的時候 ebgp-multihop 就有用了。假設你與 peer 有兩條條連線:

+-----------------+ +-----------------+
| AS1             | | AS2             |
| eth0: 10.0.0.1 ----- eth0: 10.0.0.2 |
| dummy0: 1.1.1.1 | | dummy0: 2.2.2.2 |
| eth1: 10.1.0.1 ----- eth1: 10.1.0.2 |
+-----------------+ +-----------------+

Routing table: 
| AS1                   | AS2                  |
| 2.2.2.2 via 10.0.0.2  | 1.1.1.1 via 10.0.0.1 |
| 2.2.2.2 via 10.1.0.2  | 1.1.1.1 via 10.1.0.1 |

Peer config AS1:
nei 2.2.2.2 remote-as 2
nei 2.2.2.2 ebgp-multihop 2
nei 2.2.2.2 update-source dummy0

Peer config AS2:
nei 1.1.1.1 remote-as 1
nei 1.1.1.1 ebgp-multihop 2
nei 1.1.1.1 update-source dummy0

通過這種方式,就能有兩條到 peer 的連線。即使其中一條斷開,也能保持鄰接關係。

與 ISP 的 BGP peer 通常有幾種:

– 「Single Homed」只有單一鏈路,只與一個 ISP 形成鄰居關係。
– 「Dual Homed」有多條鏈路,只與一個 ISP 形成鄰居關係。
– 「Single Multi-homed」與多個 ISP 形成鄰居關係,每個 ISP 只有一條鏈路。
– 「Dual Multihomed」與多個 ISP 形成鄰居關係,每個 ISP 有兩條鏈路。

通常,要抵達一個前綴會有多條路徑。BGP 通過幾種方法來確定選擇哪一條。每個 peer 都可以指定 Weight 屬性,Weight 最高者會被選中(例:Single Multi-homed 時選擇優先出口 ISP)。iBGP 可以指定 Local Preference 屬性。Local Preference 最高者會被作為出口(例:Dual Homed 時選擇優先出口)。若選擇進入自己 AS 的優先路徑,可以使用 Metric 屬性。Metric 最低的路徑會被作為進入 AS 的路徑(例:Dual Homed 時選擇優先入口)。

另外一種影響選路決策的方法是 Prepend。Prepend 就是字面意思,用於在 AS_PATH 前添加一串 AS_PATH。BGP 會優先選擇最短的 AS_PATH。所以,通過 prepend 加長 AS_PATH 可以避免 BGP 選擇這條路徑,而去選擇其它更短的路徑。

BGP 中的 Communities 是一個附加位,通常用於告知 peer 該如何對它的其它 peer 廣播你廣播給它的前綴。Communities 通常是你的 peer 預先配置的一系列規則。可能是 prepend,可能是設置 weight,等。例如 AS20473 提供了這些 Communities:

AS20473 tags prefixes that are learned or originated as follows:

Originated by 20473:                  20473:500
Customer prefix originated by 20473:  20473:540
Prefix learned from Transit:          20473:100
Prefix learned from Public Peer:      20473:200
Prefix learned from Private Peer:     20473:300
Prefix learned from Customer:         20473:400
Prefix learned from AS number:        20473:XXXX
Do not announce to specific AS:       64600:XXXX
Prepend 1x to specific AS:            64601:XXXX
Prepend 2x to specific AS:            64602:XXXX
...

BGP 里有種東西叫做 Route Reflector(RR)。可以想象成 OSPF 里的 Designated Router。RR 有三種角色。eBGP 鄰居,iBGP 成員(client)鄰居,與 iBGP 非成員鄰居。從 eBGP 鄰居,與 iBGP 成員鄰居學習到的前綴會廣播給所有的鄰居。而從 iBGP 非成員鄰居學來的前綴只會被廣播給 iBGP 成員鄰居與 eBGP 鄰居。通過 BGP Confederation 也能達成和 Route Reflector 類似的效果。由於這允許了 iBGP 成員間的前綴學習,可能導致回環,BGP 引入了 Originator 與 Cluster List 來避免回環。Originator ID 由 RR 成員自己設置,iBGP 會無視 Originator ID 是自己的路由。Cluster List 類似 AS Path,在多個不同的 RR 組互相連接時,廣播給其它 RR 組的 Cluster List 內會加上自己的 Router ID,若在 Cluster List 中看到自己的 Router ID,則不會接受。

BGP 另外一個很重要的部分就是 filter。不同的 bgpd/路由器 有不同的實現,甚至是不同的名字。但大致功能就是:設置出站/入站前綴的屬性,或者禁止某個前綴被廣播/被接受。比如,Multihomed 的時候你可能會成 Transit AS,如果你不是 ISP,可以通過禁止某個 AS 的前綴從你這裡出站來避免成為 Transit AS 而節省帶寬。前面說到的設置 Weight/MED 等,也都會用到 filter。

和 IP 一樣,ASN 也是由 IANA 分發給 RIR,個人/組織再向 RIR 申請的。但是,在僅與一家 ISP peer 的時候,並不一定需要自己的 ASN。ISP 可能會給你一個公共 ASN,或者使用私有 ASN 來 peer。私有 ASN 的範圍是 64512 – 65534 與 4200000000 – 4294967294。(16 位 ASN 與 32 位 ASN)私有 ASN 是不能出現在公共網絡上的。通過 remove-private-as,可以移除 AS PATH 里的私有 ASN(若 PATH 中包含公共 ASN,則不會起效)。

有時候會使用 MPLS VPN 來通過 ISP 連接兩處地理隔絕的網絡。如果它們的 AS 相同,BGP 會以為這是回環而拒絕接受前綴。這時候可以在用戶的邊界路由(CE)上做 allow-as-in,或者 ISP 的邊界路由(PE)上做 as-override。allow-as-in 會忽略 AS PATH 中的自己的 ASN。as-override 會將 CE 設備的 ASN 換成 PE 設備的 ASN,而避免 AS PATH 里出現 CE 設備的 ASN。

寫得很混亂,想到什麼寫什麼,純粹靠記憶,可能有錯誤之處。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *