Failed to make requestVote results in vault server going down

kaihendry · November 16, 2022, 8:56am

Hey there,

We have an EKS cluster running across three AWS AZs.

Despite having a vault-server-{0,1,2} spread across AZs, we noticed if that a single node goes down, our Vault goes down and causes us a lot of problems!

"log": "2022-11-09T10:16:28.561Z [ERROR] storage.raft: failed to make requestVote RPC: target=\"{Voter vault-server-2 vault-server-2.vault-server-internal:8201}\" error=\"dial tcp: i/o timeout\"\n",

Perhaps we have a mis-configuration? How can we ensure our vault service works reliably even if one node goes down?

maxb · November 16, 2022, 9:02am

This one log line is not enough to understand the issue.

kaihendry · November 16, 2022, 9:35am

What do I need to provide to better help?

maxb · November 16, 2022, 10:30am

To start with:

What does “Vault goes down” mean? What are the actual observed symptoms?
Please show complete logs from whichever node is currently the leader, covering a period showing it going from working to not working, when another node goes down.

kaihendry · November 17, 2022, 2:50am

I create a query on my vault cw log which is exported by fluentbit from the EKS cluster. Tbh I’m not sure why it’s not JSON structured, though though here are the errors I see:

fields @timestamp, @message
| sort @timestamp desc
| filter @message like "ERROR"
| display log

gist.github.com

https://gist.github.com/kaihendry/e292cd7150881a23e538bd7449eac1b9

logs-insights-results.csv

log
"2022-11-17T02:21:53.739Z [ERROR] storage.raft: failed to appendEntries to: peer=""{Voter vault-server-1 vault-server-1.vault-server-internal:8201}"" error=""context deadline exceeded""
"
"2022-11-17T02:21:45.499Z [ERROR] storage.raft: failed to heartbeat to: peer=vault-server-1.vault-server-internal:8201 error=""context deadline exceeded""
"
"2022-11-17T02:21:43.022Z [ERROR] storage.raft: failed to appendEntries to: peer=""{Voter vault-server-1 vault-server-1.vault-server-internal:8201}"" error=""context deadline exceeded""
"
"2022-11-17T02:21:13.378Z [ERROR] storage.raft: failed to heartbeat to: peer=vault-server-1.vault-server-internal:8201 error=""context deadline exceeded""
"
"2022-11-17T02:21:12.203Z [ERROR] storage.raft: failed to appendEntries to: peer=""{Voter vault-server-1 vault-server-1.vault-server-internal:8201}"" error=""context deadline exceeded""

This file has been truncated. show original

Just to re-iterate, when the third node goes down I expect Vault to still work.

maxb · November 17, 2022, 9:44am

It looks like you’ve supplied intermingled logs from multiple Vault nodes. I can’t make sense of that.

Also you’ve filtered the logging to only include errors, potentially hiding important hints.

kaihendry · November 17, 2022, 11:53am

Ok, I’ll filter by one stream (the one that fails on the node, which causes the entire vault service to fail) and include all log levels.

fields @timestamp, @message
| sort @timestamp desc
| filter @logStream="vault-server-2"
| display log

gist.github.com

https://gist.github.com/kaihendry/0291dc7d8d2c5e6aae3c3477b043ccff

logs-insights-results (1).csv

log
"2022-11-17T10:08:57.313Z [ERROR] storage.raft.raft-net: failed to decode incoming command: error=""read tcp 10.163.132.142:8201->10.163.131.139:48286: read: connection timed out""
"
"2022-11-17T10:06:26.348Z [WARN]  storage.raft: rejecting vote request since we have a leader: from=vault-server-0.vault-server-internal:8201 leader=vault-server-1.vault-server-internal:8201
"
"2022-11-17T10:05:28.677Z [ERROR] storage.raft.raft-net: failed to decode incoming command: error=""read tcp 10.163.132.142:8201->10.163.129.13:49852: read: connection timed out""
"
"2022-11-17T10:05:28.417Z [ERROR] storage.raft.raft-net: failed to decode incoming command: error=""read tcp 10.163.132.142:8201->10.163.129.13:49882: read: connection timed out""
"
"2022-11-17T10:04:53.921Z [ERROR] storage.raft: failed to make requestVote RPC: target=""{Voter vault-server-0 vault-server-0.vault-server-internal:8201}"" error=""context deadline exceeded""

This file has been truncated. show original

Thank you for taking a look @maxb !

maxb · November 18, 2022, 11:21pm

Interesting. Unfortunately I don’t know much about AWS, EKS and AZs to know how it’s supposed to work, but …

This message is repeated well over 100 times throughout the log:

[ERROR] storage.raft: failed to appendEntries to: peer=""{Voter vault-server-0 vault-server-0.vault-server-internal:8201}"" error=""dial tcp: lookup vault-server-0.vault-server-internal on 172.20.0.10:53: no such host""

That seems very wrong to me … if the pod had just gone down and was restarting, it ought to have come back pretty quickly, but instead Kubernetes is effectively claiming there’s no such pod for an extended period of time.

And meanwhile, there’s also a large number of:

[ERROR] storage.raft: failed to make requestVote RPC: target=""{Voter vault-server-1 vault-server-1.vault-server-internal:8201}"" error=""context deadline exceeded""

Which to me hints at there being network issues reaching the vault-server-1 pod or it being somehow under so much load that it can’t even respond to incoming network connections in a timely fashion.

kaihendry · November 24, 2022, 3:07am

A Raft cluster of 3 nodes can tolerate a single node failure

According to Integrated Storage | Vault | HashiCorp Developer

But in my case it doesn’t appear to…

maxb · November 24, 2022, 3:48am

Something is wrong with your setup. I’ve already made my best guess based on the logs shown so far:

Maybe you should try moving all the nodes to one AZ, to confirm or eliminate inter-AZ networking in this environment being flaky.

Topic		Replies	Views
Vault operator step down unable to elect a leader Vault k8s , raft , vault	0	38	April 24, 2025
2-node vault cluster APIs unresponsive after killing follower node Vault	2	611	July 26, 2023
Understanding node IP changes for a raft cluster Vault	1	246	August 3, 2023
URL: PUT https://vault-0.vault-internal:8200/v1/sys/storage/raft/bootstrap/challenge Code: 503. Errors: Vault k8s	1	639	October 19, 2023
Agent.server.raft: failed to make requestVote RPC Consul k8s	2	2430	September 24, 2021

Failed to make requestVote results in vault server going down

Related topics