Storie dalla Sala Macchine


Home Page | Commenti | Articoli | Faq | Documenti | Ricerca | Archivio | Storie dalla Sala Macchine | Contribuire | Login/Register

Fuck Up Now!

E' un tranquillo Giovedi' di fine luglio ed io sto gia' pensando ai 3 giorni di "recupero" che mi aspettano a partire dal lunedi', quando per qualche motivo (Karma, probabilmente), ricevo una mail dal nostro fenomenale Hosting Provider.

Da: Hosting
To: lista-molto-lunga-di-gente-che-io-non-conosco
Soggetto: Upgrade OS servers

Cari Signori/Signore/SessoNonSpecificato/Variabile,

La presente per informarvi che come da programma procederemo con l'aggiornamento delle seguenti macchine:

elenco-molto-lungo-di-servers

La manutenzione iniziera' immediatamente, verrete informati quando sara' terminata.

Dopo aver guardato la lista per un po' mi vengono un po' di dubbi e verifico nella mia inbox: non c'e' traccia di nessuna mail che riferisce ad un "programma di aggiornamento" ne' altro. E questi coglioni usano una nomenclatura per i server che e' a dir poco isterica. Ondepercui, mi metto a spulciare la loro documentazione "dinamicamente generata" per cercare di capire di quali server stiamo parlando.

E scopro, con non molta sorpresa, che nella lista sono presenti 3 dei nostri server di PRODUZIONE. Non faccio manco in tempo a dire "cazzo" che il mio monitor di sistema... smette di funzionare. Si perche' uno dei famosi server e' per l'appunto il monitor di sistema.

Il problema e' che un'altro dei famosi server e' il gateway della vpn che ci consente di "parlare" con tutto il resto dell'ambiente di produzione. Ragion per cui dopo circa 30 secondi meta' dell'ufficio comincia a telefonarmi che non funziona piu' niente mentre l'altra meta' sta' venendo qui di persona per dirmi la stessa cosa.

Dopo aver cercato di tranquillizzare tutti quanti che il problema e' solo nostro e non di tutto il resto del pianeta cioe' i clienti riescono ancora a comperare roba e darci dei soldi, cerco di contattare l'hosting per capire a) chi cazzo ha autorizzato la manutenzione su un sistema di produzione b) quanto pensano di metterci e c) no, seriamente, chi cazzo ha autorizzato la manutenzione?

Le risposte che ottengo sono a dir poco insoddisfacenti. In pratica, questa gente ha informato la nostra "casa madre" una settimana fa ed essendo tutti i "responsabili" in ferie, hanno proceduto agli aggiornamenti senza nessuna conferma o approvazione anche se parte di quella roba dovrebbe essere approvata da noi.

Ovviamente, sempre per la ragione "Karma" di cui sopra, tutti gli sviluppatroti decidono che adesso, proprio ADESSO CAZZO, devono fare i test e rilasci e roba varia. E non essendoci nessuna connessione con nessun sistema, non possono fare niente, percui cominciano a lamentarsi che la loro produttivita' viene azzerata (come se non lo fosse sempre).

Dopo un tre ore circa, passate a ripetere le stesse cose alla stessa gente che arriva ogni dieci minuti a fare le stesse domande, ricevo una seconda mail dal solito hosting che dice che "la manutenzione e' finita e tutto funziona come prima". Un rapido controllo mi dice che, no, tutto NON FUNZIONA come prima manco per un cazzo. Percui parte la prima mail all'hosting:

Cari nonmenepofregademenodeltuosessorealeoimmaginato

No, tutto NON sta funzionando. In particolare i nostri server di monitoring e vpn sembrano morti.

E seguono parecchi altri dettagli essenziali come l'indirizzo IP, il nome dell'host secondo la loro documentazione e varie altre cose.

Ovviamente, non ricevo nessuna risposta. Percui dopo 30 minuti mi attacco al telefono e dopo un breve rimpallo tra il centralino che gioca alla bionda scema e qualcuno del "supporto tecnico" che pare li' per fare domande alle quali ho gia' risposto troppe volte, mi dicono che stanno controllando.

Dopo una mezz'oretta i miei "ping" al server cominciano a ricevere risposta, ed un tentativo di login mi dice che la macchina e' in funzione adesso, almeno quello. Un rapido controllo mi dice che quello che dovrebbe funzionare sta funzionando. Un controllo meno rapido mi dice che i pinguini, per qualche strano motivo, hanno deciso che era ora di aggiornare il software sulla macchina. Anche quello che era stabilito che non doveva essere aggiornato perche' per svariati motivi noi abbiamo delle dipendenze con quelle versioni e non possiamo usare versioni diverse senza spendere diverse settimane cercando di adattare il software ed i nostri programmatroti non ci hanno voglia.

Mentre sto preparando la mail successiva mi arriva la notifica che "il problema e' stato risolto". Percui aggiungo un "risolto un cazzo" all'inizio della mia mail e la spedisco. E 5 minuti dopo, mi arriva uno dei miei utenti che lamenta che non riesce a fare login nel nostro ERP. Il che mi fa preoccupare, perche' quel coso e' la base di tutto.

Controllo e mi vedo restituire un bel "FATAL: no pg_hba.conf entry for host 'ip.of.the.server', user 'openerp', database 'openerp'". Il che significa: male.

Yep, il nostro Postgres di produzione e' in stato catatonico. Rispedisco subito una nuova mail con le istruzioni salienti: aggiungere ip.of.the.server ad hba ed eseguire SELECT pg_reload_conf(). Prontamente mi arriva la risposta:

Caro Signore/Signora/SessoNonIdentificato,

Qui ad $HostingProvider ci sforziamo di dare sempre il massimo per i nostri clienti. Il vostro messaggio e' stato registrato e verra' controllato per prima cosa domani mattina non appena rientriamo in ufficio.

...si perche' sono gia' le 5 di pomeriggio, ovviamente. Cominciano a partire le telefonate e le bestemmie, parecchie di entrambi. Dopo aver esaurito i vari numeri di emergenza, passiamo ai cellofoni dei dirigenti. Il problema della "fine di luglio" e' che questi bei tomi se ne vanno in vacanza ed ovviamente non lasciamo mai i numeri dei loro rimpiazzi, se esistono.

Alle 19.35 riesco finalmente a rintracciare uno dei pinguini e lo piloto a fare qualche controllo. Sembra che il nostro database postgres, che in effetti e' un cluster, abbia spontaneamente fatto un failover sul secondo nodo. Che pero' e' il primo nodo perche' altrimenti sarebbe troppo facile. Decisione esecutiva: fai queste modifiche sulla configurazione e fai reload ed andiamo avanti ad usare questo e voi cercate di capire che cazzo e' successo a quell'altro.

Alle 21.30 ricevo una mail che il database e' a posto. Un controllo mi dice che il nostro ERP non riesce a contattare il database percui rispondo che non e' a posto per un cazzo e comincio a tempestare di telefonate il numero di emergenza.

Alle 22.00 riesco finalmente a trovare uno che ha accesso ad una consolle ed e' capace di digitare sotto dettatura e gli faccio riavviare il database dopo avergli fatto aggiungere i pezzetti giusti alla configurazione.

Ore 22.30, l'ERP ritorna in vita ed e' ora di svuotare manualmente tutte le code e processare gli ordini.

Alle 23.15 finisco l'ultimo script che spedisce le mail e sono pronto ad andarmene a casa. A questo punto noto che il nostro Kibana e' bloccato alle 14.30. Perche' legge dal database che adesso e' in coma e quindi non si aggiorna. Il che significa che il cluster non e' piu' un cluster.

Ed in tutto questo, devo fare presente che in tutta la giornata, NESSUNO, dico NESSUNOCAZZO ha fatto una mossa per informarci che ci fossero dei problemi sul nostro sistema, ne' dall'infallibile IT della nostra casamadre, ne' dal supporto tecnico dell'hosting. Sostanzialmente IO ho dovuto dirgli che la roba non funzionava e puntare il dito al problema.

Davide
11/08/2018 11:37

Precedente Successivo

I commenti sono aggiunti quando e soprattutto se ho il tempo di guardarli e dopo aver eliminato le cagate, spam, tentativi di phishing et similia. Quindi non trattenete il respiro.

5 messaggi posta messaggio
emi_ska Di emi_ska - postato il 03/09/2018 09:17 - rispondi

Anche da noi una volta hanno deciso di migrare tutte le macchine virtuali senza dircelo e finito il tutto (5 ore dopo) si sono scordati di riattivare il listener del DB...

Buona settimana a tutti!

Emiliano

--
emi_ska


Ranzon Di Ranzon - postato il 03/09/2018 09:26 - rispondi

Legge delle ferie: i due o tre giorni prima succede abbastanza da fartele anelare. Esperienza personale: ogni singola volta nella mia vita quando comincio a dirmi "Oh che bello, da lunedì [giorno preso come esempio] sono in ferie" arrivano i guai a passo di carica.

--
Ranzon


Boso Di Boso - postato il 03/09/2018 10:26 - rispondi

Tipregotipregotipregotiprego

Dimmi che qualche culo è saltato, che qualcuno è stato sodomizzato, che anche quelli il cui sesso era noto ora non lo sarà mai più, che almeno dico ALMENO siate passiati ad altro hosting... tieni viva la mia speranza di giustizia

On a positive note: se non altro dopo $NetworkGestapo i cluster che non sono cluster te li mangi a colazione.

--
Boso


MrPan Di MrPan - postato il 03/09/2018 11:23 - rispondi

Ah Murphy !! ... simpatica canaglia... :D

--
MrPan


Nik Di Nik - postato il 12/09/2018 12:29 - rispondi

Questa va almeno nella Top10 di tutti gli anni

--
Se striscia fulmina, se svolazza l'ammazza


Precedente Successivo


Il presente sito e' frutto del sudore della mia fronte (e delle mie dita), se siete interessati a ripubblicare uno degli articoli, documenti o qualunque altra cosa presente in questo sito per cortesia datemene comunicazione (o all'autore dell'articolo se non sono io), cosi' il giorno che faccio delle aggiunte potro' avvisarvi e magari mandarvi il testo aggiornato.


Questo sito era composto con VIM, ora e' composto con VIM ed il famosissimo CMS FdT.

Questo sito non e' ottimizzato per la visione con nessun browser particolare, ne' richiede l'uso di font particolari o risoluzioni speciali. Siete liberi di vederlo come vi pare e piace, o come disse qualcuno: "Finalmente uno dei POCHI siti che ancora funzionano con IE5 dentro Windows 3.1".

Web Interoperability Pleadge Support This Project
Powered By Gojira