Czy istnieje wyrażenie regularne dla sekwencji (teoretycznej) tryptic rozkładu protein? Zasada cięcia dla trypsyny jest po R lub K, ale nie przed P.Czy istnieje regularna ekspresja dla enzymatycznego cięcia?
przykład:
odcięcie sekwencji VGTKCCTKPESERMPCTEDYLSLILNR
należy prowadzić w tych sekwencjach (3 peptide s)
VGTK
CCTKPESER
MPCTEDYLSLILNR
Zauważ, że nie ma cięcia po K w drugim peptydzie (ponieważ P występuje po K).
W Perl (może to równie dobrze być w C# Python lub Ruby)
my $seq = 'VGTRCCTKPESERMPCTEDYLSLILNR';
my @peptides = split /someRegularExpression/, $seq;
I stosuje się to obejście (gdzie znacznik cięcia, =, jest po raz pierwszy wstawiane w sekwencji i ponownie usunięty, jeśli P jest natychmiast po ekspres do cięcia):
my $seq = 'VGTRCCTKPESERMPCTEDYLSLILNR';
$seq =~ s/([RK])/$1=/g; #Main cut rule.
$seq =~ s/=P/P/g; #The exception.
my @peptides = split(/=/, $seq);
Ale to wymaga modyfikacji łańcucha, które mogą być potencjalnie bardzo długo i nie może być miliony sekwencji. Czy istnieje sposób, w którym wyrażenie regularne może być używane z podziałem? Jeśli tak, jakie będzie wyrażenie regularne?
Platforma testowa: Windows XP 64-bitowy. ActivePerl 64-bitowy. Z perl -v: v5.10.0 zbudowany dla MSWin32-x64-multi-thread.
rozszczepienie ........ – user105033
@unknown: kontekst ... od http://en.wikipedia.org/wiki/Tryptic: „trypsyny są uważane za endopeptydazy, tj. cięcie zachodzi w obrębie łańcucha polipeptydowego, a nie w końcowych aminokwasach znajdujących się na końcach polipeptydów. " –
Prawdopodobnie najlepsze pytanie w historii. Ilu innych może pochwalić się kodem, nauką i seksualnymi wnioskami naraz, a jednocześnie jest całkowicie wiarygodne i odpowiedzialne? – shuckster