top of page
Blurry Forest

🧚  Express-Yourself before join the team

Please pick one you're interested in, and send me your solution or attempt.

Tokenization

对于一个文本序列X,现有的tokenization方法(分词方法)有很多种,比如byte-pair encoding、SentencePiece、jieba。以下面3个例子为例,展示不同tokenization方法对于X的不同结果;并用最简单的语言和方式展示不同tokenization方法的逻辑和你的计算过程。

X = "ABCDABCDBCDBCDDABCDEFEFBCDCDEFEF"

X = "面对三体、面对地球文明前所未有的危局,人类组建起庞大的太空舰队。同时行星防御理事会(PDC)利用三体人思维透明的特点,制定了面壁计划。"

X = "Around this time he also began to develop, and has since been considered a founder of, algorithmic complexity theory – often referred to as Kolmogorov complexity theory."

蛋白质序列中的
梯元分布

​选定5个物种,将它的所有蛋白序列取出(如果所有序列太多的话,只取一部分,但是总长度需大于1MB)。数据可以从这里查 https://www.uniprot.org/

用梯径计算出你取出的这些序列的梯元,然后画出梯元的数量分布(横坐标是梯元的长度,纵坐标是这些梯元的频率,log-log scale)。

这里面有一些问题需要注意和讨论:1. 找到梯元后,怎么去数它们出现的频率;2. 梯径分析中,每个梯元会对应一个重数,这个重数和频率会有什么关系。

Alumni & Visiting Students

32_edited.jpg

张泽成(生物学)

Daniel Hjerpe(应用数学)

唐绍华(系统分析与集成)

牛晓杰(教育技术学)🏡

蔡雅琪(智能科学与技术)

吴鑫霖(系统科学)

肖辉(系统科学)

汪显意(系统科学)

董佳欣(系统科学)

​刘冰宁(数学)​

朱应俊(统计学)
许卓莹(统计学)
阙林婕(数学)

彭韵茹(大数据&物理学)

Having Fun

bottom of page