knowledge_record

机器学习

  • Machine_Learning
    • ensemble
      • bagging和boost
      • Bagging和Boosting的区别
      • bagging减少方差,boosting是减少偏差
      • stacking
      • GBDT
      • GBDT和随机森林异同
      • AdaBoost算法缺点
      • Xgboost 为什么用二阶泰勒展开
      • XGBoost与GBDT有什么不同
      • XGBoost处理缺失值
      • 决策树与这些算法框架进行结合所得到的新的算法:
      • xgboost判断特征重要程度的三种指标
      • lightGBM
      • lightGBM与XGboost对比
      • lightgbm哪些方面做了并行
    • 有监督机器学习算法
      • liner regression 线性回归
        • 岭回归和Lasso的区别
        • liner regression 矩阵解
      • Logistics regression
        • 逻辑回归的假设
        • 为什么LR要用sigmoid
        • 分类为什么用CE而不是MSE
      • SVM
      • KNN
      • 朴素贝叶斯(Naive Bayes)
      • 决策树
        • 信息增益
        • 信息增益率
        • 决策树的剪枝
        • 基尼系数
        • 分类树和回归树的区别
      • 随机森林
        • 随机森林随机性
        • 随机森林需要剪枝吗
        • 为什么要有放回的抽样
        • 影响性能因素
    • 聚类
      • 资料
      • 聚类的种类
      • Kmeans
        • K-Means聚类的优点:
        • K-Means聚类的缺点:
        • K值的选取
        • K-Means聚类变体
      • GMM EM
      • DBSCAN
      • AGNES聚类
      • sequential leader clustering
      • 聚类的衡量
    • 其他常见问题
      • 如何解决机器学习中样本不均衡问题?
      • 数据挖掘中常见的「异常检测」算法有哪些?
      • 上采用 & 下采样
      • 几种距离度量方法比较
      • 周期性特征的编码问题
      • 启发式算法
      • 生成式和判别式 算法
      • L0 L1 L2 正则化
        • L1 和 L2 正则的区别是什么
      • Normalization & Standardization
      • PCA
      • LDA(Linear Discriminant Analysis) 线性判别分析
      • LDA(Latent Dirichlet Allocation) 隐含狄利克雷分布
      • 参数稀疏有什么好处
      • Rank Averaging
      • 有哪些常见的 Feature engineering 特征工程的方法
        • 异常值处理 Outlier Handling
        • 数值特征处理、类别特征处理 Numerical and Categorical Feature Engineering
        • 特征构造 Feature Construction
        • 降维 Dimensionality Reduction
      • 数据清洗
        • 解决数据质量问题
        • 让数据更适合做挖掘或展示
      • 特征过多/维度灾难/解决方案
        • 解决方案
      • 特征选择
      • 最大似然/最小二乘
      • 为什么先划分训练集和测试集后归一化
      • 进程与线程
    • 概率论
      • 概率论中的常见分布类型
      • 中心极限定理
      • 大数定律
      • 投骰子连续两次是6就停止,求投掷的次数的期望
      • 投硬币连续两次是正面就停止,求投掷的次数的期望
      • 抛硬币直到出现连续N次正面为止的期望

CV

  • CV
    • 一些深度学习基础知识点
      • 全连接层
      • 白化(Whitening)
        • PCA白化
        • ZCA白化
        • PCA白化和ZCA白化的异同
        • 正则化
      • Dropout
        • dropout 在训练和测试时候的差异
      • batch normalize BN
        • BN训练和测试时的参数是一样的嘛?
        • BN训练时为什么不用全量训练集的均值和方差呢?
        • BN层具体过程、反向传播、求导
        • BN解决过拟合
      • BN和Dropout 共同使用
      • pooling池化
        • max pooling和average pooling
        • Global average pooling
        • AdaptiveAvgPool1d
      • Padding
      • 嵌入层 Embedding
      • 激活函数
      • 损失函数
        • 有哪些损失函数
        • pytorch中有哪些损失函数
      • 熵,交叉熵,KL散度
        • KL散度(相对熵)
        • KL散度和交叉熵的对比
      • 关于softmax细节
      • focal loss
      • 过拟合
      • 如何判断过拟合还是欠拟合
      • 陷入局部最优解
      • 优化
      • CNN参数计算
      • Inception
      • 1x1卷积核的作用
      • 一维卷积尺寸选取
      • Accuracy、Precision、Recall、AUC F1 等分类问题评价指标
      • MSE、RMSE、MAE、R2 等回归问题评价指标
        • MSE(Mean Squared Error)均方误差
        • RMSE(Root Mean Squard Error)均方根误差
        • MAE(Mean Absolute Error)平均绝对误差
        • R2(R-Square)决定系数
      • 如何评估一个模型的好坏
      • 初始化
      • 反向传播的推导
      • 池化层如何反向传播
      • loss下降不下降的问题
      • 梯度爆炸 梯度消失
    • CV的一些知识
      • 各类模型
      • HighwayNetworks

NLP

  • NLP
    • 实用网站备份
    • 项目涉及
      • (NLP)语义分析–文本分类、情感分析、意图识别
      • 模型压缩
      • 知识蒸馏
      • fastbert
      • elasticsearch(es)/倒排索引
      • 召回
      • 匹配
      • pointwise、pairwise、listwise
      • ernie
      • albert
      • RoBERTa
      • 解释我们的NSP:next sentence prediction
      • SOP
      • focal_loss 和 label_smoothing
    • 基础知识
      • word2vec
        • Negative Sampling负采样
        • hierarchical softmax层次softmax
      • bag_of_word
      • n-gram
      • fasttext
      • glove
      • ELMO双向
      • 细粒度分类
      • transformer-XL
      • XLNet
      • nlp中的数据增强
      • skip-thought
      • TextCNN
      • 句子的向量表示方法 / sentence2vec
      • 文本的向量表示方法
        • 词袋法
        • n-gram词袋模型
        • 向量空间模型
        • 特征权重计算
      • 文本相似度的计算方法
      • 分词
        • 1)基于字符串匹配的分词方法:
        • 2)基于理解的分词方法:
        • 3)基于统计的分词方法:
        • 4)英文分词技术:
    • RNN及其变体LSTM等
      • seq2seq
      • 一维卷积CNN和RNN
      • 序列预测问题,CNN、RNN各有什么优势
      • CNN和RNN中梯度消失的区别
      • GRU LSTM BRNN
      • LSTM简要介绍
      • RNN LSTM 参数量
      • LSTM 和 Transformer 复杂度对比
      • LSTM处理长序列的方法
    • attention
      • 不错的资料
      • 直观的解释
      • 为什么要引入Attention机制
      • 手写
      • attention的一个通用定义
      • 变体
    • bert
      • 一些学习资料
      • 模型结构
      • embedding
      • bert模型中的[CLS]、[UNK]、[SEP]是什么意思?
      • BERT模型的预训练任务
      • 为什么Bert的三个Embedding可以进行相加?
      • BERT为何使用学习的position embedding而非正弦position encoding
      • GPT 与 BERT 的区别是什么
      • bert里面的 intermediate layer
      • 变种:BERT-wwm、BERT-wwm-ext、RoBERTa、SpanBERT、ERNIE2
        • BERT-wwm
        • BERT-wwm-ext
        • RoBERTa
        • SpanBERT
        • ERNIE2
      • word2vec到bert的的区别
      • bert 论文里读的
        • 模型参数
        • MASK
        • NSP
    • transformer
      • 一些学习资料
      • Q,K,V
      • Transformer为何使用多头注意力机制?(为什么不使用一个头)
      • Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
      • Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?
      • 为什么在进行softmax之前需要对attention进行scaled(为什么除以dk的平方根),并使用公式推导进行讲解
      • 在计算attention score的时候如何对padding做mask操作?
      • Transformer的Encoder模块
      • 简单描述一下Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?
      • Encoder端和Decoder端是如何进行交互的?(在这里可以问一下关于seq2seq的attention知识)
      • Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?(为什么需要decoder自注意力需要进行 sequence mask)
      • Transformer训练的时候学习率是如何设定的?Dropout是如何设定的,位置在哪里?Dropout 在测试的需要有什么需要注意的吗?
      • self-attention的优点
      • 关于并行计算
      • 前馈网络和BP神经网络
      • batch norm & layer norm
      • transformers 中的 tokenizers是什么
      • warmup
    • CRF 条件随机场
      • 一些资料
      • 生成式判别式
      • HMM
      • CRF
      • HMM、CRF、MEMM
      • CRF优点
      • CRF VS 词典统计分词
      • MEMM 标记偏置
      • Bi-LSTM,CRF
      • 维特比算法
    • 文本分类/nlp综述
      • 综述
      • 文本预处理
      • 分类器
        • 机器学习方法
        • 深度学习方法
    • 知识图谱&实体链接
      • 概念解释
      • 实体链接
      • 知识图谱实体链接:一份“由浅入深”的综述
    • Learning to Rank
      • 基本介绍
      • PointWise
      • PairWise

推荐系统

  • 推荐系统
    • 工作总结
    • 学习资料
    • 整体概念
      • 为什么需要推荐系统
      • 推荐系统解决的问题
      • 推荐系统与搜索引擎的不同
      • 从用户层面推荐系统的作用
      • 知识图谱在推荐系统中的作用
      • 推荐系统分类
      • 基于内容的推荐
      • 协同过滤的推荐
    • 面试问题
      • NDCG : Normalized Discounted Cumulative Gain(归一化折损累计增益)
      • 如果模型速度慢,有什么办法解决
      • 剪枝(Pruning)
      • 知识蒸馏(Knowledge Distillation)
        • 排序模型的知识蒸馏
      • 召回的评估指标是什么 (从离线和在线指标)
        • 离线指标:
        • 在线指标:
      • pairwise 排序
        • pairwise 的样本在train和eval的时候是怎么生成的
        • 评价指标
    • A/B testing
      • 学习资料
      • 一些经验,需要消化
      • udacity a/b testing 笔记
      • 梳理Statistical Power和Significance Level
      • 常考问题
      • 第一类错误 vs 第二类错误
      • 统计显着=实际显着?
      • AB 测试效果统计上不显着?
      • 实验组优于对照组就能上线?
      • AB 测试的其他变式考法
      • 面试设计AB test的时候,一定要先明确 商业目标是什么
      • ABtest有什么缺点?
    • 论文阅读
      • 总体
      • 感想
      • FiBiNet 微博2019
      • DCN V2
        • 先复习一下DCN-V1
        • DCN-V2的改进
      • AFN
      • Facebook Que2Search
      • 广义随机森林GRF(Generalized Random Forests)
      • Deep Neural Networks for YouTube Recommendations

实用工具/北美面试额外

  • 实用工具
    • github操作
      • 命令
      • 学习资料
    • SQL语法
      • 学习资料
      • 经典解读
    • hadoop常用命令
      • DAG格式
      • 多输出路径
    • C++ 入门
  • Model Deployment
    • Docker
    • Kubernetes
    • Model Deployment
      • describe a project focused on the production phase
      • after the model is in production or went online, how do you monitor the model.
    • CI/CD
      • what is the end to end machine learning life cycle.
  • system Design

题目

  • Leetcode
    • 二分查找类
      • 二分查找
      • 搜索旋转排序数组
      • 在排序数组中查找元素的第一个和最后一个位置
      • 搜索插入位置
      • 寻找旋转排序数组中的最小值
      • 搜索旋转排序数组 II
      • 0~n-1中缺失的数字
      • x的平方根
      • 寻找峰值
      • 378. Kth Smallest Element in a Sorted Matrix
    • 排序
      • 快排
      • 数组中的逆序对
    • 需要维护一个队列/单调栈
      • 好像有一个规律
      • 柱状图中最大的矩形
      • 股票价格跨度
      • 滑动窗口最大值
      • 每日温度
      • 下一个更大元素 I
      • 132 模式
    • 滑动窗口
      • 最小覆盖子串
      • 最短超串
      • 找到字符串中所有字母异位词
      • 字符串的排列
      • 209. Minimum Size Subarray Sum
      • 3. Longest Substring Without Repeating Characters
      • 30. Substring with Concatenation of All Words
      • 和为s的连续正数序列
    • 二叉树
      • 前序遍历
      • 中序遍历
      • 后续遍历
      • 层次遍历
      • 相同的树
      • 树的子结构
      • 二叉树的镜像
      • 对称的二叉树
      • 二叉树中和为某一值的路径
      • 平衡二叉树
      • 从前序与中序遍历序列构造二叉树
      • 从中序与后序遍历序列构造二叉树
      • 199. 二叉树的右视图
      • 二叉树的最近公共祖先
      • 路径总和 III
      • Leetcode 426. Convert Binary Search Tree to Sorted Doubly Linked List (BST转换成双链表)
      • 114. Flatten Binary Tree to Linked List
      • 1530. Number of Good Leaf Nodes Pairs
      • 1028. 从先序遍历还原二叉树
    • 二叉搜索树 Binary Search Tree
      • Binary Search Tree的性质
      • 230. Kth Smallest Element in a BST
      • 538. Convert BST to Greater Tree
      • 530. Minimum Absolute Difference in BST
      • 173. Binary Search Tree Iterator
      • 98. Validate Binary Search Tree
      • 701. Insert into a Binary Search Tree
      • 450. Delete Node in a BST
      • 99. Recover Binary Search Tree
      • 其他题目
      • 二叉搜索树的最近公共祖先
    • 动态规划
      • 数组中出现次数超过一半的数字
      • 连续子数组的最大和/最大子序和
      • 乘积最大子数组
      • 1186. Maximum Subarray Sum with One Deletion
      • 把数组排成最小的数
      • 买卖股票的最佳时机
      • 买卖股票的最佳时机 II
      • 买卖股票的最佳时机 III
      • 买卖股票的最佳时机含冷冻期
      • 礼物的最大价值
      • 不同路径 II
      • 最小路径和
      • 最长不含重复字符的子字符串
      • 丑数
      • 丑数 II
      • Z 字形变换
      • 圆圈中最后剩下的数字
      • 整数转罗马数字
      • 罗马数字转整数
      • 最长公共前缀
      • 有效的括号
      • 括号生成
      • 下一个排列
      • 外观数列
      • Pow(x, n)
      • 跳跃游戏
      • 跳跃游戏 II
      • 不同路径
      • 简化路径
      • 颜色分类
      • 删除排序数组中的重复项 II
      • 编辑距离
      • 两个字符串的删除操作
      • 交错字符串
      • 不同的子序列
      • 最长公共子序列
      • 通配符匹配
      • 单词接龙
      • 最长上升子序列
      • 打家劫舍
      • 打家劫舍 II
      • 打家劫舍 III
      • 01背包问题
      • 分割等和子集
      • 目标和
      • 零钱兑换
      • 最长有效括号
      • 和为 K 的子数组
      • 49. Group Anagrams
      • 128. Longest Consecutive Sequence
    • 遍历(Traversal)
      • 125. Valid Palindrome
      • 最长回文子串
      • 盛最多水的容器
      • 三数之和 & 最接近的三数之和
      • 2340 - Minimum Adjacent Swaps to Make a Valid Array
      • 1031. Maximum Sum of Two Non-Overlapping Subarrays(list前缀和)
      • 1124. Longest Well-Performing Interval
      • 135. Candy
    • 区间问题
      • 合并区间
      • 插入区间
      • 会议室
      • 会议室II
      • 无重叠区间
      • 用最少数量的箭引爆气球
      • 汇总区间
    • 矩阵/二维数组
      • 旋转二维数组总结
      • 旋转图像
      • 螺旋矩阵/顺时针打印矩阵
      • 螺旋矩阵 II
      • 289. Game of Life
      • 73. Set Matrix Zeroes
      • 黑白棋翻转
      • 被围绕的区域
      • 最大矩形
      • 最大子矩阵
      • 329. Longest Increasing Path in a Matrix
      • 最长波动路径
    • 找规律&斐波拉契&数学
      • 跳台阶—斐波拉契
      • 剪绳子
      • 数字序列中某一位的数字
      • 把数字翻译成字符串
      • 解码方法
      • n个骰子的点数
      • 阶乘后的零
      • 小于n的最大整数
    • 链表
      • 前置学习内容
      • 反转链表
      • 反转链表 II
      • 141. Linked List Cycle
      • 两数相加
      • 25. Reverse Nodes in k-Group
      • 链表中倒数第k个节点
      • 19. Remove Nth Node From End of List
      • 合并两个排序的链表
      • 不用额外空间合并两个排序的list
      • 合并两个有序数组
      • 两个链表的第一个公共节点
      • 环形链表
      • 两两交换链表中的节点
      • 旋转链表
      • 删除排序链表中的重复元素 II
      • 删除排序链表中的重复元素
      • 分隔链表
      • 排序链表
      • 146. LRU Cache
    • Heap堆
      • python heapq用法
      • 215. Kth Largest Element in an Array
      • 295. Find Median from Data Stream
      • 373. Find K Pairs with Smallest Sums
      • 378. Kth Smallest Element in a Sorted Matrix
      • 502. IPO
    • 位运算
      • 数组中数字出现的次数 II
      • 数组中数字出现的次数
      • 格雷编码
    • 回溯/递归
      • 回溯模板
      • 组合总和
      • 组合总和 II
      • 全排列
      • 全排列 II
      • 组合
      • 子集
      • 子集 II
      • 单词搜索
      • 51. N-Queens
      • 单词拆分
      • 单词拆分 II (递归中非常重要的一点!强调
      • 为运算表达式设计优先级/ 对表达式添加括号并求值
      • 394. Decode String
    • 图
      • 133. Clone Graph
      • 399. Evaluate Division
      • 课程表
      • 课程表 II
      • 岛屿数量
      • 909. Snakes and Ladders
      • 433. Minimum Genetic Mutation
      • 127. Word Ladder
      • 310. Minimum Height Trees
      • 834. Sum of Distances in Tree
      • 743. Network Delay Time
      • 1631. Path With Minimum Effort
    • Trie
      • 208. Implement Trie (Prefix Tree)
      • 211. Design Add and Search Words Data Structure
    • python小知识点运用
      • 最大数–sort的key=cmp_to_key写法
      • 辗转相除法
      • 字符串的最大公因子—辗转相除法
      • 直线上最多的点数
      • 计数质数
    • 非常规题
      • 概率问题见 machine_learning 概率论
      • 用小随机数生成大随机数
      • 超多数字,从中找出只出现过一次的数字
      • 海量数据处理面试题
      • KMP
      • 用pytorch手写逻辑回归
  • lc 题型归类/模板
    • 二分查找
      • 模板
      • 注意点
      • 例题
      • 变体
    • 需要维护一个队列/单调栈
      • 注意点
      • 例题
    • 滑动窗口
      • 模板
      • 例题
    • 二叉树
      • 前中后序遍历 递归
      • 前中后序遍历 迭代
      • 层次遍历
      • 二叉搜索树 Binary Search Tree
    • 动态规划
      • 前缀和
      • 01背包
      • 编辑距离
    • 区间问题
      • 合并区间
    • 矩阵/二维数组
      • 四种翻转方法
    • 链表
      • 前置学习内容
      • 例题
    • 堆
    • 回溯/递归
      • 回溯模板
      • 例题
    • 图
      • 课程表
    • Trie

一些零散记录

  • 一些零散记录
    • 一些学习资料
    • 一些易忘的小代码
      • 生成a到z,判断是否是数字,判断是否是字母
      • 大写字母和小写字母的转换
      • python的正无穷和负无穷
      • defaultdict
      • dict.get
      • lambda
      • sort
      • re正则
      • enumerate
      • zip
      • map
      • tuple元组: list不能当字典里的key的时候
      • stack栈、queue队列、heap堆
      • *arg与**kwargs参数的用法
      • any / all
      • eval
      • path + [cur]
    • 零碎
      • ReadtheDocs、Sphinx、rst文件
      • tmux的使用
      • Linux中查看进程状态信息
      • 哈希表的原理
      • 生成器和迭代器
      • Python垃圾回收
      • 详解可变、不可变数据类型+引用、深|浅拷贝
      • python 常用的 string format 形式
      • linux 操作系统一些命令
      • pytorch,DDP(DistributedDataParallel)
        • 几个坑的地方要特别注意:
      • 排序问题
        • 选择排序
        • 希尔排序
        • 归并排序
        • 堆排序(Heap Sort)
        • 基数排序
        • 快速排序
        • 稳定性
        • 稳定性的用处
        • 初始状态的影响
      • topK 问题
      • python下划线
      • TF-IDF的计算
      • 多进程代码示例
    • 一些经典网络代码实现
      • SE-net
    • pandas和numpy
    • 职业发展
    • 个税申报
    • 投资理财
  • 面试总结
    • 面试-基础
      • 总结一下面试教训
      • 这次北美找工作的经验
      • 笔试做题和面试做题
      • 拿到offer之后需要问的问题
    • System Design
      • Consistent Hashing 一致性哈希
    • Behavior Questions
    • MLE/AS 面试
      • 参考资料
      • coding
      • ML design
      • ML knowledge
      • 欠缺需补
knowledge_record
  • 搜索


© 版权所有 2020, Chuankai Luo.

Built with Sphinx using a theme provided by Read the Docs.