经常看到社区推出各种 LLM,有 7B、13B、60B 等等,这些数值代表着模型的参数量,大家都知道数值越大,意味着模型的规模越大,那这些参数量到底是如何被计算出来的呢? ChatGPT 中的 GPT 全称是 Generative Pre-trained Transformer,它是基于 Transformer 架构建设的,市面上的大模型基本也采用此架
论文,我认为就是写的比较专业的博客,它的格式非常八股,基本都是按照这样的结构来呈现的:标题 → 概要 → 导言 → 方法 → 实验 → 结论。 下文较长,主要提到了几个检索方法和阅读工具,强烈推荐下 PopAI, h++ps://bit.ly/412xQbH,体验做的很不错。 很多朋友说论文读起来太晦涩且耗时,但事实
《揭秘拼多多:市值超越阿里,它是怎么做到的?》http://t.cn/A6lvgLBE,这篇文章的画面感很强,逻辑性也很强,重新认识了拼多多的文化。 比较好奇的是,这种文化,如果换了主帅,还会不会持续下去;假设公司遇到了危机,没有足够的钱留住员工时,文化还能传承么?
放下往往是最难的。事情在真实世界已经结束了,在心里却还在延续;当事人都已经放下了,旁观者却还穷追不舍。 放下,放过别人,也是放过自己。
pdf2htmlEX 是一个值得推荐的 PDF 转 HTML 工具,h++ps://github.com/pdf2htmlEX/pdf2htmlEX,它生成的内容还原度非常高,几乎与原 PDF 一致。 我去扒了下这个项目的历史,h++ps://github.com/coolwanglu/pdf2htmlEX/wiki/Author%27s-Words,作者因朋友抱怨没有一个在线 PDF viewer,于是他就撸了一个
Cloudflare Worker 已经支持了 Puppeteer 无头浏览器渲染了,它可以用于创建屏幕截图、抓取页面和测试 Web 应用程序等任务,h++ps://developers.cloudflare.com/browser-rendering/ 略有不同的是,Cloudflare fork 了 Puppeteer 代码做了一些修改,关键代码在这里:h++ps://
AI 辅助阅读并自动总结网页概要的工具多如牛毛,但把这件事情做好却并不容易,因为网页上存在太多乱七八糟的 DOM,包括导航菜单、广告和推荐模块等等,如果不抓核心内容直接无脑扔给 AI 处理,那效果一定是不佳的,尤其是杂乱内容占比过高时。 做了一些技术调研,找到如下几个工具/库,它们均可以辅助
学到两个读 arxiv PDF 论文的新技巧: 1)将域名中的 x 更换成 5,会跳转到 HTML 版本 2)将域名中的 v 更换成 w,会跳转到一个 AI Chat with PDF 版本 为了避免每次都手动修改,写了几句油猴脚本,会在 header 位置自动附加这两个链接:http://t.cn/A6lv0A4L #AI学习#
FunASR 是一个基础语音识别工具包,h++ps://github.com/alibaba-damo-academy/FunASR,相比 pyannote-audio 它的内容更加全面,包括了语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等模块,而且提供了非常多的预训练模型,h++ps://
OpenAI 推出的开源免费 Whisper 在语音识别领域(ASR)可以说无出其右,不过它有一个较大的局限性,就是无法进行说话人分类(Speaker diarization),尤其是在重叠语音检测(Overlapped speech detection)方面,Whisper 在训练过程中只识别了一个声音,同时将其他声音视为背景噪声。 社区有一个发展
self-operating-computer,h++ps://github.com/OthersideAI/self-operating-computer,这个项目演示了如何让 GPT-4V 来控制自己的电脑,你需要做的就是告诉它完成一个怎样的任务,例如,打开 Google Docs 写一篇文章,然后发布并分享给同事。 它的 Prompt 写的比较简单,定义了一个可以与机器交互的 D
Stephen Wolfram 是一名著作等身的初代程序员,他在 Youtube 上发布了一个 3h+ 的视频,《What is ChatGPT doing...and why does it work?》,http://t.cn/A6WFNnCJ,介绍了什么是 ChatGPT,以及它是如何工作的。 同时也整理了一份文字稿:http://t.cn/A6CwtHjy,把深奥的理论说得通俗易懂,如沐春风
想让浏览器网址栏支持站内检索,例如输入「twitter + tab 键」就可以直接开始 Twitter 的站内搜索: 站长可以使用 OpenSearch 协议在站点内增加一个 XML 描述文件,通过 type 为 search 的 rel link 标签告诉浏览器即可: <link rel="search" type="application/opensearchdescription+xml" title="
Progressive Web Apps (PWAs) 推出已经有八年多的时间了,http://t.cn/A6WFUWHw,这篇文章给出了一份 2023 年的统计报告,其中提到 2019 年 PWA 的全球市场价值为 11.3 亿美元,而 2027 年预计会达到 104.4 亿美元,普及率还会持续增长,今年的增长量就有 25%~30%。 在 Github 上找到一个 PWA Demo,h
看到一个屏蔽 Youtube 广告的新思路,代码十分简单,也超级鸡贼。 使用 MutationObserver API 识别到页面正在播放广告时(某些 DOM 节点会附加 ad-showing 之类的 class name),给 Video 自动设置成 16 倍速,10s 的广告不到 1s 就播放完毕😂 #web技术#
NordPass 公布了 2023 年 Top200 常见密码,其中“123456” 5 年 4 次登顶常见密码榜,可被 1 秒破解😂,相关文档:h++ps://nordpass.com/most-common-passwords-list/ 现在大多数的浏览器和系统层面都支持了原生的密码管理能力,十分建议针对不同的网站生成不同密码。个人使用的是 1Password,已经